BLEU
mengukur modified n-gram precision score antara hasil terjemahan
otomatis dengan terjemahan rujukan dan menggunakan konstanta yang
dinamakan brevity penalty
(Papineni, 2002).
dimana
wn = 1/N.
Simbol
BP merupakan brevity penalty, c merupakan jumlah kata dari
hasil terjemahan otomatis, r merupakan jumlah kata dari rujukan, dan
pn merupakan modified precision
score. Nilai wn adalah 1/N. Standar nilai N untuk BLEU adalah 4,
karena nilai presisi BLEU pada umumnya dihitung sampai 4-gram saja.
Simbol pn diperoleh dari jumlah n-gram pada hasil
terjemahan yang cocok dengan rujukan dibagi dengan jumlah n-gram pada
hasil terjemahan.
Sebagai
contoh, jika sebuah mesin menghasilkan terjemahan :
indonesia
akan melakukan pesta pemilihan
dengan
kalimat referensi
rakyat
indonesia akan melakukan pesta demokrasi
maka
penilaian dengan metode BLEU adalah sebagai berikut.
Jumlah
kata dalam kalimat hasil terjemahan c = 5.
Jumlah
kata dalam kalimat referensi r = 6.
Dari
persamaan (28), karena c ≤
r, maka BPBLEU
= e(1-r/c)
, sehingga
BPBLEU
= e(1-6/5)
=
0,8187
Dari
kalimat hasil terjemahan dan referensi, terdapat lima unigram pada
kalimat terjemahan (indonesia, akan, melakukan,
pesta, pemilihan) dan empat unigram yang sama dengan
referensi (indonesia, akan, melakukan, pesta),
sehingga :
log p1
= log (4/5)
=
-0,2231
Terdapat
empat 2-gram pada kalimat terjemahan dan tiga 2-gram yang sama dengan
referensi, sehingga :
log p2
= log (3/4)
=
-0,2877
Dengan
cara yang sama :
log p3
= log (2/3)
=
-0,4055
log p4
= log (1/2)
=
-0,6931
Karena
wn
= ¼ (1/N), nilai akhir dari BLEU
dari persamaan (30) adalah :
BLEU = 0,8187 . 1/4 ( (-0,2231) + (- 0,2877) + (-0,4055) + (-0,6931)
)
= 0,5475
= 54,75 %
Sumber :
Papineni, K., Roukos, S., Ward, T., dan Zhu, W.-J. (2002) : BLEU:
A Method For Automatic Evaluation
of Machine Translation,
In
Proceedings of the 40th Annual Meeting of the Association of
Computational Linguistics (ACL), Pennsylvania,
311-318.