cammane: Mengukur Hasil Terjemahan dengan BLEU (Bilingual Evaluation Understudy)

BLEU mengukur modified n-gram precision score antara hasil terjemahan otomatis dengan terjemahan rujukan dan menggunakan konstanta yang dinamakan brevity penalty (Papineni, 2002).

dimana w_n = 1/N.

Simbol BP merupakan brevity penalty, c merupakan jumlah kata dari hasil terjemahan otomatis, r merupakan jumlah kata dari rujukan, dan pn merupakan modified precision score. Nilai wn adalah 1/N. Standar nilai N untuk BLEU adalah 4, karena nilai presisi BLEU pada umumnya dihitung sampai 4-gram saja. Simbol p_n diperoleh dari jumlah n-gram pada hasil terjemahan yang cocok dengan rujukan dibagi dengan jumlah n-gram pada hasil terjemahan.

Sebagai contoh, jika sebuah mesin menghasilkan terjemahan :

indonesia akan melakukan pesta pemilihan

dengan kalimat referensi

rakyat indonesia akan melakukan pesta demokrasi

maka penilaian dengan metode BLEU adalah sebagai berikut.

Jumlah kata dalam kalimat hasil terjemahan c = 5.

Jumlah kata dalam kalimat referensi r = 6.

Dari persamaan (28), karena c ≤ r, maka BP_BLEU = e^(1-r/c) , sehingga

BP_BLEU = e^(1-6/5)

= 0,8187

Dari kalimat hasil terjemahan dan referensi, terdapat lima unigram pada kalimat terjemahan (indonesia, akan, melakukan, pesta, pemilihan) dan empat unigram yang sama dengan referensi (indonesia, akan, melakukan, pesta), sehingga :

log p₁ = log (4/5)

= -0,2231

Terdapat empat 2-gram pada kalimat terjemahan dan tiga 2-gram yang sama dengan referensi, sehingga :

log p₂ = log (3/4)

= -0,2877

Dengan cara yang sama :

log p₃ = log (2/3)

= -0,4055

log p₄ = log (1/2)

= -0,6931

Karena w_n = ¼ (1/N), nilai akhir dari BLEU dari persamaan (30) adalah :

BLEU = 0,8187 . 1/4 ( (-0,2231) + (- 0,2877) + (-0,4055) + (-0,6931) )

= 0,5475

= 54,75 %

Sumber :

Papineni, K., Roukos, S., Ward, T., dan Zhu, W.-J. (2002) : BLEU: A Method For Automatic Evaluation of Machine Translation, In Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics (ACL), Pennsylvania, 311-318.

Wednesday, 9 April 2014

Mengukur Hasil Terjemahan dengan BLEU (Bilingual Evaluation Understudy)