cammane: Optimalisasi Penggunaan Part of Speech (PoS) dalam Mesin Penerjemah

Mesin penerjemah (MP) adalah mesin yang dapat melakukan penerjemahan dari suatu bahasa ke bahasa yang lain secara otomatis. MP memiliki kegunaan praktis yang jelas karena dapat membantu manusia untuk berkomunikasi dengan orang lain yang memiliki bahasa yang berbeda. Dalam era globalisasi, masalah ini menjadi lebih penting. MP dapat meningkatkan efisiensi penerjemahan manual oleh manusia yang memiliki sumber daya terbatas dan mahal. Selain itu, modalitas komunikasi telah menjadi semakin bervariasi dan instan. Email, sms, bbm, media sosial online dan konferensi video merupakan bagian integral dari masyarakat informasi sekarang ini. Mesin terjemahan menawarkan respon langsung dan segera yang akan sulit untuk ditangani oleh penerjemahan manusia.

Proyek mesin penerjemah pertama kali dilakukan di Georgetown University pada tahun 1954 memiliki sasaran yang ideal yaitu ”terjemahan kualitas tinggi yang dilakukan sepenuhnya secara otomatis” (fully automatic high quality translation (FAHQT)). Proyek ini dinilai gagal oleh Automatic Language Processing Advisory Committee (ALPAC), sehingga para peneliti semakin realistis dan semakin menyadari keterbatasan komputer sebagai alat penterjemah.

Salah satu pendekatan MP adalah dengan menggunakan pendekatan statistik yang menggunakan konsep probabilitas. Untuk setiap pasangan kalimat (s,t) akan diberikan sebuah P(t|s) yang diinterpretasikan sebagai distribusi probabilitas dimana MP akan menghasilkan t dalam bahasa tujuan ketika diberikan s dalam bahasa sumber.

Beberapa penelitian telah memperlihatkan bahwa kualitas MP semakin baik dengan tambahan fitur-fitur seperti lemma, part of speech (PoS), gender dan lain-lain seperti yang diperlihatkan pada penelitian-penelitian Koehn dan Hieu Hoang (2007), Youssef dkk. (2009), Razavian dkk. (2010), dan Sujaini dkk. (2012).

Pada penelitian-penelitian dalam bidang pemrosesan bahasa alami (PBA), khususnya sistem MP, set PoS bahasa Indonesia yang digunakan sangat bervariasi seperti yang digunakan oleh Pisceldo dkk. (2009), Adriani (2009), Wicaksono dan Purwarianti (2010), dan Larasati dkk., (2011).

Secara umum keempat set PoS mengacu pada PoS umum bahasa Indonesia, hanya berbeda pada pembagian terhadap PoS utama tersebut. Sebagai contoh, Adriani dan Fempy membagi Noun menjadi NNC (countable common noun), NNU (uncountable common noun), NNG (genitive common noun) dan NNP (proper common noun), Alfan membaginya menjadi NN (common noun), NNG, dan NNP, sedangkan Larasati hanya membagi menjadi 2 PoS yaitu NN dan NNP.

Perbedaan penggunaan set PoS tentu saja berakibat pada perbedaan tingkat ambiguitas sintaksis, Resnik (1993) menjelaskan bahwa dalam banyak kasus, ambiguitas sintaksis dapat diselesaikan dengan bantuan pengetahuan semantik, terkait erat dengan item leksikal dalam kalimat.

Untuk mengoptimalkan penggunaan PoS dalam usaha peningkatan kualitas hasil terjemahan, Set PoS dapat ditentukan secara komputasi lewat pendekatan kemiripan kata (word similarity). Dari hasil penentuan set PoS secara komputasi, didapat perbedaan set jika dibandingkan set PoS secara tata bahasa. Sebagai contoh, kata kerja (verba) dalam tata bahasa Indonesia biasanya terbagi atas verba transitif dan intransitif, akan tetapi distribusi penempatannya dalam kalimat ternyata terbagi atas verba transitif dan intransitif, verba pasif (dibuat, digunakan, dilaksanakan, dll.), kata kerja yang memiliki makna “menjadi” (melemah, membaik, mengecil dll.).

Sumber :
Koehn, P., dan Hoang, H. (2007) : Factored Translation Models, Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, 868-876.
Razavian, Sharif, N. dan Vogel, S. (2010) : Fixed Length Word Suffix for Factored Statistical Machine Translation, Proceedings of the ACL 2010 Conference Short Papers, Uppsala, 147-150.
Sujaini, H., Kuspriyanto, Arman, A.A., dan Purwarianti, A. (2012) : Pengaruh Part-Of-Speech pada Mesin Penerjemah Bahasa Inggris-Indonesia Berbasis Factored Translation Model , SNATI 2012, Yogyakarta, H77-H82.
Youssef, I., Sakr, M. dan Kouta, M. (2009) : Linguistic Factors in Statistical Machine Translation Involving Arabic Language, IJCSNS International Journal of Computer Science and Network Security, 9(11),154-159.
Adriani, M dan Riza, H. (2009) : Research Report on Local Language Computing: Development of Indonesian Language Resources and Translation System, PAN Localization, 102042.
Pisceldo, F., Adriani, M., dan Manurung, R. (2009) : Probabilistic Part of Speech Tagging for Bahasa Indonesia, Third International Wokshop on Malay and Indonesian Language Engineering, Singapore.
Wicaksono, A.F. dan Purwarianti, A. (2010) : HMM Based Part-of-Speech Tagger for Bahasa Indonesia, The 4th International Malindo Wokshop, Jakarta, 94-100.
Larasati, S.D., Kuboň, V, dan Zeman, D. (2011) : Indonesian Morphology Tool (MorphInd): Towards an Indonesian Corpus, SFCM 2011. Springer CCIS proceedings of the Workshop on Systems and Frameworks for Computational Morphology, Zurich. 119-129.
Resnik, P. (1993) : Semantic classes and syntactic ambiguity, HLT '93 Proceedings of the workshop on Human Language Technology, 278-283.

Sunday, 6 April 2014

Optimalisasi Penggunaan Part of Speech (PoS) dalam Mesin Penerjemah