Wednesday 2 May 2012

Part of Speech Bahasa Indonesia


Berbagai set PoS bahasa Indonesia telah digunakan dalam penelitian-penelitian bidang pemrosesan bahasa alami (PBA), diantaranya lewat PAN Localization Project, khusus untuk bahasa Indonesia telah dikembangkan PoS khusus untuk terjemahan ke bahasa Inggris pada tahun 2009 (Adriani, 2009). PoS tersebut dibangun berdasarkan Penn Treebank PoS tag sets  terdiri dari 29 PoS tags. PoS utama Bahasa Indonesia adalah kata kerja (verb), kata sifat (adjective), kata keterangan (adverb), kata benda (noun), and kata tugas (function words), berdasarkan 5 (lima) PoS utama tersebut dan observasi data, Pisceldo dkk. (2009) mendefinisikan 37 tag untuk Bahasa Indonesia. Wicaksono dkk. (2010) dalam penelitiannya menggunakan 35 tag hasil dari modifikasi tagset yang dihasilkan oleh Adriani, (2009) dan Pisceldo dkk. (2009). Terakhir, Larasati dkk. (2011) menggunakan hanya 19 tag dalam penelitiannya.

Detail set PoS yang digunakan lebih detail dapat dilihat di :
Adriani, Mirna (2009), “Developing Postag for Bahasa Indonesia”, Diakses pada 1 April 2012 dari http://www.panl10n.net/Presentations/Laos/ RegionalConference/CorpusCollection/Tagset_Tagging_for_Bahasa_Idonesia.pdf
Larasati, Septina Dian, KuboĊˆ V, dan Zeman D. (2011). Indonesian Morphology Tool (MorphInd): Towards an Indonesian Corpus. SFCM 2011. Springer CCIS proceedings of the Workshop on Systems and Frameworks for Computational Morphology, Zurich.

Pisceldo, Femphy, Mirna Adriani, dan Ruli Manurung. (2009). Probabilistic Part of Speech Tagging for Bahasa Indonesia, Third International Wokshop on Malay and Indonesian Language Engineering, Singapore.
Wicaksono, Alfan Farizki dan Ayu Purwarianti. (2010). HMM Based Part-of-Speech Tagger for Bahasa Indonesia, The 4th International Malindo Wokshop, Jakarta.

Yang mana yang paling baik ? Saya sendiri sedang dalam proses mencari jawabannya. Semoga membantu.