Saat ini penggunaan bahasa daerah di masyarakat sudah mulai berkurang
dan semakin berubah akibat kemajuan zaman terutama perkembangan teknologi. Semakin lama penutur bahasa daerah semakin sedikit sehingga dikhawatirkan punahnya bahasa daerah.
Diperkirakan hanya separuh dari seluruh bahasa yang
dituturkan oleh manusia dunia sekarang ini yang masih akan eksis pada tahun
2100 nanti.
National geographic bahkan merinci lebih jelas bahwa satu
bahasa punah setiap 14 hari dan sebelum berganti abad dunia akan
kehilangan separuh dari sekitar 7.000 bahasa ibu yang masih ada di bumi
saat ini. UNESCO yang memiliki kekhawatiran sama juga memperkirakan
sekitar 3000 bahasa akan punah di akhir abad ini.
Menurut Summer Institute of Linguistic yang melakukan penelitian pada tahun 2006, jumlah bahasa daerah
di Indonesia mencapai 742 ragam yang menempatkan Indonesia pada urutan
ke-2 sedunia sebagai laboratorium keanekaragaman bahasa setelah Papua
Nugini yang memiliki 867 ragam bahasa
Berbagai cara dilakukan untuk mencegah kepunahan bahasa daerah, dari mulai memasukkannya ke dalam kurikulum sekolah, mengadakan seminar-seminar bahasa daerah, membuat dokumen-dokumen dalam bahasa daerah dan lain-lain.
Salah satu cara yang belum banyak ditempuh adalah dengan membangun mesin penerjemah. Meskipun sudah ada, tapi hanya sebatas bahasa tertentu saja, perlu dibangun sebuah sistem penerjemah yang mampu mengakomodir semua bahasa daerah di Indonesia.
Secara garis besar, ada dua pendekatan sistem mesin penerjemah, yaitu berbasis aturan (rule) dan statistik. Salah satu kelebihan mesin penerjemah berbasis aturan adalah kecepatan proses nya, sayangnya untuk setiap bahasa selalu memiliki aturan yang berbeda sehingga memerlukan pengetahuan tentang bahasa tersebut.
Kelebihan utama dari mesin penerjemah berbasis statistik adalah bersifat lebih umum sehingga untuk membangunnya tidak diperlukan pengetahuan bahasa, cukup dengan bermodalkan korpus paralel antara dua bahasa yang akan diterjemahkan. Kekurangannya adalah dalam segi kecepatan proses, yang salah satu cara mengatasinya dalah dengan menggunakan mesin berkecepatan tinggi. Cara lain untuk mengatasi kelemahan tersebut adalah dengan menggabungkan kedua pendekatan tersebut.
Prototype penggabungan aturan dan statistik mesin penerjemah untuk mereduksi kelemahan masing-masing pendekatan sedang kami bangun dengan memilih salah satu bahasa daerah yaitu bahasa Melayu Pontianak.
Translator Nusantara
Translator bahasa Indonesia ke bahasa Melayu Pontianak
Translator bahasa daerah (Melayu Pontianak, Melayu Sambas, Sunda, Jawa)
Penerjemah dokumen : detik.com dalam bahasa Melayu Pontianak
detik.com dalam bahasa Melayu Pontianak
Friday, 10 May 2013
Friday, 19 April 2013
Kumpulan Korpus Bahasa Indonesia
Untuk yang memerlukan monokorpus Bahasa Indonesia, silahkan diunduh disini :
Wikipedia
1. Wiki1 = Sumber : wikipedia indonesia
2. Wiki2 = Sumber : wikipedia indonesia
3. Wiki3 = Sumber : wikipedia indonesia
4. Wiki4 = Sumber : wikipedia indonesia
5. Wiki5 = Sumber : wikipedia indonesia
6. Wiki6 = Sumber : wikipedia indonesia
7. Wiki7 = Sumber : wikipedia indonesia
Berita
1. Berita1 = Sumber : detik
2. Berita2 = Sumber : detik
3. Berita3 = Sumber : detik
Bahan mentah korpus paralel :
BBC dwi bahasa (English-Indonesian) = Sumber : BBC
Berita dwi bahasa (English) = Sumber : Berita Jakarta
Berita dwi bahasa (Indonesian) = Sumber : Berita Jakarta
Semua korpus di atas masih mentah, belum di-"cleaning", hasil crawling dari berbagai sumber di internet.
herry_sujaini@yahoo.com
Wikipedia
1. Wiki1 = Sumber : wikipedia indonesia
2. Wiki2 = Sumber : wikipedia indonesia
3. Wiki3 = Sumber : wikipedia indonesia
4. Wiki4 = Sumber : wikipedia indonesia
5. Wiki5 = Sumber : wikipedia indonesia
6. Wiki6 = Sumber : wikipedia indonesia
7. Wiki7 = Sumber : wikipedia indonesia
Berita
1. Berita1 = Sumber : detik
2. Berita2 = Sumber : detik
3. Berita3 = Sumber : detik
Bahan mentah korpus paralel :
BBC dwi bahasa (English-Indonesian) = Sumber : BBC
Berita dwi bahasa (English) = Sumber : Berita Jakarta
Berita dwi bahasa (Indonesian) = Sumber : Berita Jakarta
Semua korpus di atas masih mentah, belum di-"cleaning", hasil crawling dari berbagai sumber di internet.
herry_sujaini@yahoo.com
Subscribe to:
Posts (Atom)