Friday 18 June 2010

Ikhtisar Terjemahan Mesin (TM)

Istilah Terjemahan Mesin (TM) digunakan dalam arti terjemahan dari satu bahasa ke bahasa lain. Tujuan ideal sistem TM adalah untuk menghasilkan terjemahan sebaik mungkin tanpa bantuan manusia. Pada dasarnya setiap sistem TM memerlukan program untuk terjemahan dan kamus otomatis serta tata bahasa untuk mendukung terjemahan.


Tipe-tipe Sistem Terjemahan Mesin

Sistem TM yang menghasilkan terjemahan antara hanya dua bahasa tertentu disebut sistem bilingual, dan yang menghasilkan terjemahan untuk setiap pasangan bahasa tertentu disebut sistem multilingual. Sistem multilingual dapat berupa uni-directional atau bi-directional. Sistem multilingual lebih diutamakan untuk bi-directional dan bi-lingual karena mereka memiliki kemampuan untuk menerjemahkan dari bahasa tertentu ke bahasa tertentu lainnya dan sebaliknya.


Pendekatan Terjemahan Mesin Langsung (Direct Translation Machine)


Pendekatan terjemahan langsung adalah yang tertua dan pendekatan yang kurang populer. Sistem TM yang menggunakan pendekatan ini mampu menerjemahkan bahasa, disebut source language (SL) langsung ke bahasa lain, yang disebut target language (TL). Analisis teks SL berorientasi hanya untuk satu TL. sistem terjemahan langsung adalah pada dasarnya bilingual dan uni-directional.


Pendekatan Interlingua


Maksud pendekatan Interlingua untuk menerjemahkan teks SL dengan lebih dari satu bahasa. Terjemahan dari SL ke bentuk peralihan yang disebut Interlingua (IL) kemudian dari IL ke TL. Interlingua mungkin berupa bahasa buatan atau pembantu bahasa seperti bahasa Esperanto dengan kosakata universal.

Catatan :
Esperanto adalah bahasa artifisial yang diciptakan oleh Ludovich Zamenhoff, seorang Polandia. Nama "Esperanto" adalah nama samaran dari L.L Zamenhof sendiri ketika ia menerbitkan tentang bahasanya pada tahun 1887. Tujuan utama Zamenhof adalah untuk membuat bahasa netral yang mudah dipelajari dan digunakan sebagai bahasa perantara oleh berbagai orang yang memiliki bahasa ibu yang bermacam-macam.



Pendekatan Transfer

Tidak seperti pendekatan Interlingua, pendekatan transfer memiliki tiga tahap proses. Pada tahap pertama, teks SL dijabarkan ke SL-berorientasi representasi abstrak. Pada tahap kedua, representasi SL-berorientasi representasi dikonversi menjadi TL-berorientasi representasi setara. Final teks dihasilkan dalam tahap ketiga.


Pendekatan Empiris

Pendekatan empiris adalah pendekatan muncul yang menggunakan sejumlah besar data mentah dalam bentuk paralel korpus. Data mentah yang terdiri dari teks dan terjemahannya. Example-based MT, analogy-based MT, memory-based MT, and case-based MT adalah mesin-mesin dengan teknik yang menggunakan pendekatan empiris. Pada dasarnya semua teknik ini menggunakan korpus atau database sebagai contoh diterjemahkan. Statistical MT adalah mesin yang berbasis korpus tapi sedikit berbeda dalam arti bahwa ia bergantung pada pemodelan statistik dari urutan kata dari bahasa sasaran dan target kesetaraan sumber-kata. Statistical MT secara otomatis mempelajari kecendrungan leksikal dan struktur dari korpus. Model statistik menawarkan solusi yang baik untuk masalah ambiguitas. Mereka kuat dan bekerja dengan baik bahkan jika ada kesalahan dan adanya data baru.

Sumber :
http://language.worldofcomputing.net/category/machine-translation
http://id.wikipedia.org/wiki/Bahasa_Esperanto

Tuesday 1 June 2010

Merepresentasikan Bahasa dengan Pendekatan Chomsky

Apa itu bahasa dan bagaimana bahasa itu dapat didefinisikan? Pada level analisis sintaks, bahasa adalah kalimat yang dibuat dan dapat digunakan untuk berkomunikasi. Meskipun demikian, tidak semua urutan kata-kata dapat dikategorikan sebagai kalimat. Sebagai contoh, perhatikan kalimat–kalimat berikut ini, ada beberapa kalimat yang gramatikal dan ada yang tidak.
a. Fahmi berhasil mencapai puncak pohon itu.
b. Dalam beberapa hari terakhir, hujan mengguyur Kota Bandung tanpa henti.
c. Fahmi mencapai berhasil puncak pohon itu.
d. Dalam hari terakhir beberapa, hujan Kota Bandung mengguyur tanpa henti.
Dari contoh-contoh kalimat di atas, jelas sekali bahwa kalimat a dan b termasuk kalimat yang gramatikal, sedangkan dua kalimat lainnya, yaitu kalimat c dan d tidak termasuk kalimat yang gramatikal.
Suatu kalimat dikatakan gramatikal atau tidak tentu saja tidak dapat hanya dilakukan dengan sense, tapi tentu saja ada aturan-aturan yang berlaku untuk menentukannya. Pendekatan Chomsky untuk masalah ini dengan menggeser dari penekanan pada bahasa yang untuk semua tujuan praktis kepada penekanan pada tata bahasa atau aturan yang dapat menghasilkan bahasa.

Contoh :
Asumsikan bahwa kosa kata dibatasi sepasang huruf {a, b}. Kalimat-kalimat yang dapat dibentuk dari sepasang huruf ini antaranya adalah :
abba, abaaba, baabaabaab dan lain-lain.
Aturan untuk membentuk deretan huruf tersebut adalah :
S -> aa S -> aSa
S -> bb S -> bSb
Bagaimana aturan-aturan ini digunakan dalam membentuk sebuah kalimat? Langkah pertama tulislah S yang digunakan sebagai symbol inisiasi. Kemudian ganti S dengan salah satu dari 4 alternatif perluasan, misalnya S => aSa. Jika bentuk baru masih mengandung S, ganti kembali dengan salah satu dari 4 alternatif perluasan sampai tidak dapat diperluas lagi, atau dengan kata lain tidak mengandung S lagi.
Salah satu contoh urutan turunan sebuah kalimat berdasarkan aturan di atas adalah :
(1) S
(2) bSb
(3) baSab
(4) baaSaab
(5) baabSbaab
(6) baabaabaab
Langkah selanjutnya, kita akan memformalisasikan sebuah tata bahasa dan kemudian menjelaskan bagaimana pengetahuan dapat digunakan dalam mendefinisikan sebuah bahasa.

Definisi :
Sebuah grammer, G, dapat didefinisikan dalam bentuk sebuah himpunan yang terdiri dari 4 elemen (quadruple), dimana setiap elemen bersifat terbatas. G = (N, V, P, S0), dimana :
a. N adalah sebuah himpunan nonterminal
b. V adalah sebuah himpunan simbol terminal yang digunakan untuk mendefinisikan kalimat sebenarnya
c. P adalah himpunan aturan gramatikal, dan
d. S0 adalah nonterminal tunggal yang digunakan sebagai simbol inisiasi.

Sebagai contoh :
N = {S}
V = {a,b}
P = {S -> aa, S -> aSa, S -> bb, S -> bSb}
S0 = S
Himpunan N dan V tidak boleh overlap, dimana anggota-anggota himpunannya tidak boleh sama atau dengan kata lain : N U V = Q, dimana Q merupakan sebuah himpunan kosong.
Nonterminal dapat ditulis ulang atau diganti dan dapat muncul di sisi kiri maupun sisi kanan aturan, sedangkan terminal tidak dapat ditulis ulang atau diganti dan hanya dapat muncul di sisi kanan aturan.
Kumpulan aturan yang berhubungan dengan sebuah nonterminal dapat digabungkan penulisannya, misalnya ada sekumpulan aturan : X -> a1, X -> a2, dan X -> a3, dapat dituliskan sebagai : X -> a1 | a2 | a3.
Atau secara umum dapat ditulis dengan bentuk : X -> a1 | a2 | ... | an.

Sunday 16 May 2010

Kelas Kata bahasa Indonesia

Sejak sekolah dasar kita sudah dikenalkan dengan istilah kata benda, kata kerja, kata sifat dan lain-lain, itu adalah sebgian yang dikenal dengan kelas kata. Dalam bahasa Inggris dikenal dengan nama Part of Speech (PoS), sedangkan kumpulan PoS disebut dengan PoS set. Ternyata beberapa literatur Bahasa Indonesia tidak seragam dalam mendefinisikan PoS set ini, ada yang terdiri dari 8 kelas, 9 kelas sampai 13 kelas.
Ernawati Waridah dalam bukunya yang bejudul "EYD dan Seputar Kebahasa-Indonesiaan" membagi kelas kata bahasa Indonesia menjadi 13 yang terdiri dari :

1. Kata Kerja (Verba)
Kata kerja adalah kata yang menyatakan makna perbuatan, pekerjaan, tindakan, proses, atau keadaan. Misalnya makan, minum, menari dan lain-lain.

2. Kata Sifat (Adjektiva)
Kata sifat adalah kata yang menerangkan kata benda. Misalnya pintar, berkurang, pahit, musnah, berkurang dan lain-lain.

3. Kata Benda (Nomina)
Kata benda adalah kata yang mengacu pada manusia, binatang, benda, dan konsep atau pengertian. Misalnya singa, kursi, karyawan, dan lain-lain.

4. Kata Bilangan (Numeralia)
Kata Bilangan adalah kata yang dipakai untuk menghitung banyaknya benda (orang, binatang, atau barang) dan konsep. Misalnya satu, dua, setengah, seluruh, beberapa dan lain-lain.

5. Kata Ganti (Pronomina)
Kata ganti adalah kata yang berfungsi menggantikan orang, benda atau sesuatu yang dibendakan. Misalnya aku, saya, dia, mereka dan lain-lain.

6. Kata Keterangan (Adverbia)
Kata keterangan adalah kata yang memberi keterangan pada kata lainnya. Misalnya alangkah, amat, barangkali, belum, terlampau, diam-diam dan lain-lain.

7. Kata Tunjuk (Demonstrativa)
Kata tunjuk adalah kata yang dipakai untuk menunjuk atau menandai orang atau benda secara khusus. Misalnya ini, itu, berikut, di sini dan lain lain.

8. Kata Tanya (Interogativa)
Kata tanya adalah kata yang digunakan untuk menanyakan sesuatu, berdasarkan jenis dan pemakaiannya. Misalnya apa, apakah, bagaimana, mengapa dan lain-lain.

9. Kata Sandang (Artikula)
Kata sandang adalah kata yang dipakai untuk membatasi kata benda. Misalnya sang, si, kaum, umat dan lain-lain.

10. Kata Depan (Preposisi)
Kata depan adalah kata tugas yang berfungsi sebagai unsur pembentuk frasa preposisional. Misalnya di, ke, dari, untuk, oleh dan lain-lain.


11. Kata Seru (Interjeksi)
Kata seru adalah kata tugas yang mengunggapkan rasa hati manusia. Misalnya aduhai, amboi,asyik, alhamdulillah dan lain-lain.

12. Kata Penghubung (Konjungsi)
Kata penghubung adalah kata tugas yang menghubungkan dua klausa, kalimat, atau paragraf. Misalnya dan, atau, tetapi, sebab, karena dan lain-lain.

13. Kata Ulang (Reduplikasi)
Kata ulang adalah kata yang mrngalami proses pengulangan. Misalnya mobil-mobil, sayur-mayur, warna-warni, tolong-menolong dan lain-lain.

Setiap bahasa memiliki kelas kata yang berbeda-beda, kelas kata untuk bahasa Yunani telah didefinisikan oleh Dionysius Thrax pada tahun 100 SM yang terdiri atas delapan kelas kata, yaitu : noun, verb, pronoun, preposition, adverb, conjunction, particle, dan article.

Saat ini kelas kata untuk berbagai bahasa telah dikembangkan untuk keperluan komputerisasi, salah satunya adalah Penn Treebank oleh LINC Laboratory, Computer and Information Science Department, University of Pennsylvania yang terdiri dari 48 PoS tags.

Lewat PAN Localization Project, khusus untuk bahasa Indonesia telah dikembangkan kelas kata khusus untuk terjemahan ke bahasa Inggris pada tahun 2009 yang terdiri dari 29 PoS tags.