Untuk yang memerlukan monokorpus Bahasa Indonesia, silahkan diunduh disini :
Wikipedia
1. Wiki1 = Sumber : wikipedia indonesia
2. Wiki2 = Sumber : wikipedia indonesia
3. Wiki3 = Sumber : wikipedia indonesia
4. Wiki4 = Sumber : wikipedia indonesia
5. Wiki5 = Sumber : wikipedia indonesia
6. Wiki6 = Sumber : wikipedia indonesia
7. Wiki7 = Sumber : wikipedia indonesia
Berita
1. Berita1 = Sumber : detik
2. Berita2 = Sumber : detik
3. Berita3 = Sumber : detik
Bahan mentah korpus paralel :
BBC dwi bahasa (English-Indonesian) = Sumber : BBC
Berita dwi bahasa (English) = Sumber : Berita Jakarta
Berita dwi bahasa (Indonesian) = Sumber : Berita Jakarta
Semua korpus di atas masih mentah, belum di-"cleaning", hasil crawling dari berbagai sumber di internet.
herry_sujaini@yahoo.com
Showing posts with label Korpus. Show all posts
Showing posts with label Korpus. Show all posts
Friday, 19 April 2013
Friday, 4 May 2012
Korpus Paralel Indonesia-Inggris
Korpus
paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam
suatu bahasa dan terjemahannya. Korpus paralel merupakan bahan penting untuk melakukan eksperimen-eksperimen dalam bidang pemrosesan bahasa alami.
Korpus paralel banyak tersimpan dalam "hard disk" para peneliti, tapi sangat sedikit yang di-share. Korpus paralel Indonesia-Inggris yang dipublikasikan diantaranya :
- Korpus paralel yang yang terpublikasi,
- PAN Localization Project www.panl10n.net
- Korpus paralel Indonesia – Inggris (surface)
- domain ekonomi = 6.544 kalimat
- domain internasional = 6.642 kalimat
- domain sains = 6.355 kalimat
- domain olahraga = 4.483 kalimat
-
- Korpus paralel Indonesia – Inggris (surface+PoS+Lemma+morph) = 27.326 kalimat(Korpus Identic sudah menggabungkan isi dari korpus LPP)
Jika dirasakan kurang, silahkan menambahnya dengan mengumpulkan sendiri dari berbagai sumber di internet.
- Dokumen-dokumen yang tersedia di internet dalam dua bahasa (Indonesia dan Inggris),
- Situs yang menyediakan hasil terjemahan (dokomen asli dicari di situs lain), seperti http://pusaka.or.id/dokumen
- Situs resmi yang menyediakan dua bahasa seperti : http://www.indonesia.go.id, http://www.itb.ac.id
- Situs berita yang menyediakan berita dalam dua bahasa seperti : http://www.bbc.co.uk/indonesia/
- Dokumen yang tersedia dalam dua bahasa seperti pada : http://www.unmit.org/legal/UNTAET-Law/index-i.htm
- Teks film (movie subtitles) yang tersedia dalam dua bahasa (Indonesia dan Inggris).
Subscribe to:
Posts (Atom)