Showing posts with label Korpus. Show all posts
Showing posts with label Korpus. Show all posts

Friday, 19 April 2013

Kumpulan Korpus Bahasa Indonesia

Untuk yang memerlukan monokorpus Bahasa Indonesia, silahkan diunduh disini :

Wikipedia
1. Wiki1 = Sumber : wikipedia indonesia
2. Wiki2 = Sumber : wikipedia indonesia
3. Wiki3 = Sumber : wikipedia indonesia
4. Wiki4 = Sumber : wikipedia indonesia
5. Wiki5 = Sumber : wikipedia indonesia
6. Wiki6 = Sumber : wikipedia indonesia
7. Wiki7 = Sumber : wikipedia indonesia

Berita
1. Berita1 = Sumber : detik
2. Berita2 = Sumber : detik
3. Berita3 = Sumber : detik

Bahan mentah korpus paralel :
BBC dwi bahasa (English-Indonesian) = Sumber : BBC
Berita dwi bahasa (English) = Sumber : Berita Jakarta
Berita dwi bahasa (Indonesian) = Sumber : Berita Jakarta

Semua korpus di atas masih mentah, belum di-"cleaning", hasil crawling dari berbagai sumber di internet.

herry_sujaini@yahoo.com

Friday, 4 May 2012

Korpus Paralel Indonesia-Inggris


Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Korpus paralel merupakan bahan penting untuk melakukan eksperimen-eksperimen dalam bidang pemrosesan bahasa alami.
Korpus paralel banyak tersimpan dalam "hard disk" para peneliti, tapi sangat sedikit yang di-share. Korpus paralel Indonesia-Inggris yang dipublikasikan  diantaranya :
  • Korpus paralel yang yang terpublikasi,
    • PAN Localization Project www.panl10n.net
      • Korpus paralel Indonesia – Inggris (surface)
      • domain ekonomi = 6.544 kalimat
      • domain internasional = 6.642 kalimat
      • domain sains = 6.355 kalimat
      • domain olahraga = 4.483 kalimat
      • Korpus paralel Indonesia – Inggris (surface+PoS+Lemma+morph) = 27.326 kalimat
        (Korpus Identic sudah menggabungkan isi dari korpus LPP)

        Jika dirasakan kurang, silahkan menambahnya dengan mengumpulkan sendiri dari berbagai sumber di internet.


  • Dokumen-dokumen yang tersedia di internet dalam dua bahasa (Indonesia dan Inggris),
  • Teks film (movie subtitles) yang tersedia dalam dua bahasa (Indonesia dan Inggris).