Dataset Kamus Elektronik Bahasa Indonesia untuk Pemrosesan Bahasa Alami

Hak Cipta

Dataset Kamus Elektronik Bahasa Indonesia untuk Pemrosesan Bahasa Alami

Kamus Elektronik Bahasa Indonesia (KEBI) untuk Pemrosesan Bahasa Alami merupakan sebuah leksikon elektronik komprehensif yang dirancang khusus untuk mendukung sistem mesin penerjemah dan aplikasi natural language processing (NLP) bahasa Indonesia. Struktur kamus ini bersifat hierarkis dan berpusat pada konsep kata dasar, yang bisa berupa morfem, kata sederhana, hingga idiom. Setiap kata dasar ini menjadi basis bagi pembentukan berbagai kata turunan. Desain ini secara efektif mengatasi kompleksitas bahasa Indonesia yang bersifat aglutinatif, seperti proses afiksasi (pemberian imbuhan) dan reduplikasi (pengulangan kata) sangat umum terjadi. KEBI menyediakan empat jenis informasi linguistik yang detail untuk setiap entri: a. Informasi Morfologi: Mendokumentasikan proses pembentukan kata turunan melalui kode-kode konjugasi (untuk afiks) dan kode reduplikasi. b. Informasi Sintaktik: Memberikan klasifikasi Part of Speech (POS) atau kelas kata yang sangat rinci, membedakan antara "kata isi" (substantiva, verba) dan "kata fungsi" (konjungsi, preposisi). c. Informasi Semantik: Mengklasifikasikan kata ke dalam sub-kategori semantik yang spesifik untuk menangani polisemi atau kata dengan banyak makna. d. Informasi Korespondensi Antarbahasa: Menghubungkan kata-kata dalam kamus dengan kamus konsep seperti Electronic Dictionary Research (EDR) yang dikembangkan di Jepang atau Wordnet yang dikembangkan di Universitas Princeton untuk mendukung sistem multibahasa. Secara keseluruhan, KEBI berfungsi sebagai sumber daya linguistik fundamental yang menyediakan data terstruktur untuk mengatasi tantangan dalam NLP bahasa Indonesia, seperti ambiguitas leksikal dan "vocabulary explosion" akibat kekayaan morfologinya.


2025-1758293673-drut

B-33060/III.6.3/TK.11.01/10/2025


( Lihat )

Pusat Riset Sains Data dan Informasi

gunarso@brin.go.id

Badan Riset dan Inovasi Nasional

BD - Basis Data

Jakarta

31 Agustus 2025

EC002025209664

10 Desember 2025

10 Desember 2025

001049924


  • Gunarso
    ( Pusat Riset Sains Data dan Informasi )
  • M. Teduh Uliniansyah
    ( Pusat Riset Sains Data dan Informasi )
  • Agung Santosa
    ( Pusat Riset Sains Data dan Informasi )
  • Asril
    ( Pusat Riset Sains Data dan Informasi )
  • Elvira Nurfadhilah
    ( Pusat Riset Sains Data dan Informasi )
  • Lyla Ruslana Aini
    ( Pusat Riset Sains Data dan Informasi )
  • Hammam Riza
    ( Pusat Riset Kecerdasan Artifisial dan Keamanan Siber )
Kembali