Korpus Paralel Bahasa Indonesia - Bugis (IndoBugis 10K[2])
Hak Cipta
Korpus Paralel Bahasa Indonesia - Bugis (IndoBugis 10K[2])
Penelitian ini menghadirkan dataset Korpus Paralel Bahasa Indonesia–Bugis yang terdiri atas 10.000 kalimat. Setiap kalimat dalam bahasa Indonesia, dengan panjang 3–15 kata, diterjemahkan ke dalam bahasa Bugis oleh penutur asli, meliputi berbagai dialek seperti Soppeng, Bone, Wajo, dan Sinjai. Untuk menjamin kualitas, hasil terjemahan diverifikasi oleh tiga ahli bahasa, dan tingkat kesepakatan diverifikator diukur menggunakan Fleiss’ Kappa yang menunjukkan konsistensi tinggi. Dataset ini memiliki potensi pemanfaatan yang luas, antara lain untuk pelatihan model machine learning pada tugas penerjemahan mesin, pengembangan kamus bilingual/multilingual otomatis, cross-lingual NLP untuk bahasa sumber daya rendah, serta evaluasi kualitas terjemahan. Selain itu, korpus ini juga mendukung pelestarian dan dokumentasi bahasa Bugis, sekaligus membuka peluang pengembangan aplikasi NLP berbasis bahasa lokal, seperti chatbot atau sistem informasi. Dengan hadirnya korpus paralel ini, tidak hanya memperkaya sumber daya linguistik di Indonesia, tetapi juga memberikan kontribusi signifikan dalam pelestarian dan revitalisasi bahasa Bugis. Lebih jauh lagi, dataset ini diharapkan membuka peluang riset lanjutan dalam bidang linguistik komputasional, teknologi bahasa, serta pengembangan model AI untuk bahasa-bahasa lokal
2025-1756095729-l1fd
-
Pusat Data dan Informasi
andi002@brin.go.id
Badan Riset dan Inovasi Nasional
BD - Basis Data
Bandung
30 September 2025
EC002025209698
10 Desember 2025
10 Desember 2025
001049958
- Andi Djalal Latief
( Pusat Riset Sains Data dan Informasi ) - M. Teduh Uliniansyah
( Pusat Riset Sains Data dan Informasi ) - Yuyun
( Pusat Riset Sains Data dan Informasi ) - Agung Santosa
( Pusat Riset Sains Data dan Informasi ) - Elvira Nurfadhilah
( Pusat Riset Sains Data dan Informasi ) - Nuraisa Novia Hidayati
( Pusat Riset Sains Data dan Informasi ) - Siska Pebiana
( Pusat Riset Sains Data dan Informasi ) - Radhiyatul Fajri
( Pusat Riset Sains Data dan Informasi )
- Gusnawati
( Fakultas Ilmu Budaya, Universitas Hasanuddin ) - Hazriani
( Fakultas Ilmu Komputer Universitas Handayani ) - Nurfaedah
( Fakultas Ilmu Komputer Universitas Handayani ) - Mutahharah Nemin Kaharuddin
( Fakultas Ilmu Budaya Universitas Hasanuddin ) - Ita Rosvita
( Fakultas Bahasa dan Sastra Universitas Negeri Makassar ) - Pammuda
( Fakultas Ilmu Budaya Universitas Hasanuddin )