Stemming Bahasa Tetun Menggunakan Pendekatan Rule Based

Anita Guterres; Gunawan; Joan Santoso

doi:10.34148/teknika.v8i2.224

Anita Guterres Magister Teknologi Informasi, Sekolah Tinggi Teknik Surabaya
Gunawan Magister Teknologi Informasi, Sekolah Tinggi Teknik Surabaya
Joan Santoso Magister Teknologi Informasi, Sekolah Tinggi Teknik Surabaya

DOI: https://doi.org/10.34148/teknika.v8i2.224

Keywords: Bahasa Tetun, Stemmer

Abstract

Stemming adalah proses yang sangat penting untuk mencari kata dasar dari sebuah kata derivatif. Inti dari proses stemming adalah menghilangkan imbuhan pada suatu kata. Stemming sangat dibutuhkan untuk proses information retrieval system. Algoritma pada proses stemming bisa berbeda-beda pada setiap bahasa di berbeda negara. Data yang digunakan adalah 176 kata dasar dalam bahasa Tetun yang merupakan bahasa asli warga negara Timor Leste. Penelitian ini bertujuan untuk merancang algoritma baru yang tepat untuk stemming bahasa Tetun. Tahap awal stemming bahasa Tetun adalah proses filterisasi untuk menghilangkan tanda baca, angka, dan kata yang tidak penting. Lalu tahap tokenisasi untuk membuat variabel yang terdiri dari satu kata. Lalu setiap kata melalui proses stemming untuk menghilangkan imbuhan awalan, akhiran, dan konfiks. Analisis dilakukan berdasarkan kasus error stemming seperti overstemming, understemming, unchanged, dan spelling exception. Hasil uji coba yang didapatkan adalah algoritma stemming bahasa Tetun menghasilkan akurasi sebesar 90.52%.

Downloads

Download data is not yet available.

References

Adriani, M., Asian, J. & Nazief, B. (2007). Stemming Indonesian: A Confi x-Stripping Approach. ACM Transactions on Asian Language Information Processing, Vol. 6, No. 4, Article 13. 1-13.33.

Thangarasu, M & Manavalan, R (2013). A Literature Review: Stemming Algorithms for Indian Languages. Jurusan Ilmu Komputer dan Aplikasi Universitas Seni Rupa dan Sains KSRangasamy.