Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

  • Monica Widiasri Program Studi Teknik Informatika, Universitas Surabaya
  • Ellysa Tjandra Program Studi Teknik Informatika, Universitas Surabaya
  • Lisa Maria Chandra Program Studi Teknik Informatika, Universitas Surabaya
Keywords: porter stemmer, inverted index, okapi BM25

Abstract

Proses pencarian dokumen yang menggunakan information retrieval akan menerima query dan mengembalikan dokumen yang relevan dengan query pencarian tersebut. Relevansi diperhitungkan dari relevansi kata pada query dan kumpulan dokumen yang dicari. Pada sistem pencarian yang tidak mempertimbangkan variasi morfologi kata mengakibatkan dokumen yang mempunyai kata yang merupakan variasi dari kata pada query tidak dianggap sebagai dokumen hasil pencarian. Proses stemming dilakukan untuk mengenali variasi morfologi tersebut, dengan cara melakukan perubahan pada kata-kata berimbuhan dengan cara penghapusan awalan dan akhiran suatu kata menjadi kata dasarnya. Proses stemming dilakukan pada proses indexing, sehingga akan mengurangi ukuran dari index file. Hal itu dapat mengurangi waktu pencarian dan kebutuhan memori. Dokumen hasil pencarian akan ditampilkan sesuai nilai peringkat relevansi dokumen dengan query yang diberikan. Pemberian peringkat dilakukan dengan cara memberikan bobot pada dokumen. Dokumen yang mempunyai relevansi kata yang tinggi dengan query, akan diberikan bobot yang lebih besar. Pada sistem pencarian Tugas Akhir pada Universitas X, belum dilakukan proses stemming dan indexing. Untuk meningkatkan kinerja pencarian Tugas Akhir tersebut akan ditambahkan proses stemming dan indexing, serta pengurutan peringkat dokumen hasil pencarian. Proses stemming menggunakan porter stemmer bahasa Indonesia karena dokumen TA yang dicari berbahasa Indonesia, proses indexing menggunakan inverted index. Serta pengurutan dokumen hasil menggunakan fungsi peringkat Okapi BM25. Dari hasil uji coba, proses stemming dan fungsi peringkat yang dilakukan memberikan hasil pencarian yang lebih baik sesuai relevansi query. Penggunaan stemming dan inverted index menghemat penggunaan memori serta dapat mempercepat proses pencarian secara signifikan.

References

[1] Karaa, W.B.A. (2013). A New Stemmer to Improve Information Retrieval. International Journal of Network Security & Its Applications (IJNSA).

[2] He, B., Ounis, I. (2005). Term Frequency Normalisation Tuning for BM25 and DFR Models, ECIR:Springer.

[3] Ceri, S. dkk. (2013). Web Information Retrieval. Milan, Italy: Springer-Verlag Berlin Heidelberg.

[4] Tjandra, E., Widiasri, M. (2015). Sistem Repositori Tugas Akhir Mahasiswa dengan Fungsi Peringkat Okapi BM25. Surabaya: Universitas Airlangga.

[5] Tala, F. Z. (2003). A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. [Online] Netherlands: Universiteit van Amsterdam. Available: https://www.illc.uva.nl/Research/Publications/Reports/MoL-2003-02.text.pdf.

[6] Manning, C.D., Raghavan, P., Sch├╝tze, H. (2008). An introduction to information retrieval. England: Cambridge University Press.

[7] Catena, M., Macdonal C., dan Ounis, I. (2014). On Inverted Index Compression for Search Engine Efficiency, Switzerland: Springer.

[8] Russell, S. dan Norvig, P. (2009). Artificial Intelligence : a Modern Approach. 3rd ed. Upper Saddle River, NJ: Prentice Hall.
Published
2018-01-09
Section
Articles
Bookmark and Share