Perbandingan Metode Web Scraping Menggunakan CSS Selector dan Xpath Selector

  • Taufiq Rizaldi Jurusan Teknologi Informasi, Politeknik Negeri Jember
  • Hermawan Arief Putranto Jurusan Teknologi Informasi, Politeknik Negeri Jember
Keywords: web crawling, web scraping, scrapy, xpath, css selector

Abstract

Pemanfaatan data atau berita yang tersebar di internet untuk meningkatkan peluang keberhasilan dalam sebuah usaha melalui analisa trend pasar adalah hal yang sangat umum pada saat ini. Penjelajahan Web (Crawl) dan ekstraksi data dari web (Scraping) menjadi salah satu hal yang penting, agar tidak terjadi data yang kurang sempurna, dan data yang diterima adalah data yang paling baru. CSS Selector dan Xpath merupakan salah satu metode yang umum digunakan dalam melakukan proses crawling. Terdapat perbedaan dari jumlah data yang terambil, besar file output dan waktu pemrosesan dari kedua metode tersebut, dimana Xpath memiliki keunggulan pada jumlah data yang terambil dan waktu pemrosesnya yang berakibat pada ukuran file output yang lebih besar. Sedangkan untuk penggunaan memori pada kedua metode pada proses crawling tidak memiliki perbedaan yang signifikan.

References

[1] Akbar, S.A., Sediyonob, E. dan Nurhayati, O.D. (2015). Analisis Sentimen Berbasis Ontologi di Level Kalimat untuk Mengukur Persepsi Produk. Jurnal Informasi Bisnis.

[2] Kouzis-Loukas, D. (2016). Learning Scrapy. Birmingham-Mumbai: Packt Publishing.

[3] Hatzi, V. (2014). Web Page Download Scheduling Policies for Green Web Crawling. 22nd International Conference on Software, Telecommunications and Computer Networks (SoftCOM).

[4] Wang, J. dan Guo, Y. (2012). Scrapy-based Crawling and User-behavior Characteristics Analysis on Taobao. 2012 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discover.

[5] Wijaya, A.P. dan Santoso, H.A. (2016). Naive Bayes Classification pada Klasifikasi Dokumen Untuk Identifikasi Konten E-Government. Journal of Applied Intelligent System, pp. 48-55.
Published
2018-01-09
Section
Articles