Perbandingan Metode Web Scraping Menggunakan CSS Selector dan Xpath Selector

Taufiq Rizaldi; Hermawan Arief Putranto

doi:10.34148/teknika.v6i1.56

Authors

Taufiq Rizaldi Jurusan Teknologi Informasi, Politeknik Negeri Jember
Hermawan Arief Putranto Jurusan Teknologi Informasi, Politeknik Negeri Jember

DOI:

https://doi.org/10.34148/teknika.v6i1.56

Keywords:

web crawling, web scraping, scrapy, xpath, css selector

Abstract

Pemanfaatan data atau berita yang tersebar di internet untuk meningkatkan peluang keberhasilan dalam sebuah usaha melalui analisa trend pasar adalah hal yang sangat umum pada saat ini. Penjelajahan Web (Crawl) dan ekstraksi data dari web (Scraping) menjadi salah satu hal yang penting, agar tidak terjadi data yang kurang sempurna, dan data yang diterima adalah data yang paling baru. CSS Selector dan Xpath merupakan salah satu metode yang umum digunakan dalam melakukan proses crawling. Terdapat perbedaan dari jumlah data yang terambil, besar file output dan waktu pemrosesan dari kedua metode tersebut, dimana Xpath memiliki keunggulan pada jumlah data yang terambil dan waktu pemrosesnya yang berakibat pada ukuran file output yang lebih besar. Sedangkan untuk penggunaan memori pada kedua metode pada proses crawling tidak memiliki perbedaan yang signifikan.

Downloads

Download data is not yet available.

References

[1] Akbar, S.A., Sediyonob, E. dan Nurhayati, O.D. (2015). Analisis Sentimen Berbasis Ontologi di Level Kalimat untuk Mengukur Persepsi Produk. Jurnal Informasi Bisnis.

[2] Kouzis-Loukas, D. (2016). Learning Scrapy. Birmingham-Mumbai: Packt Publishing.

[3] Hatzi, V. (2014). Web Page Download Scheduling Policies for Green Web Crawling. 22nd International Conference on Software, Telecommunications and Computer Networks (SoftCOM).

[4] Wang, J. dan Guo, Y. (2012). Scrapy-based Crawling and User-behavior Characteristics Analysis on Taobao. 2012 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discover.

[5] Wijaya, A.P. dan Santoso, H.A. (2016). Naive Bayes Classification pada Klasifikasi Dokumen Untuk Identifikasi Konten E-Government. Journal of Applied Intelligent System, pp. 48-55.

Perbandingan Metode Web Scraping Menggunakan CSS Selector dan Xpath Selector

Authors

DOI:

Keywords:

Abstract

Downloads

References

Downloads

Published

Issue

Section

How to Cite

issn

Make a Submission

penulisanartikel

indexing

Information

Latest publications

flagcounter

statcounter