Model Optimasi SVM Dengan PSO-GA dan SMOTE Dalam Menangani High Dimensional dan Imbalance Data Banjir

  • Raenald Syaputra Program Studi Teknik Informatika, Universitas Muhammadiyah Kalimantan Timur, Samarinda, Kalimantan Timur
  • Taghfirul Azhima Yoga Siswa Program Studi Teknik Informatika, Universitas Muhammadiyah Kalimantan Timur, Samarinda, Kalimantan Timur
  • Wawan Joko Pranoto Program Studi Teknik Informatika, Universitas Muhammadiyah Kalimantan Timur, Samarinda, Kalimantan Timur
Keywords: Klasifikasi Banjir, SVM, SMOTE, GA, PSO

Abstract

Banjir merupakan salah satu bencana alam yang sering terjadi di Indonesia, termasuk di Kota Samarinda dengan 18-33 titik desa terdampak dari tahun 2018-2021. Penggunaan machine learning dalam mengklasifikasi bencana banjir sangat penting untuk memprediksi kejadian di masa mendatang. Beberapa penelitian sebelumnya terkait klasifikasi data banjir dalam 3 tahun terakhir telah dilakukan. Namun, dari beberapa penelitian tersebut memunculkan masalah terkait dengan dataset high dimensional yang dapat menurunkan performa model klasifikasi dan menyebabkan overfitting. Selain itu, masalah lain juga muncul dalam hal imbalance data yang menyebabkan bias terhadap kelas mayoritas dan representasi yang tidak akurat. Oleh karena itu, permasalahan dataset high dimensional dan imbalance data merupakan tantangan spesifik yang harus diatas dalam klasifkasi data banjir Kota Samarinda. Penelitian ini bertujuan mengidentifkasi fitur-fitur yang diperoleh dari seleksi fitur Genetic Algorithm (GA) yang memiliki pengaruh terhadap akurasi klasifikasi data banjir Kota Samarinda menggunakan algoritma Support Vector Machine (SVM), serta meningkatkan akurasi klasifikasi data banjir di Kota Samarinda dengan mengimplementasikan algoritma SVM yang dikombinasikan dengan metode Synthetic Minority Oversampling Technique (SMOTE) untuk oversampling, seleksi fitur dengan GA dan optimasi menggunakan Particle Swarm Optimization (PSO). Teknik validasi yang digunakan adalah 10-fold cross validation dan evaluasi performa menggunakan confusion matrix. Data yang digunakan berasal dari BPBD (Badan Penanggulangan Bencana Daerah) dan BMKG (Badan Meteorologi, Klimatologi, dan Geofisika) Kota Samarinda pada tahun 2021-2023 terdiri dari 11 fitur dan 1.095 record. Hasil penelitian menunjukkan bahwa fitur-fitur penting yang terpilih melalui GA adalah temperatur maksimum, kecepatan angin maksimum, arah angin maksimum, arah angin terbanyak, lamanya penyinaran matahari dan kecepatan angin rata-rata. Dengan kombinasi metode SVM, SMOTE, GA dan PSO, akurasi klasifikasi data banjir mencapai 82,28%. Namun, penelitian ini juga menghadapi tantangan seperti kontradiksi hasil dengan penelitian lain terkait penggunaan SMOTE dan variasi hasil akibat karakteristik dataset serta metode pembagian data yang berbeda. Hasil penelitian ini dapat digunakan oleh pemerintah daerah dan badan penanggulangan bencana daerah Kota Samarinda untuk memprediksi kejadian banjir dengan lebih akurat, serta memungkinkan tindakan pencegahan yang lebih efektif. Penerapan hasil penelitian ini dapat meningkatkan efektivitas dalam mitigasi bencana banjir Kota Samarinda.

Downloads

Download data is not yet available.

References

R. Mustajab, “BNPB: Indonesia Alami 3.522 Bencana Alam pada 2022,” Dataindonesia.id, 2023.

F. S. Pratiwi, “Data Kejadian Bencana Alam di Indonesia Sepanjang Tahun 2023,” Dataindonesia.id, 2024.

BPS Kota Samarinda, “Jumlah Desa /Kelurahan yang Mengalami Bencana Alam (Banjir) Menurut Kecamatan di Kota Samarinda.” p. https://samarindakota.bps.go.id, 2020.

L. Tarasova et al., “Causative classification of river flood events,” Wiley Interdiscip. Rev. Water, vol. 6, no. 4, pp. 1–23, 2019, doi: 10.1002/wat2.1353.

Aditya Gumilar, Sri Suryani Prasetiyowati, and Yuliant Sibaroni, “Performance Analysis of Hybrid Machine Learning Methods on Imbalanced Data (Rainfall Classification),” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 6, no. 3, pp. 481–490, 2022, doi: 10.29207/resti.v6i3.4142.

N. M. Nawi, M. Makhtar, M. Z. Salikon, and Z. A. Afip, “A comparative analysis of classification techniques on predicting flood risk,” Indones. J. Electr. Eng. Comput. Sci., vol. 18, no. 3, pp. 1342–1350, 2020, doi: 10.11591/ijeecs.v18.i3.pp1342-1350.

A. A. Bagaskara, “Klasifikasi Daerah Rawan Banjir menggunakan 10-Fold Cross Validation dan K-Nearest Neighbors,” vol. 13, pp. 315–323, 2023, [Online]. Available: https://repository.uksw.edu/handle/123456789/32366%0Ahttps://repository.uksw.edu/bitstream/123456789/32366/3/T1_682019079_Daftar Pustaka.pdf

T. A. Khan, M. Alam, S. F. Ahmed, Z. Shahid, and M. S. Mazliham, “A Factual Flash Flood Evaluation using SVM and K-NN,” ICETAS 2019 - 2019 6th IEEE Int. Conf. Eng. Technol. Appl. Sci., 2019, doi: 10.1109/ICETAS48360.2019.9117424.

S. Velliangiri, S. Alagumuthukrishnan, and S. I. Thankumar Joseph, “A Review of Dimensionality Reduction Techniques for Efficient Computation,” Procedia Comput. Sci., vol. 165, pp. 104–111, 2019, doi: 10.1016/j.procs.2020.01.079.

B. Pes, “Learning from high-dimensional and class-imbalanced datasets using random forests,” Inf., vol. 12, no. 8, 2021, doi: 10.3390/info12080286.

Sopiatul Ulum, R. F. Alifa, P. Rizkika, and C. Rozikin, “Perbandingan Performa Algoritma KNN dan SVM dalam Klasifikasi Kelayakan Air Minum,” Gener. J., vol. 7, no. 2, pp. 141–146, 2023, doi: 10.29407/gj.v7i2.20270.

M. R. Ahmmed, J. Monir, and S. A. Khushbu, “Analysis of Flood Risk Prediction Using Different Machine Learning Classifiers: A Study of Predicting Flood Risk in Rural Areas, Bangladesh,” 2022 13th Int. Conf. Comput. Commun. Netw. Technol. ICCCNT 2022, pp. 1–6, 2022, doi: 10.1109/ICCCNT54827.2022.9984449.

Y. Dilla Evitasari, W. J. Pranoto, and N. Adzmi Verdikha, “Evaluasi Support Vector Machine Dengan Optimasi Metode Genetic Algorithm Pada Klasifikasi Banjir Kota Samarinda Evaluation Support Vector Machine With Optimization Genetic Algorithm Method On Flood Classification In Samarinda,” J. Sains Komput. dan Teknol. Inf., vol. 6, no. 1, pp. 49–53, 2023.

J. M. Johnson and T. M. Khoshgoftaar, “Survey on deep learning with class imbalance,” J. Big Data, vol. 6, no. 1, 2019, doi: 10.1186/s40537-019-0192-5.

N. Razali, S. Ismail, and A. Mustapha, “Machine learning approach for flood risks prediction,” IAES Int. J. Artif. Intell., vol. 9, no. 1, pp. 73–80, 2020, doi: 10.11591/ijai.v9.i1.pp73-80.

M. Sulistiyono, Y. Pristyanto, S. Adi, and G. Gumelar, “Implementasi Algoritma Synthetic Minority Over-Sampling Technique untuk Menangani Ketidakseimbangan Kelas pada Dataset Klasifikasi,” Sistemasi, vol. 10, no. 2, p. 445, 2021, doi: 10.32520/stmsi.v10i2.1303.

D. Fitrianah, W. Gunawan, and A. Puspita Sari, “Studi Komparasi Algoritma Klasifikasi C5.0, SVM dan Naive Bayes dengan Studi Kasus Prediksi Banjir Comparative Study of Classification Algorithm between C5.0, SVM and Naive Bayes with Case Study of Flood Prediction,” Februari, vol. 21, no. 1, pp. 1–11, 2022.

T. A. Khan, Z. Shahid, M. Alam, M. M. Su’ud, and K. Kadir, “Early Flood Risk Assessment using Machine Learning: A Comparative study of SVM, Q-SVM, K-NN and LDA,” MACS 2019 - 13th Int. Conf. Math. Actuar. Sci. Comput. Sci. Stat. Proc., 2019, doi: 10.1109/MACS48846.2019.9024796.

S. Intan and P. Sari, “Analisis Pengaruh Gain Ratio Untuk Algoritma K-Nearest Neighbor Pada Klasifikasi Data Banjir Di Kota Samarinda Analysis Of The Effect Of Gain Ratio For Algorithms K-Nearest Neighbor On Classsification Flood Data In Samarinda City,” vol. 6, no. 1, pp. 54–59, 2023.

M. Norhalimi and T. A. Y. Siswa, “Optimasi Seleksi Fitur Information Gain pada Algoritma Naïve Bayes dan K-Nearest Neighbor,” JISKA (Jurnal Inform. Sunan Kalijaga), vol. 7, no. 3, pp. 237–255, 2022, doi: 10.14421/jiska.2022.7.3.237-255.

H. Harafani and A. Maulana, “Penerapan Algoritma Genetika pada Support Vector Machine Sebagai Pengoptimasi Parameter untuk Memprediksi Kesuburan,” J. Tek. Inform. Stmik Antar Bangsa, vol. 5, no. 1, pp. 51–59, 2019.

U. K. Singh and M. Rout, “Genetic Algorithm based Feature Selection to Enhance Breast Cancer Classification,” Proc. IEEE InC4 2023 - 2023 IEEE Int. Conf. Contemp. Comput. Commun., vol. 1, pp. 1–5, 2023, doi: 10.1109/InC457730.2023.10263100.

A. R. Naufal and A. T. Suseno, “Penerapan Fitur Seleksi dan Particle Swarm Optimization pada Algoritma Support Vector Machine untuk Analisis Credit Scoring,” J. Comput. Syst. Informatics, vol. 5, no. 1, pp. 184–195, 2023, doi: 10.47065/josyc.v5i1.4409.

S. I. Novichasari and I. S. Wibisono, “Particle Swarm Optimization For Improved Accuracy of Disease Diagnosis,” J. Appl. Intell. Syst., vol. 5, no. 2, pp. 57–68, 2021, doi: 10.33633/jais.v5i2.4242.

D. Saputra, W. S. Dharmawan, and W. Irmayani, “Performance Comparison of the SVM and SVM-PSO Algorithms for Heart Disease Prediction,” Int. J. Adv. Data Inf. Syst., vol. 3, no. 2, pp. 74–86, 2022, doi: 10.25008/ijadis.v3i2.1243.

W. Yuliani and E. Supriatna, Metode Penelitian Bagi Pemula. Penerbit Widina Bhakti Persada Bandung, 2023.

Rukminingsih, G. Adnan, and M. Adnan Latief, Metode Penelitian Pendidikan (Kuantitatif, Kualitatif & Penelitian Tindakan Kelas). Yogyakarta: Erhaka Utama, 2020.

T. A. Y. Siswa, Data Mining: Mengupas Tuntas Analisis Data Dengan Metode Klasifikasi Hingga Deployment Aplikasi Menggunakan Python. Samarinda: UMKT PRESS, Universitas Muhammadiyah Kalimantan Timur, 2023.

T. T. Wong and P. Y. Yeh, “Reliable Accuracy Estimates from k-Fold Cross Validation,” IEEE Trans. Knowl. Data Eng., vol. 32, no. 8, pp. 1586–1594, 2020, doi: 10.1109/TKDE.2019.2912815.

I. Markoulidakis, G. Kopsiaftis, I. Rallis, and I. Georgoulas, “Multi-Class Confusion Matrix Reduction method and its application on Net Promoter Score classification problem,” ACM Int. Conf. Proceeding Ser., pp. 412–419, 2021, doi: 10.1145/3453892.3461323.

I. R. Pratama, M. Maimunah, and E. R. Arumi, “Sistem Klasifikasi Penjualan Produk Alat Listrik Terlaris Untuk Optimasi Pengadaan Stok Menggunakan Naïve Bayes,” J. Media Inform. Budidarma, vol. 6, no. 4, p. 2135, 2022, doi: 10.30865/mib.v6i4.4418.

A. Arora et al., “Optimization of state-of-the-art fuzzy-metaheuristic ANFIS-based machine learning models for flood susceptibility prediction mapping in the Middle Ganga Plain, India,” Sci. Total Environ., vol. 750, p. 141565, 2021, doi: 10.1016/j.scitotenv.2020.141565.

G. Eom and H. Byeon, “Searching for Optimal Oversampling to Process Imbalanced Data: Generative Adversarial Networks and Synthetic Minority Over-Sampling Technique,” Mathematics, vol. 11, no. 16, p. 3605, 2023, doi: 10.3390/math11163605.

P. Wibowo and C. Fatichah, “An in-depth performance analysis of the oversampling techniques for high-class imbalanced dataset,” Regist. J. Ilm. Teknol. Sist. Inf., vol. 7, no. 1, pp. 63–71, 2021, doi: 10.26594/register.v7i1.2206.

S. Kanwal, J. Rashid, M. W. Nisar, J. Kim, and A. Hussain, “An Effective Classification Algorithm for Heart Disease Prediction with Genetic Algorithm for Feature Selection,” Proc. 2021 Mohammad Ali Jinnah Univ. Int. Conf. Comput. MAJICC 2021, no. April, 2021, doi: 10.1109/MAJICC53071.2021.9526242.

F. Faldi, T. NurHalisha, W. J. Pranoto, and ..., “The application of particle swarm optimization (PSO) to improve the accuracy of the naive bayes algorithm in predicting floods in the city of Samarinda,” J. Intell. …, vol. 6, no. 3, pp. 138–146, 2023, [Online]. Available: http://idss.iocspublisher.org/index.php/jidss/article/view/148%0Ahttps://idss.iocspublisher.org/index.php/jidss/article/download/148/99

F. Maulidina, Z. Rustam, and J. Pandelaki, “Lung Cancer Classification using Support Vector Machine and Hybrid Particle Swarm Optimization-Genetic Algorithm,” 2021 Int. Conf. Decis. Aid Sci. Appl. DASA 2021, pp. 751–755, 2021, doi: 10.1109/DASA53625.2021.9682259.

Published
2024-07-01
How to Cite
Syaputra, R., Siswa, T. A. Y., & Pranoto, W. J. (2024). Model Optimasi SVM Dengan PSO-GA dan SMOTE Dalam Menangani High Dimensional dan Imbalance Data Banjir. Teknika, 13(2), 273-282. https://doi.org/10.34148/teknika.v13i2.876
Section
Articles