ANALISA PERBANDINGAN TEKNIK OVERSAMPLING SMOTE PADA IMBALANCED DATA

Authors

  • Cosmas Haryawan Universitas Teknologi Digital Indonesia
  • Yosef Muria Kusuma Ardhana

DOI:

https://doi.org/10.36595/jire.v6i1.834

Keywords:

imbalanced data, K-Means SMOTE, oversampling, SMOTE

Abstract

Data tidak seimbang atau lebih sering disebut imbalanced data, adalah kondisi pada saat data memiliki rasio yang tidak seimbang antara satu kelas dengan kelas yang lain, sehingga terdapat kelas mayoritas dan kelas minoritas. Sulit untuk membuat prediksi pada dataset yang tidak seimbang karena pengklasifikasi cenderung mendeteksi kelas mayoritas daripada kelas minoritas. Teknik resampling  menjadi salah satu yang paling efektif dalam menyelesaikan permasalahan imbalanced data ini.  Salah satu kategori dari teknik resampling adalah oversampling.  Metode oversampling diantaranya adalah SMOTE dan K-Means SMOTE.  Penggunaan oversampling akan meningkatkan hasil measurement klasifikasi.  Penelitian ini menggunakan data wine yang memiliki 11 fitur serta 1 atribut target dan bertujuan untuk membandingkan hasil measurement antara penggunaan data sintetis hasil SMOTE dan K-Means SMOTE dengan hasil measurement penggunaan data nyata dalam kondisi data seimbang.  Pembuatan data imbalance dilakukan dengan menghapus secara random salah satu kelas dengan ambang 25%, 50%, 60% dan 75%.  Hasil penelitian menunjukkan bahwa dibandingkan penggunaan data nyata, penggunaan K-Means SMOTE cenderung menghasilkan nilai lebih tinggi untuk akurasi, sensitivitas dan spesifisitas sedangkan SMOTE meskipun memperoleh nilai yang lebih baik dibandingkan K-Means SMOTE tetapi juga terdapat beberapa kondisi imbalance yang memiliki nilai lebih tinggi dibandingkan penggunaan data nyata.

References

M. Anis and M. Ali, “Investigating the Performance of Smote for Class Imbalanced Learning: A Case Study of Credit Scoring Datasets,” Eur. Sci. Journal, ESJ, vol. 13, no. 33, p. 340, 2017, doi: 10.19044/esj.2017.v13n33p340.

Y. R. Chen, J. S. Leu, S. A. Huang, J. T. Wang, and J. I. Takada, “Predicting Default Risk on Peer-to-Peer Lending Imbalanced Datasets,” IEEE Access, vol. 9, pp. 73103–73109, 2021, doi: 10.1109/ACCESS.2021.3079701.

R. Ghorbani and R. Ghousi, “Comparing Different Resampling Methods in Predicting Students’ Performance Using Machine Learning Techniques,” IEEE Access, vol. 8, pp. 67899–67911, 2020, doi: 10.1109/ACCESS.2020.2986809.

S. Mundra et al., “Classification of imbalanced medical data: An empirical study of machine learning approaches,” J. Intell. Fuzzy Syst., vol. 43, no. 2, 2022, doi: 10.3233/JIFS-219294.

N. Matondang and N. Surantha, “Effects of oversampling SMOTE in the classification of hypertensive dataset,” Adv. Sci. Technol. Eng. Syst., vol. 5, no. 4, 2020, doi: 10.25046/AJ050451.

A. R. Safitri and M. A. Muslim, “Improved Accuracy of Naive Bayes Classifier for Determination of Customer Churn Uses SMOTE and Genetic Algorithms,” J. Soft Comput. Explor., vol. 1, no. 1, pp. 70–75, 2020, doi: https://doi.org/10.52465/joscex.v1i1.5.

G. Douzas, F. Bacao, and F. Last, “Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE,” Inf. Sci. (Ny)., vol. 465, 2018, doi: 10.1016/j.ins.2018.06.056.

R. Siringoringo, “Klasifikasi Data Tidak Seimbang Menggunakan Algoritma SMOTE dan k-Nearest Neighbor,” J. ISD, vol. 3, no. 1, pp. 44–49, 2018, doi: https://doi.org/10.29207/resti.v3i2.945.

Y. Chen and R. Zhang, “Erratum: Research on Credit Card Default Prediction Based on k -Means SMOTE and BP Neural Network (Complexity (2021) 2021:13 (6618841) DOI: 10.1155/2021/6618841),” Complexity, vol. 2021, 2021, doi: 10.1155/2021/9865171.

Hairani, “Peningkatan Kinerja Metode Svm Menggunakan Metode Knn Imputasi Dan K-Means-Smote Untuk Klasifikasi Kelulusan Mahasiswa Universitas Bumigora,” J. Teknol. Inf. dan Ilmu Komput., vol. 8, no. 4, pp. 713–718, 2021, doi: 10.25126/jtiik.202183428.

A. S. Handayani, S. Soim, T. E. Agusdi, Rumiasih, and A. Nurdin, “KLASIFIKASI KUALITAS UDARA DENGAN METODE SUPPORT VECTOR MACHINE,” JIRE, J. Inform. dan Rekayasa Elektron., vol. 3, no. 2, 2020.

L. Mutawalli, M. T. A. Zaen, and W. Bagye, “KLASIFIKASI TEKS SOSIAL MEDIA TWITTER MENGGUNAKAN SUPPORT VECTOR MACHINE (Studi Kasus Penusukan Wiranto),” J. Inform. dan Rekayasa Elektron., vol. 2, no. 2, p. 43, Dec. 2019, doi: 10.36595/jire.v2i2.117.

D. Mustafa Abdullah and A. Mohsin Abdulazeez, “Machine Learning Applications based on SVM Classification A Review,” Qubahan Acad. J., vol. 1, no. 2, 2021, doi: 10.48161/qaj.v1n2a50.

C. Haryawan and M. M. Sebatubun, “IMPLEMENTATION OF MULTILAYER PERCEPTRON FOR STUDENT FAILURE PREDICTION,” JUTI J. Ilm. Teknol. Inf., vol. 18, no. 2, p. 125, Jul. 2020, doi: 10.12962/j24068535.v18i2.a990.

S. Sarkar, A. Pramanik, J. Maiti, and G. Reniers, “Predicting and analyzing injury severity: A machine learning-based approach using class-imbalanced proactive and reactive data,” Saf. Sci., vol. 125, p. 104616, May 2020, doi: 10.1016/j.ssci.2020.104616.

Downloads

Published

2023-04-19