Penanganan Data Imbalanced untuk Klasifikasi Diagnosis Hipertensi dengan Tomek Links pada Regresi Logistik

Putri Aulia Fachreza, Ria Dhea Layla Nur Karisma, Erna Herawati

Abstract


Masalah imbalanced data seringkali menghambat akurasi dalam proses klasifikasi, terutama dalam kasus diagnosis hipertensi, di mana jumlah kelas minoritas jauh lebih sedikit dibandingkan kelas mayoritas. Penelitian ini bertujuan untuk membangun model regresi logistik yang akurat dengan mengatasi ketidakseimbangan data menggunakan metode Tomek Links. Metode ini bekerja dengan menghapus pasangan data terdekat dari kelas berbeda untuk mereduksi noise dan memperbaiki distribusi data. Setelah dilakukan undersampling dengan Tomek Links, model regresi logistik dibentuk dengan pendekatan Maximum Likelihood Estimation melalui metode iteratif Newton-Raphson. Evaluasi model dilakukan melalui pengujian multikolinearitas, uji signifikansi parameter, uji kesesuaian model, dan pengukuran ketepatan klasifikasi berdasarkan nilai Apparent Error Rate (APER). Hasil penelitian menunjukkan bahwa variabel jenis kelamin, konsumsi gula berlebih, lemak berlebih, dan usia secara signifikan mempengaruhi kemungkinan seseorang menderita hipertensi. Model akhir menghasilkan tingkat akurasi sebesar 89,5%. Penelitian ini menunjukkan bahwa kombinasi metode Tomek Links dan regresi logistik dapat menjadi pendekatan efektif dalam menangani imbalanced data pada diagnosa hipertensi.

Keywords


Klasifikasi; Imbalanced Data; Tomek Links; Regresi Logistik; Hipertensi

Full Text:

PDF

References


[1] D. W. Hosmer Jr, S. Lemeshow, and R. X. Sturdivant, Applied Logistic Regression. John Wiley & Sons, 2013. DOI: 10.1002/9781118548387.

[2] R. Ramandhani, Sudarno, and D. Safitri, “Metode bootstrap aggregating regresi logistik biner untuk ketepatan klasifikasi kesejahteraan rumah tangga di kota pati,” Jurnal Gaussian, vol. 6, pp. 121–130, 2017. DOI: 10.14710/j.gauss.6.1.121-130.

[3] M. Jamhuri, I. Mukhlash, and M. I. Irawan, “Performance improvement of logistic regression for binary classification by gauss-newton method,” in Proceedings of the 2022 5th International Conference on Mathematics and Statistics, 2022, pp. 12–16. DOI: 10.1145/3545839.3545842.

[4] C. M. Wan, A. Nosedal-Sanchez, J. Nosedal-Sanchez, A. Asgary, and B. Pantin, “Modeling provision of disaster mutual assistance by electricity utilities using logistic regression,” International Journal of Disaster Risk Reduction, pp. 8–9, 2019. DOI: 10.1016/j.ijdrr.2019.101110.

[5] E. Antipov and E. Pokryshevskaya, “Applying chaid for logistic regression diagnostics and classification accuracy improvement,” The State University Higher School of Economics, 2009, Munich Personal RePEc Archive. DOI: 10.1057/jt.2010.3.

[6] G. Qiong, X.-M. Wang, Z. Wu, B. Ning, and C.-S. Xin, “An improved SMOTE algorithm based on genetic algorithm for imbalanced data classification,” Journal of Digital Information Management, vol. 14, no. 2, pp. 92–103, 2016. Available online.

[7] I. Tomek, “Two modifications of cnn,” IEEE Transactions of Systems, Man, and Communications, vol. 6, pp. 769–772, 1997. DOI: 10.1109/TSMC.1976.4309452.

[8] I. A. M. C. Dewi, I. K. Dharmendra, and N. W. Setiasih, “Analisis sentimen review aplikasi satu sehat mobile menggunakan model sampling tomek links,” Jurnal Informatika dan Komputer, vol. 12, no. 3, pp. 45–55, 2023. DOI: 10.36002/jutik.v9i5.2644.

[9] R. Kumalasanti and N. M. D. Aprilianti, “Sentiment analysis of bali calendar application reviews using k-nearest neighbour,” International Journal of Engineering Technology and Natural Sciences, vol. 6, no. 1, pp. 70–73, 2024. DOI: 10.46923/ijets.v6i1.339.

[10] Y. Turana, B. Widyantoro, T. D. Situmorang, et al., “May measurement month 2018: An analysis of blood pressure screening results from indonesia,” European Heart Journal Supplements, vol. 22, no. Suppl H, H66–H69, 2020. DOI: 10.1093/eurheartj/suaa031.

[11] Misna, Rais, and I. T. Utami, “Analisis regresi logistik biner untuk mengklasifikasi penderita hipertensi berdasarkan kebiasaan merokok di RSU Mokopido Toli-Toli,” Natural Science: Journal of Science and Technology, vol. 7, no. 3, pp. 341–348, 2018. Available online.

[12] R. Sahila, T. Widiharih, and I. T. Utami, “Analisis klasifikasi menggunakan regresi logistik biner dan algoritma naïve bayes classifier pada penyakit hipertensi,” Jurnal Gaussian, vol. 13, no. 2, pp. 319–327, 2024. DOI: 10.14710/j.gauss.13.2.319-327.

[13] D. W. Hosmer and S. Lemeshow, Applied Logistic Regression, 2nd ed. New York: John Wiley & Sons, 2000.

[14] A. Agresti, Categorical Data Analysis. New York: John Wiley & Sons, 1990.

[15] J. Sungkono and T. K. Nugrahaningsih, “Simulasi dampak multikolinearitas pada kondisi penyimpangan asumsi normalitas,” Magistra, vol. 29, no. 101, pp. 45–50, 2017. Available online.

[16] R. R. Hocking, Methods and Applications of Linear Models, 2nd ed. New Jersey: John Wiley & Sons, 2003.

[17] R. A. Johnson and D. Wichern, Applied Multivariate Statistical Analysis, 6th ed. New Jersey: Pearson Education, Inc., 2007.




DOI: https://doi.org/10.18860/jrmm.v4i5.34567

Refbacks

  • There are currently no refbacks.