Class Imbalance dalam Deep Learning: Strategi dan Solusinya
Sumber: AI Generated (ideogram.ai)
Salah satu tantangan utama dalam penerapan deep learning di dunia nyata adalah class imbalance, yaitu kondisi di mana jumlah data dari satu kelas jauh lebih banyak daripada kelas lainnya. Ketidakseimbangan ini umum terjadi di berbagai bidang, mulai dari scam detection, diagnosis medis, atau klasifikasi citra secara umum. Ketika distribusi data tidak merata, model cenderung belajar lebih baik pada kelas yang sering muncul (mayoritas) dan mengabaikan kelas yang jarang muncul (minoritas).
Meskipun model mungkin menunjukkan accuracy tinggi, performanya sering buruk dalam mendeteksi kelas minoritas yang justru paling penting. Misalnya, model deteksi penyakit bisa tampak “baik” karena sering memprediksi pasien sehat, padahal gagal mengenali kasus positif. Artikel ini membahas berbagai strategi untuk mengatasi class imbalance, baik melalui manipulasi data, modifikasi algoritma, maupun evaluasi yang lebih fair.

Sumber: https://www.analyticsvidhya.com/blog/2020/07/10-techniques-to-deal-with-class-imbalance-in-machine-learning/
Mengapa Class Imbalance Menjadi Tantangan Serius
Model deep learning dirancang untuk meminimalkan loss function secara keseluruhan. Jika sebagian besar data berasal dari satu kelas, kontribusi kesalahan dari kelas minoritas menjadi sangat kecil. Akibatnya, model cenderung fokus pada pola kelas mayoritas.
Sebagai contoh, dalam dataset dengan 95% data “No Fraud” dan hanya 5% data “Fraud”, model yang selalu menebak “No Fraud” bisa mencapai accuracy 95%. Namun, model seperti ini sama sekali tidak berguna karena gagal mengenali kasus penting. Inilah alasan mengapa metrik umum seperti accuracy sering menyesatkan dalam konteks data tidak seimbang.
Selain itu, ketidakseimbangan data dapat menyebabkan beberapa hal berikut:
- Overfitting pada kelas mayoritas, karena model terlalu sering melihat pola yang sama.
- Generalization error yang tinggi terhadap kelas minoritas.
Terdapat beberapa pendekatan yang dapat dilakukan untuk menangani kasus imbalance, yaitu sebagai berikut:
Pendekatan Berbasis Data
Strategi ini menyeimbangkan distribusi data sebelum atau selama pelatihan model.

Sumber: https://medium.com/analytics-vidhya/undersampling-and-oversampling-an-old-and-a-new-approach-4f984a0e8392
- Oversampling
Menambah data pada kelas minoritas, baik dengan duplikasi atau sintesis sampel baru. Metode populer seperti SMOTE (Synthetic Minority Over-sampling Technique) membuat data sintetis dengan interpolasi antar contoh minoritas. Kelemahannya adalah risiko overfitting jika sampel baru terlalu mirip dengan data asli.
- Undersampling
Mengurangi jumlah data dari kelas mayoritas agar distribusinya seimbang. Meskipun cepat dan sederhana, teknik ini dapat menghapus informasi penting dan mengurangi keragaman data.
- Targeted Data Augmentation
Menggunakan augmentasi seperti rotasi, flipping, atau color jittering untuk memperbanyak variasi data minoritas. Pendekatan ini efektif di tugas seperti klasifikasi gambar dan deteksi objek.
- Synthetic Data Generation
Menggunakan model generatif seperti GAN (Generative Adversarial Networks) atau Diffusion Models untuk membuat data baru dari kelas langka. Pendekatan ini semakin populer karena mampu menghasilkan sampel yang realistis.
Pendekatan Berbasis Algoritma
Pendekatan ini berfokus pada penyesuaian cara model belajar agar tidak bias terhadap kelas mayoritas.
- Class-Weighted Loss
Menetapkan bobot berbeda untuk setiap kelas di dalam fungsi loss. Kelas minoritas diberi bobot lebih tinggi agar model lebih memperhatikannya. Formula umum Weighted Cross Entropy:
di mana Wi adalah bobot yang berbanding terbalik dengan frekuensi kelas.
- Focal Loss
Diperkenalkan oleh Lin et al. (2017), Focal Loss memberi penekanan lebih pada sampel yang sulit diklasifikasikan dan mengurangi pengaruh sampel yang mudah. Rumusnya:

- Label Smoothing dan Cost-Sensitive Learning
Label smoothing mencegah model menjadi terlalu yakin terhadap satu kelas dengan mendistribusikan probabilitas target. Sementara cost-sensitive learning mempertimbangkan biaya kesalahan yang berbeda antar kelas, sehingga model lebih berhati-hati terhadap prediksi minoritas.
- Two-Stage Training
Pendekatan dua tahap: pertama, melatih model pada seluruh dataset; kedua, fine-tuning menggunakan subset yang berfokus pada kelas minoritas atau sampel yang sulit. Teknik ini sering digunakan di object detection dan medical imaging.
Pendekatan Berbasis Evaluasi
Evaluasi model harus mencerminkan performa di semua kelas, bukan hanya mayoritas. Oleh karena itu, beberapa metrik yang lebih representatif digunakan:
- Precision dan Recall: Precision mengukur ketepatan prediksi positif, sedangkan Recall menilai seberapa banyak kasus positif berhasil ditemukan.
- F1-Score: Gabungan harmonis antara Precision dan Recall, cocok untuk data tidak seimbang.
- AUC-ROC: Mengukur keseimbangan antara true positive rate dan false positive rate.
- mAP (mean Average Precision): Umum digunakan di deteksi objek untuk menilai akurasi pada berbagai ambang batas.
- Visualisasi seperti confusion matrix juga sangat berguna untuk melihat pola kesalahan antar kelas secara intuitif.
Kesimpulan
Class imbalance adalah tantangan mendasar dalam machine learning dan deep learning . Solusinya memerlukan perpaduan antara strategi berbasis data, algoritma, dan evaluasi. Pendekatan yang baik tidak hanya berfokus pada peningkatan accuracy, tetapi juga memastikan robustness, dan sensitivitas terhadap semua kelas. Dengan memahami dan mengatasi masalah ini, kita dapat membangun model AI yang lebih representatif terhadap keragaman data di dunia nyata.
Penulis
Muhammad Alfhi Saputra, S.Kom., M.Kom. – FDP Scholar
Referensi
Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988).
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
Cui, Y., Jia, M., Lin, T. Y., Song, Y., & Belongie, S. (2019). Class-balanced loss based on effective number of samples. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 9268-9277).
He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on knowledge and data engineering, 21(9), 1263-1284.