Mengukur Kompleksitas Dataset: Memahami Tantangan Tersembunyi di Balik Data dalam Machine Learning

Article

Pendahuluan

Dalam dunia machine learning, kualitas model tidak hanya ditentukan oleh algoritma yang digunakan, tetapi juga oleh kompleksitas dataset yang menjadi bahan latihannya. Dua model dengan arsitektur identik dapat menghasilkan performa yang berbeda hanya karena tingkat kompleksitas dataset yang berbeda. Kompleksitas dataset menggambarkan seberapa sulit data tersebut untuk dipelajari atau dipisahkan oleh model pembelajaran mesin. Metrik kompleksitas ini membantu peneliti memahami karakteristik data sebelum memutuskan strategi pemodelan, pemilihan algoritma, dan kebutuhan preprocessing.

Artikel ini membahas konsep dasar, jenis-jenis metrik kompleksitas dataset, serta bagaimana metrik ini digunakan untuk menganalisis performa model dan desain eksperimen dalam penelitian AI.

Source : Codepolitan

Apa Itu Kompleksitas Dataset?

Secara umum, kompleksitas dataset mengacu pada tingkat kesulitan yang dihadapi model untuk menemukan pola atau batas keputusan yang memisahkan kelas data.

Beberapa faktor utama yang memengaruhi kompleksitas antara lain:

Tingkat tumpang tindih antar kelas (class overlap)
Distribusi data yang tidak seimbang (imbalanced classes)
Jumlah fitur dan korelasi antar fitur
Noise atau outlier dalam data
Dimensi dan hubungan non-linear antar variabel

Dengan kata lain, kompleksitas tidak hanya bergantung pada ukuran dataset, tetapi juga pada struktur internal dan hubungan antar data.

Mengapa Kompleksitas Dataset Penting?

Menilai kompleksitas dataset memiliki beberapa tujuan penting:

Memilih model yang tepat
Model sederhana seperti linear classifier cocok untuk dataset dengan kompleksitas rendah, sementara data dengan hubungan non-linear tinggi memerlukan model kompleks seperti deep neural networks.
Mendeteksi overfitting dan underfitting
Metrik kompleksitas dapat membantu menilai apakah model terlalu rumit untuk dataset tertentu atau justru terlalu sederhana.
Membandingkan dataset secara objektif
Dalam riset pembelajaran mesin, metrik ini digunakan untuk menilai apakah sebuah dataset lebih “sulit” dibanding dataset lain.
Menentukan strategi augmentasi dan preprocessing
Dataset yang kompleks mungkin membutuhkan normalisasi, reduksi dimensi, atau pembersihan noise sebelum digunakan.

Jenis-Jenis Metrik Kompleksitas Dataset

Berbagai metrik telah dikembangkan untuk mengukur kompleksitas dataset, umumnya dikelompokkan ke dalam empat kategori utama:

Feature-Based Complexity (Kompleksitas Berdasarkan Fitur)

Mengukur bagaimana fitur atau variabel berhubungan satu sama lain dan dengan label kelas.

Beberapa metrik yang sering digunakan:

F1 – Maximum Fisher’s Discriminant Ratio:
Mengukur jarak antara rata-rata antar kelas dibandingkan dengan variasi dalam kelas. Semakin besar nilai F1, semakin mudah kelas dipisahkan.
F2 – Volume of Overlap Region:
Mengukur seberapa besar area ruang fitur yang tumpang tindih antara kelas.
F3 – Feature Efficiency:
Menilai berapa banyak fitur yang benar-benar berkontribusi terhadap pemisahan antar kelas.

Contoh: Dataset dengan fitur yang saling berkorelasi tinggi atau tidak informatif akan memiliki kompleksitas fitur yang tinggi.

Linearity-Based Complexity (Kompleksitas Berdasarkan Linearitas)

Metrik ini mengevaluasi seberapa baik kelas dapat dipisahkan oleh model linear sederhana.

Contoh metrik:

L1 – Error Rate of Linear Classifier (e.g., Perceptron):
Semakin tinggi tingkat kesalahan, semakin kompleks dataset.
L2 – Nonlinearity of Linear Classifier:
Mengukur seberapa besar perubahan performa ketika data diganggu secara non-linear.
L3 – Fraction of Points on the Class Boundary:
Persentase titik yang berada dekat batas keputusan — menunjukkan potensi tumpang tindih antar kelas.

Dataset yang memerlukan batas non-linear (misalnya bentuk spiral atau konsentris) memiliki nilai linearity complexity tinggi.

Neighborhood-Based Complexity (Kompleksitas Berdasarkan Kedekatan Data)

Metrik ini memanfaatkan konsep nearest neighbor untuk mengevaluasi distribusi dan interaksi antar sampel.

Contoh metrik:

N1 – Fraction of Borderline Points:
Proporsi titik data yang tetangga terdekatnya berasal dari kelas berbeda.
N2 – Ratio of Intra/Inter-Class Nearest Neighbor Distances:
Rasio antara jarak antar kelas dan dalam kelas. Nilai kecil menunjukkan tumpang tindih tinggi.
N3 – Error Rate of 1-Nearest Neighbor Classifier:
Semakin tinggi kesalahan, semakin kompleks dataset secara topologis.

Dataset dengan struktur kelas yang saling berdekatan atau tidak homogen cenderung memiliki kompleksitas tinggi dalam kategori ini.

Dimensionality and Geometry-Based Complexity (Kompleksitas Berdasarkan Dimensi dan Geometri)

Metrik ini mengevaluasi bagaimana dimensi dan bentuk distribusi memengaruhi kesulitan klasifikasi.

Contoh metrik:

T1 – Fraction of Features to Samples:
Rasio jumlah fitur terhadap jumlah sampel. Dataset berdimensi tinggi cenderung lebih kompleks.
T2 – Sparsity:
Mengukur kerapatan titik data dalam ruang fitur. Dataset yang jarang (sparse) lebih sulit dipelajari.
T3 – Data Manifold Curvature:
Menggambarkan seberapa melengkung permukaan manifold data, menunjukkan adanya hubungan non-linear kompleks.

Contoh Analisis: Dataset Iris vs. CIFAR-10

Aspek	Iris Dataset	CIFAR-10 Dataset
Jumlah Fitur	4	>3000 (piksel)
Tipe Data	Numerik	Citra RGB
Overlap Antar Kelas	Rendah	Tinggi
Linear Separability	Tinggi	Rendah
Kompleksitas Fitur (F1)	Rendah	Tinggi
Kompleksitas Topologis	Rendah	Tinggi

Dari tabel di atas, terlihat bahwa CIFAR-10 jauh lebih kompleks dibanding dataset klasik seperti Iris, sehingga memerlukan arsitektur model non-linear yang lebih dalam seperti Convolutional Neural Networks (CNN).

Tantangan dalam Pengukuran Kompleksitas

Meskipun banyak metrik telah diusulkan, tidak ada ukuran tunggal yang dapat menjelaskan semua aspek kompleksitas. Beberapa tantangan yang masih dihadapi:

Keterbatasan interpretasi lintas domain – metrik yang efektif di data gambar belum tentu relevan di data teks.
Hubungan dengan performa model tidak selalu linier – dataset kompleks tidak selalu menghasilkan model buruk jika data cukup besar.
Sensitivitas terhadap noise dan outlier – metrik tertentu bisa berubah drastis hanya karena beberapa data anomali.

Penelitian terbaru mencoba menggabungkan metrik ini menjadi indeks kompleksitas komposit menggunakan pembelajaran statistik dan teori informasi.

Kesimpulan

Metrik kompleksitas dataset adalah alat penting untuk memahami tingkat kesulitan intrinsik dari data sebelum proses pelatihan model dimulai. Dengan mengukur faktor seperti linearitas, tumpang tindih antar kelas, struktur fitur, dan topologi data, peneliti dapat:

memilih algoritma yang tepat,
merancang preprocessing yang sesuai, dan
memperkirakan performa model secara realistis.

Pada akhirnya, mengukur kompleksitas dataset bukan hanya soal menilai data, tetapi juga tentang memahami sejauh mana model mampu merepresentasikan dunia nyata dengan efisien dan akurat.

Penulis

Fiqri Ramadhan Tambunan S.Kom., M.Kom – FDP Scholar

Referensi

Ho, T. K., & Basu, M. (2002). Complexity measures of supervised classification problems. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 24(3), 289–300.
Lorena, A. C., Garcia, L. P., Lehmann, J., Souto, M. C. P., & Ho, T. K. (2019). How Complex is your classification problem? A survey on measuring classification complexity. ACM Computing Surveys, 52(5), 1–34.
Ho, T. K. (2008). The random subspace method for constructing decision forests. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(8), 832–844.
García, L. P., Lorena, A. C., & De Carvalho, A. C. (2015). Data complexity measures and their applications in classification problems. Applied Soft Computing, 27, 333–343.
Jain, A. K., Duin, R. P., & Mao, J. (2000). Statistical pattern recognition: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(1), 4–37.