Pendahuluan

Dalam era berbasis data saat ini, dataset menjadi fondasi utama dari setiap penelitian ilmiah, proyek kecerdasan buatan (AI), dan pembelajaran mesin (machine learning). Tanpa dataset yang relevan dan berkualitas, model AI tidak dapat dilatih dengan baik maupun menghasilkan prediksi yang akurat.

Namun, menemukan dataset yang tepat bukanlah hal mudah. Banyak peneliti dan mahasiswa menghadapi tantangan dalam menentukan di mana harus mencari dataset, bagaimana menilai kualitas data, dan apakah data tersebut dapat digunakan secara legal.

Artikel ini akan menjelaskan secara sistematis cara mencari dataset, bagaimana memilih yang sesuai dengan tujuan riset, serta daftar sumber dataset terbuka dan kredibel, termasuk platform Roboflow, yang kini menjadi salah satu ekosistem data vision terpopuler di dunia AI.

Source : https://www.geeksforgeeks.org/data-science/what-is-dataset/

  1. Memahami Tujuan dan Jenis Dataset

Langkah pertama sebelum mencari dataset adalah memahami tujuan penelitian dan jenis data yang dibutuhkan.

Beberapa kategori umum dataset antara lain:

Jenis Dataset Contoh Penggunaan
Teks (Text) Chatbot, Sentiment Analysis, Machine Translation
Citra (Image) Object Detection, Face Recognition, Medical Imaging
Audio Speech Recognition, Emotion Detection
Video Action Recognition, Surveillance Analysis
Numerik/Tabular Prediksi keuangan, data sensor, data kesehatan

Dengan menentukan jenis data yang dibutuhkan sejak awal, pencarian dataset akan lebih efisien dan terarah.

  1. Menentukan Kriteria Dataset yang Baik

Dataset yang baik harus memenuhi beberapa aspek penting:

Kriteria Penjelasan
Relevansi Sesuai dengan topik riset dan tujuan proyek.
Kualitas Data Minim noise, duplikasi, dan data hilang.
Variasi & Ukuran Cukup besar untuk generalisasi model AI.
Keseimbangan (Balance) Tiap kelas data memiliki jumlah sampel yang seimbang.
Lisensi & Legalitas Pastikan dataset memiliki lisensi terbuka (mis. CC BY, MIT, GPL).
Metadata Jelas Disertai dokumentasi, label, dan deskripsi yang lengkap.
  1. Sumber Dataset Terbuka yang Direkomendasikan

Berikut daftar sumber dataset terpercaya yang sering digunakan peneliti dan mahasiswa:

  1. Repositori Umum
  1. Kaggle Datasets
    Repositori dataset terbesar di dunia. Menyediakan ribuan dataset untuk teks, citra, keuangan, dan sains sosial.
    https://www.kaggle.com/datasets
  2. Google Dataset Search
    Mesin pencari khusus dataset, mengindeks lebih dari 25 juta dataset dari berbagai lembaga dan jurnal ilmiah.
    https://datasetsearch.research.google.com
  3. UCI Machine Learning Repository
    Koleksi dataset klasik untuk eksperimen machine learning, banyak digunakan dalam publikasi ilmiah.
    https://archive.ics.uci.edu/ml
  4. Data.gov
    Portal resmi data publik pemerintah Amerika Serikat, menyediakan dataset tentang ekonomi, energi, kesehatan, dan lingkungan.
    https://www.data.gov
  5. World Bank Open Data
    Menyediakan data statistik global terkait pembangunan, ekonomi, dan sosial.
  1. Platform AI & Machine Learning Modern
  1. Hugging Face Datasets
    Repositori terbuka untuk dataset NLP dan computer vision, terintegrasi langsung dengan library transformers dan datasets.
    https://huggingface.co/datasets
  2. Papers With Code Datasets
    Menyediakan dataset yang digunakan dalam publikasi ilmiah beserta benchmark dan leaderboard-nya.
    https://paperswithcode.com/datasets
  3. TensorFlow Datasets (TFDS)
    Dataset siap pakai dengan format konsisten untuk proyek deep learning.
    https://www.tensorflow.org/datasets
  4. OpenML
    Platform kolaboratif yang menyimpan dataset dan eksperimen machine learning dari berbagai bidang.
  1. Roboflow — Platform Manajemen Dataset Visual

Roboflow adalah platform yang dirancang khusus untuk pengelolaan dataset computer vision, mulai dari pencarian, anotasi, hingga ekspor dataset dalam berbagai format (COCO, YOLO, Pascal VOC, dan lainnya).

Fitur utama Roboflow:

  1. Pencarian dan impor dataset publik dari berbagai sumber (Kaggle, COCO, ImageNet, dll).
  2. Anotasi visual berbasis web – memungkinkan pengguna melabeli gambar tanpa software tambahan.
  3. Augmentasi otomatis – sistem dapat menghasilkan variasi gambar (rotasi, crop, brightness adjustment) untuk memperbanyak data.
  4. Version control – setiap perubahan dataset tersimpan sebagai versi baru, seperti Git untuk data visual.
  5. Integrasi langsung ke model YOLO, TensorFlow, PyTorch, dan Ultralytics.

Contoh penggunaan:

Mahasiswa yang ingin melatih model pendeteksi helm keselamatan dapat mengunggah foto pekerja, memberi label “helmet” dan “no helmet”, lalu mengekspor dataset siap latih ke YOLOv8..

Menurut dokumentasi resminya, Roboflow kini digunakan lebih dari 250.000 tim pengembang AI di seluruh dunia, termasuk di bidang medis, pertanian, dan keamanan.


(Sumber: Roboflow Blog, 2024 — “Powering Vision AI Projects Globally”)

Source : https://datascientest.com/en/what-is-a-dataset-how-do-i-work-with-it

  1. Dataset Spesifik per Bidang
Bidang Sumber Dataset
Medis PhysioNet, NIH Chest X-Ray, ISIC Skin Cancer Dataset
Keuangan Yahoo Finance API, Quandl, IMF Data Portal
Lingkungan NASA EarthData, Global Forest Watch, NOAA Climate Data
Transportasi OpenStreetMap, Uber Movement, Google Mobility Reports
Pendidikan UNESCO Open Data, PISA Dataset (OECD)
  1. Strategi Efektif untuk Menemukan Dataset
  1. Gunakan kata kunci spesifik
    Contoh: “traffic surveillance dataset YOLO format” lebih efektif daripada “traffic dataset”.
  2. Gunakan filter lisensi
    Di Google Dataset Search atau Kaggle, gunakan filter “Creative Commons” untuk dataset yang bebas digunakan.
  3. Periksa referensi penelitian terdahulu
    Banyak paper mencantumkan sumber dataset di bagian Methodology atau Appendix.
  4. Manfaatkan API publik
    Misalnya: Twitter API, Reddit API, OpenWeatherMap API, YouTube Data API.
  5. Gunakan Roboflow Universe
    Bagian Roboflow Universe menyediakan lebih dari 300.000 dataset visual publik siap pakai — Anda bisa mengimpor, mengedit label, dan langsung melatih model.
    https://universe.roboflow.com
  1. Etika dan Legalitas Penggunaan Dataset

Sebelum menggunakan dataset, pastikan Anda mematuhi prinsip etika riset:

  • Hindari penggunaan data pribadi atau sensitif tanpa izin eksplisit.
  • Pahami lisensi (misalnya CC BY, MIT, CC BY-NC).
  • Cantumkan sumber dataset secara lengkap pada laporan atau publikasi.
  • Jika menggunakan dataset medis atau sosial, pastikan mematuhi regulasi privasi seperti GDPR atau HIPAA.
  1. Contoh Alur Praktis

Misalnya Anda ingin membuat model deteksi penyakit tanaman:

  1. Tentukan kebutuhan: Klasifikasi citra daun.
  2. Gunakan Roboflow Universe: Cari “plant disease detection” dataset.
  3. Unduh atau buat anotasi baru di Roboflow Annotate.
  4. Lakukan augmentasi otomatis untuk memperbanyak variasi data.
  5. Ekspor dataset ke format YOLOv8 atau TensorFlow.
  6. Latih model dan evaluasi hasil.
  1. Kesimpulan

Mencari dataset yang tepat adalah langkah fundamental dalam pengembangan sistem berbasis AI. Kualitas dan relevansi data akan menentukan keberhasilan model yang Anda bangun.

Platform modern seperti Roboflow, Kaggle, dan Hugging Face telah memudahkan peneliti dalam menemukan, mengelola, dan berbagi dataset berkualitas tinggi.

Dengan menggabungkan sumber terbuka dan prinsip etika data, mahasiswa dan peneliti kini dapat berinovasi lebih cepat dan bertanggung jawab.

“Good AI starts with good data — and good data starts with knowing where to find it.”

 

 

Penulis

Fiqri Ramadhan Tambunan S.Kom., M.Kom – FDP Scholar

Referensi

  1. Kaggle. (2024). Kaggle Datasets Platform. https://www.kaggle.com/datasets
  2. Google Research. (2024). Google Dataset Search. https://datasetsearch.research.google.com
  3. Dua, D. & Graff, C. (2019). UCI Machine Learning Repository. University of California, Irvine.
  4. World Bank. (2023). World Development Indicators. https://data.worldbank.org
  5. Hugging Face. (2024). Datasets Documentation. https://huggingface.co/datasets
  6. TensorFlow. (2024). TensorFlow Datasets (TFDS). https://www.tensorflow.org/datasets
  7. OpenML. (2023). Open Machine Learning Platform. https://www.openml.org
  8. Roboflow. (2024). Roboflow: Manage and Share Datasets for Computer Vision. https://roboflow.com
  9. Roboflow Universe. (2024). Public Datasets for Vision AI. https://universe.roboflow.com
  10. Turnbull, M. (2022). Ethics and Legality in Data Use. Journal of Data Policy, 7(2), 45–61.