Dari YOLOv1 hingga YOLOv11: Evolusi Algoritma Deteksi Objek Real-Time yang Paling Populer

Source: Midjourney
Deteksi objek (object detection) merupakan salah satu aplikasi yang paling banyak dieksplor dalam bidang computer vision. Sebagai salah satu bagian dari Artificial Intelligence, deteksi objek juga merupakan salah satu aplikasi yang paling banyak dimanfaatkan di dunia nyata, mulai dari untuk pengawasan, monitoring, pemindaian, dan sebagainya. Salah satu keluarga algoritma deteksi objek yang paling populer adalah YOLO (You Only Look Once). YOLO pertama kali diperkenalkan pada 2016, sebagai versi pertama atau disebut juga dengan YOLOv1, YOLO mengalami evolusi yang sangat signifikan hingga hari ini, yaitu YOLOv11. Artikel ini akan membahas perjalanan YOLO dari masa ke masa, fitur-fitur kuncinya, dan bagaimana setiap versinya membawa kontribusi besar dalam kasus deteksi objek real-time.
YOLOv1: Awal Revolusi Deteksi Objek
Pertama kali dirancang oleh Joseph Redmon pada tahun 2016, YOLOv1 adalah salah satu algoritma deteksi objek pertama yang memperkenalkan pendekatan end-to-end. Tidak seperti metode tradisional pada saat itu, seperti R-CNN yang memisahkan antara deteksi dan klasifikasi dalam prosesnya, YOLOv1 mengintegrasikan semuanya ke dalam satu jaringan tunggal. Ini yang membuat YOLOv1 menjadi lebih efisien dibandingkan dengan algoritma lainnya pada saat itu.
Spesifikasi:
- YOLOv1 membagi gambar menjadi grid ukuran S × S, di mana setiap sel bertanggung jawab untuk memprediksi bounding box dan kelas objek.
- YOLOv1 menggunakan loss function unik yang menggabungkan error klasifikasi dan bounding box dalam satu fungsi.
- Kelebihan: Real-time, dengan kemampuan memproses hingga 45 FPS pada GPU.
- Kekurangan: Kesulitan mendeteksi objek kecil karena grid-based prediction menyebabkan informasi lokal hilang.
YOLOv2 dan YOLOv3: Fokus pada Peningkatan Akurasi
YOLOv2 (2017): YOLO versi ini memperbaiki kelemahan YOLOv1 dengan memperkenalkan anchor boxes dan batch normalization. Anchor boxes memungkinkan deteksi yang lebih fleksibel untuk objek dengan berbagai ukuran. Selain itu, YOLOv2 mendukung multi-scale training, yang meningkatkan kinerja model pada berbagai resolusi gambar.
YOLOv3 (2018): YOLOv3 membawa perubahan signifikan dengan multi-scale prediction. Model ini menggunakan jaringan Feature Pyramid Networks (FPN), yang memungkinkan deteksi objek kecil menjadi lebih akurat.
Spesifikasi:
- YOLOv2:
- Darknet-19 sebagai backbone.
- Mean Average Precision (mAP) yang lebih tinggi dibandingkan YOLOv1.
- YOLOv3:
- Darknet-53 sebagai backbone.
- Arsitektur multi-skala yang lebih dalam.
YOLOv4 dan YOLOv5: Optimalisasi dan Pengembangan Komunitas
Redmon meninggalkan YOLO pada YOLOv3. Setelah itu, YOLO mulai dikembangkan oleh komunitas riset. YOLOv4 pertama kali diperkenalkan oleh Alexey Bochkovskiy pada tahun 2020, yang mengintegrasikan berbagai teknik baru seperti bag of freebies dan bag of specials.
YOLOv4 (2020) memperkenalkan yang namanya Mish activation function dan CSPNet untuk meningkatkan efisiensi jaringan. Selain itu juga terdapat konsep Self-Adversarial Training (SAT) untuk meningkatkan kemampuan generalisasi.
Kemudian dalam waktu yang tidak jauh, terdapat YOLOv5 (2020) yang diperkenalkan oleh Ultralytics. Model versi ini menjadi sangat populer karena kemudahan implementasinya dengan PyTorch, yang mana PyTorch sendiri adalah sebuah framework deep learning yang sangat populer khususnya dalam lingkungan peneliti. YOLOv5 menawarkan pipeline yang lebih sederhana dengan fitur data augmentasi bawaan, sehingga cocok untuk training data yang relatif sedikit.
YOLOv6 hingga YOLOv8: Pada era ini, YOLO sangat fokus pada peningkatan kualitas inference dengan tanpa mengorbankan akurasi dan kecepatan. Dengan begitu, YOLO semakin dapat diandalkan dalam penggunaan di aplikasi nyata. YOLOv7 secara eksplisit dioptimalkan untuk perangkat keras GPU modern dengan memperkenalkan teknik, yaitu extended efficient layer aggregation networks (E-ELAN). YOLOv6 dan YOLOv7 diperkennalkan pada tahun 2022.
YOLOv8 (2023) memperkenalkan fitur yang namanya deformable convolutions dan task-specific heads. Fitur tersebut memungkinkan YOLOv8 menjadi solusi all-in-one untuk kasus deteksi objek, segmentasi, dan klasifikasi.
YOLOv9 hingga YOLOv11: Deteksi Objek di Era Generative AI

Source: Midjourney
Dalam versi terbaru ini, YOLO mulai memanfaatkan arsitektur modern seperti transformer. Dengan menggunakan backbone transformer-based, YOLO versi terbaru ini dapat memahami konteks dan membawa deteksi objek ke tingkat yang lebih tinggi dalam hal akurasi dan juga kecepatan. Sehingga YOLO versi terbaru masih sangat dapat diandalkan untuk deteksi objek secara real-time.
Ringkasan Evolusi YOLO
Dari penjabaran di atas, dapat disimpulkan bagaimana evolusi model YOLO hingga kini, dapat dilihat pada tabel berikut.
https://www.analyticsvidhya.com/blog/2024/10/yolov11/
| Versi YOLO | Kelebihan | Kekurangan |
| YOLOv1 | Model deteksi real-time pertama | Kesulitan mendeteksi objek kecil |
| YOLOv2 | Penambahan anchor boxes dan batch normalization | Masih lemah dalam deteksi objek kecil |
| YOLOv3 | Multi-scale detection | Biaya komputasi yang lebih tinggi |
| YOLOv4 | Peningkatan kecepatan dan akurasi | Trade-offs dalam kasus ekstrem |
| YOLOv5 | Implementasi PyTorch yang user-friendly | Bukan rilisan resmi |
| YOLOv6 / YOLOv7 | Arsitektur yang disempurnakan | Peningkatan yang bersifat incremental |
| YOLOv8 / YOLOv9 | Penanganan objek padat / ramai (dense object) yang lebih baik | Kompleksitas yang meningkat |
| YOLOv10 | Memperkenalkan transformers, pelatihan NMS-free | Skalabilitas terbatas untuk perangkat edge |
| YOLOv11 | Berbasis transformer, dynamic head, pelatihan NMS-free, PSA modules | Skalabilitas menantang untuk perangkat edge yang sangat terbatas |
Kesimpulan
Dari YOLOv1 hingga YOLOv11, algoritma YOLO telah mengalami transformasi besar, membawa deteksi objek real-time ke era baru. Dengan kecepatan tinggi, efisiensi, dan fleksibilitas yang terus meningkat, YOLO menjadi pilihan utama dalam computer vision, khususnya untuk kasus real-time.
Penulis
Muhammad Alfhi Saputra, S.Kom., M.Kom. – FDP Scholar
Referensi
- https://docs.ultralytics.com/models/yolov8/
- https://docs.ultralytics.com/models/yolo11/
- https://www.analyticsvidhya.com/blog/2024/10/yolov11/
- https://arxiv.org/abs/2406.19407
- https://www.labelvisor.com/comparative-analysis-of-yolo-versions-yolov1-to-yolov10/
- https://learnopencv.com/mastering-all-yolo-models/