Dari YOLOv1 hingga YOLOv11: Evolusi Algoritma Deteksi Objek Real-Time yang Paling Populer

Article

Source: Midjourney

Deteksi objek (object detection) merupakan salah satu aplikasi yang paling banyak dieksplor dalam bidang computer vision. Sebagai salah satu bagian dari Artificial Intelligence, deteksi objek juga merupakan salah satu aplikasi yang paling banyak dimanfaatkan di dunia nyata, mulai dari untuk pengawasan, monitoring, pemindaian, dan sebagainya. Salah satu keluarga algoritma deteksi objek yang paling populer adalah YOLO (You Only Look Once). YOLO pertama kali diperkenalkan pada 2016, sebagai versi pertama atau disebut juga dengan YOLOv1, YOLO mengalami evolusi yang sangat signifikan hingga hari ini, yaitu YOLOv11. Artikel ini akan membahas perjalanan YOLO dari masa ke masa, fitur-fitur kuncinya, dan bagaimana setiap versinya membawa kontribusi besar dalam kasus deteksi objek real-time.

YOLOv1: Awal Revolusi Deteksi Objek

Pertama kali dirancang oleh Joseph Redmon pada tahun 2016, YOLOv1 adalah salah satu algoritma deteksi objek pertama yang memperkenalkan pendekatan end-to-end. Tidak seperti metode tradisional pada saat itu, seperti R-CNN yang memisahkan antara deteksi dan klasifikasi dalam prosesnya, YOLOv1 mengintegrasikan semuanya ke dalam satu jaringan tunggal. Ini yang membuat YOLOv1 menjadi lebih efisien dibandingkan dengan algoritma lainnya pada saat itu.

Spesifikasi:

YOLOv1 membagi gambar menjadi grid ukuran S × S, di mana setiap sel bertanggung jawab untuk memprediksi bounding box dan kelas objek.
YOLOv1 menggunakan loss function unik yang menggabungkan error klasifikasi dan bounding box dalam satu fungsi.
Kelebihan: Real-time, dengan kemampuan memproses hingga 45 FPS pada GPU.
Kekurangan: Kesulitan mendeteksi objek kecil karena grid-based prediction menyebabkan informasi lokal hilang.

YOLOv2 dan YOLOv3: Fokus pada Peningkatan Akurasi

YOLOv2 (2017): YOLO versi ini memperbaiki kelemahan YOLOv1 dengan memperkenalkan anchor boxes dan batch normalization. Anchor boxes memungkinkan deteksi yang lebih fleksibel untuk objek dengan berbagai ukuran. Selain itu, YOLOv2 mendukung multi-scale training, yang meningkatkan kinerja model pada berbagai resolusi gambar.

YOLOv3 (2018): YOLOv3 membawa perubahan signifikan dengan multi-scale prediction. Model ini menggunakan jaringan Feature Pyramid Networks (FPN), yang memungkinkan deteksi objek kecil menjadi lebih akurat.

Spesifikasi:

YOLOv2:
Darknet-19 sebagai backbone.
Mean Average Precision (mAP) yang lebih tinggi dibandingkan YOLOv1.

YOLOv3:
Darknet-53 sebagai backbone.
Arsitektur multi-skala yang lebih dalam.

YOLOv4 dan YOLOv5: Optimalisasi dan Pengembangan Komunitas

Redmon meninggalkan YOLO pada YOLOv3. Setelah itu, YOLO mulai dikembangkan oleh komunitas riset. YOLOv4 pertama kali diperkenalkan oleh Alexey Bochkovskiy pada tahun 2020, yang mengintegrasikan berbagai teknik baru seperti bag of freebies dan bag of specials.

YOLOv4 (2020) memperkenalkan yang namanya Mish activation function dan CSPNet untuk meningkatkan efisiensi jaringan. Selain itu juga terdapat konsep Self-Adversarial Training (SAT) untuk meningkatkan kemampuan generalisasi.

Kemudian dalam waktu yang tidak jauh, terdapat YOLOv5 (2020) yang diperkenalkan oleh Ultralytics. Model versi ini menjadi sangat populer karena kemudahan implementasinya dengan PyTorch, yang mana PyTorch sendiri adalah sebuah framework deep learning yang sangat populer khususnya dalam lingkungan peneliti. YOLOv5 menawarkan pipeline yang lebih sederhana dengan fitur data augmentasi bawaan, sehingga cocok untuk training data yang relatif sedikit.

YOLOv6 hingga YOLOv8: Pada era ini, YOLO sangat fokus pada peningkatan kualitas inference dengan tanpa mengorbankan akurasi dan kecepatan. Dengan begitu, YOLO semakin dapat diandalkan dalam penggunaan di aplikasi nyata. YOLOv7 secara eksplisit dioptimalkan untuk perangkat keras GPU modern dengan memperkenalkan teknik, yaitu extended efficient layer aggregation networks (E-ELAN). YOLOv6 dan YOLOv7 diperkennalkan pada tahun 2022.

YOLOv8 (2023) memperkenalkan fitur yang namanya deformable convolutions dan task-specific heads. Fitur tersebut memungkinkan YOLOv8 menjadi solusi all-in-one untuk kasus deteksi objek, segmentasi, dan klasifikasi.

YOLOv9 hingga YOLOv11: Deteksi Objek di Era Generative AI

Source: Midjourney

Dalam versi terbaru ini, YOLO mulai memanfaatkan arsitektur modern seperti transformer. Dengan menggunakan backbone transformer-based, YOLO versi terbaru ini dapat memahami konteks dan membawa deteksi objek ke tingkat yang lebih tinggi dalam hal akurasi dan juga kecepatan. Sehingga YOLO versi terbaru masih sangat dapat diandalkan untuk deteksi objek secara real-time.

Ringkasan Evolusi YOLO

Dari penjabaran di atas, dapat disimpulkan bagaimana evolusi model YOLO hingga kini, dapat dilihat pada tabel berikut.

https://www.analyticsvidhya.com/blog/2024/10/yolov11/

Versi YOLO	Kelebihan	Kekurangan
YOLOv1	Model deteksi real-time pertama	Kesulitan mendeteksi objek kecil
YOLOv2	Penambahan anchor boxes dan batch normalization	Masih lemah dalam deteksi objek kecil
YOLOv3	Multi-scale detection	Biaya komputasi yang lebih tinggi
YOLOv4	Peningkatan kecepatan dan akurasi	Trade-offs dalam kasus ekstrem
YOLOv5	Implementasi PyTorch yang user-friendly	Bukan rilisan resmi
YOLOv6 / YOLOv7	Arsitektur yang disempurnakan	Peningkatan yang bersifat incremental
YOLOv8 / YOLOv9	Penanganan objek padat / ramai (dense object) yang lebih baik	Kompleksitas yang meningkat
YOLOv10	Memperkenalkan transformers, pelatihan NMS-free	Skalabilitas terbatas untuk perangkat edge
YOLOv11	Berbasis transformer, dynamic head, pelatihan NMS-free, PSA modules	Skalabilitas menantang untuk perangkat edge yang sangat terbatas

Kesimpulan

Dari YOLOv1 hingga YOLOv11, algoritma YOLO telah mengalami transformasi besar, membawa deteksi objek real-time ke era baru. Dengan kecepatan tinggi, efisiensi, dan fleksibilitas yang terus meningkat, YOLO menjadi pilihan utama dalam computer vision, khususnya untuk kasus real-time.

Penulis

Muhammad Alfhi Saputra, S.Kom., M.Kom. – FDP Scholar

Referensi

https://docs.ultralytics.com/models/yolov8/
https://docs.ultralytics.com/models/yolo11/
https://www.analyticsvidhya.com/blog/2024/10/yolov11/
https://arxiv.org/abs/2406.19407
https://www.labelvisor.com/comparative-analysis-of-yolo-versions-yolov1-to-yolov10/
https://learnopencv.com/mastering-all-yolo-models/