YOLOv12: Attention-Centric untuk Deteksi Objek Real-Time
(Tian et al., 2025)
YOLO (You Only Look Once) adalah rangkaian metode deteksi objek yang sangat populer karena mampu memberikan keseimbangan unggul antara kecepatan inferensi dan akurasi deteksi. Selama ini, evolusi YOLO umumnya didasarkan pada peningkatan arsitektur yang berbasis Convolutional Neural Network (CNN). Namun, YOLOv12 memperkenalkan paradigma baru dengan secara dominan mengintegrasikan attention mechanism sebagai komponen utama dalam arsitektur deteksi objek real-time.
Peran Attention dalam Deteksi Objek Real-Time
Attention mechanism dikenal memiliki kemampuan pemodelan yang kuat, tetapi penggunaannya pada deteksi objek real-time sering terkendala oleh kompleksitas komputasi tinggi. Dalam deteksi real-time, kecepatan inferensi merupakan aspek krusial. Oleh karena itu, pendekatan berbasis CNN selama ini mendominasi implementasi YOLO karena jauh lebih efisien secara komputasi dibandingkan dengan attention-based models.
YOLOv12 berhasil mengatasi tantangan tersebut, dengan mempertahankan kecepatan inferensi serupa CNN tetapi mengintegrasikan manfaat dari attention mechanism, menghasilkan akurasi yang lebih tinggi dibandingkan generasi YOLO sebelumnya.
Inovasi Utama YOLOv12
Ada tiga inovasi utama yang menjadi dasar YOLOv12:
- Area Attention Mechanism
Area attention adalah metode sederhana namun efektif untuk mengurangi kompleksitas attention dengan membagi peta fitur menjadi beberapa area horizontal atau vertikal. Modul ini secara signifikan mengurangi biaya komputasi attention dari kompleksitas kuadratik menjadi separuhnya, tetapi tetap mempertahankan receptive field yang besar, sehingga meningkatkan kecepatan secara signifikan.
(Tian et al., 2025)
- Residual Efficient Layer Aggregation Networks (R-ELAN)
ELAN (Efficient Layer Aggregation Networks) sebelumnya dikenal mampu meningkatkan agregasi fitur tetapi menghadapi tantangan optimasi dalam model besar terutama yang berbasis attention. YOLOv12 memperkenalkan R-ELAN, yaitu ELAN yang dilengkapi dengan koneksi residual serta teknik scaling yang lebih baik. Pendekatan ini terbukti meningkatkan stabilitas optimasi dan memastikan model besar seperti YOLOv12-L dan YOLOv12-X dapat dilatih secara efektif.
(Tian et al., 2025)
- Optimalisasi Arsitektur untuk Attention Mechanism
YOLOv12 memperkenalkan beberapa optimalisasi tambahan yang secara khusus menyesuaikan attention mechanism untuk kebutuhan real-time YOLO:
- Menggunakan FlashAttention untuk mengatasi bottleneck akses memori attention.
- Menghapus positional encoding untuk meningkatkan efisiensi.
- Menyesuaikan rasio MLP dari 4 menjadi 1,2 untuk distribusi komputasi yang lebih seimbang.
- Mengurangi kedalaman blok untuk optimasi yang lebih baik.
- Memaksimalkan pemanfaatan operator konvolusi untuk efisiensi tinggi.
Performa YOLOv12
Evaluasi YOLOv12 pada dataset COCO menunjukkan hasil yang mengesankan dalam trade-off akurasi-latensi. YOLOv12-N mencapai 40,6% mAP dengan latensi inferensi sebesar 1,64 ms pada GPU T4, unggul dibandingkan YOLOv10-N dan YOLOv11-N masing-masing sebesar 2,1% dan 1,2% mAP pada kecepatan serupa.
Perbandingan dengan model mutakhir lainnya seperti RT-DETR juga menunjukkan keunggulan jelas YOLOv12, baik dari sisi akurasi, kecepatan, maupun parameter yang lebih ringan.
(Tian et al., 2025)
Kesimpulan
YOLOv12 merevolusi YOLO series dengan memperkenalkan attention mechanism yang disesuaikan secara optimal untuk memenuhi kebutuhan real-time. Kombinasi inovasi Area Attention, R-ELAN, serta optimalisasi arsitektur menghasilkan framework deteksi objek yang cepat dan akurat, menjadikan YOLOv12 sebagai standar baru dalam real-time object detection.
Penulis:
Arya Krisna Putra
FDP Scholar
Daftar Pustaka:
- Ultralytics YOLOv12 Documentation. YOLO12: Attention-Centric Object Detection. Diakses dari https://docs.ultralytics.com/models/yolo12/
- Tian, Y., Ye, Q., & Doermann, D. (2025). YOLOv12: Attention-Centric Real-Time Object Detectors. https://doi.org/10.48550/arXiv.2502.12524
- Review YOLOv12: Attention-Centric Real-Time Object Detectors. Diakses dari https://sh-tsang.medium.com/review-yolov12-attention-centric-real-time-object-detectors-2d601b1d94ad
Penulis:
Arya Krisna Putra
FDP Scholar
Daftar Pustaka:
- Ultralytics YOLOv12 Documentation. YOLO12: Attention-Centric Object Detection. Diakses dari https://docs.ultralytics.com/models/yolo12/
- Tian, Y., Ye, Q., & Doermann, D. (2025). YOLOv12: Attention-Centric Real-Time Object Detectors. https://doi.org/10.48550/arXiv.2502.12524
- Review YOLOv12: Attention-Centric Real-Time Object Detectors. Diakses dari https://sh-tsang.medium.com/review-yolov12-attention-centric-real-time-object-detectors-2d601b1d94ad
Last updated :
SOCIAL MEDIA
Let’s relentlessly connected and get caught up each other.
Looking for tweets ...