Revolusi Absolute Zero Reasoner – Model AI Tanpa Data Pertama didunia

 

Apa Itu Absolute Zero Reasoner dan Bagaimana Cara Kerjanya?

Absolute Zero Reasoner (AZR) adalah terobosan terbaru dalam kecerdasan buatan, dimana model AI dapat belajar dan berkembang tanpa membutuhkan data eksternal sama sekali. Berbeda dengan AI tradisional yang membutuhkan jutaan data untuk dilatih, AZR mengadopsi prinsip selfplay, modelnya sendiri yang membuat soal, menguji diri, dan memperbaiki kemampuannya secara otonom. Dua peran utama dijalankan secara bersamaan yaitu sebagai “pembuat soal” (proposer) dan “pemecah soal” (solver), sehingga AI membangun kurikulum pembelajarannya sendiri tanpa intervensi manusia. Penelitian ini dilakukan oleh Zhao et al. 2025 kolaborasi dengan Tsinghua University, Beijing Institute for General Artificial Intelligence dan Pennysylvania State University, dengan judul penelitian Absolute Zero : Reinforced Self-play Reasoning with Zero Data (https://arxiv.org/pdf/2505.03335)

(Sumber : https://arxiv.org/pdf/2505.03335 ) (Zhao et al, 2025)

 

Perkembangan Absolute Zero Reasoner: Dari Supervised Learning ke Self-Evolving AI

Pada awalnya, perkembangan kecerdasan buatan (AI) sangat bergantung pada supervised learning, dimana model dilatih menggunakan dataset besar yang telah dikurasi dan dilabeli secara manual oleh manusia. Contohnya adalah dataset ImageNet dalam computer vision, dimana pada umumnya model belajar dari jutaan contoh untuk memahami pola dan membuat prediksi. Model mempelajari bahwa bentuk suatu hewan adalah benar seekor hewan dari berbagai macam jenis gambar hewan berdasarkan dari karakteristiknya seperti fitur pada wajah, karakteristik hewan hingga warna dan bentuk tubuh hewan.

(Sumber : https://www.image-net.org/static_files/papers/imagenet_cvpr09.pdf?ref=blog.roboflow.com )

Namun, pendekatan ini memiliki keterbatasan utama: skalabilitasnya tergantung pada kemampuan manusia mengumpulkan dan melabeli data. Di titik tertentu, kemampuan untuk meningkatkan kecerdasan model menjadi mahal, lambat, dan tidak praktis (Sutskever et al., 2021).

Absolute Zero Reasoner (AZR) membawa pandangan baru yang lebih radikal dimana AI menjadi sepenuhnya mandiri tanpa data eksternal sama sekali. Disini, model AI bertindak ganda untuk menciptakan dan menyelesaikan soal secara otomatis, lalu mengevaluasi jawabannya menggunakan environment yang dapat memverifikasi hasilnya misalnya: code executor untuk program komputer. AZR memanfaatkan tiga bentuk penalaran yaitu

  • Deduksi (menyimpulkan output dari program dan input)
  • Abduksi (menebak input dari program dan output)
  • Induksi (membangun program dari pasangan input-output)

 

Apakah AI Tanpa Data Akan Menguasai Dunia?

(Sumber: https://static.wikia.nocookie.net/monstermovies/images/f/fb/Terminator3t800.jpg/revision/latest?cb=20120601103702)

Walaupun Absolute Zero Reasoner (AZR) baru terbukti unggul dalam domain yang berfokus secara logika seperti matematika, pemrograman, dan reasoning terstruktur, potensi jangka panjangnya menimbulkan pertanyaan etis yang sangat serius:

  • Tanpa Kontrol Manusia:
    AZR dapat belajar dan berkembang tanpa pengawasan manusia, bahkan tanpa intervensi data eksternal. Hal ini berarti, AI seperti ini bisa mengembangkan kemampuan reasoning dan solusi yang tidak lagi sepenuhnya dipahami atau dikontrol oleh penciptanya
  • Resiko Emergent Behavior:
    Model seperti AZR bisa saja menemukan solusi yang efisien, tetapi tidak selalu selaras dengan nilai atau etika manusia, fenomena ini dikenal sebagai reward hacking https://arxiv.org/abs/1606.06565 atau specification gaming https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/
  • Potensi Bias dan Lack of Alignment:
    Walaupun tidak bergantung pada data manusia, AZR tetap berinteraksi dengan environment buatan seperti code executor. Jika reward function-nya kurang tepat, AI bisa saja mengembangkan logika atau strategi yang sulit diprediksi dan bahkan membahayakan jika diaplikasikan ke domain yang lebih kompleks seperti kebijakan publik, sains, atau sosial.
  • Keamanan AI:
    Banyak peneliti AI menekankan pentingnya alignment yaitu memastikan tujuan AI tetap konsisten dengan tujuan manusia. Model self-evolving seperti AZR membutuhkan mekanisme keamanan baru agar tidak berkembang ke arah yang tidak diinginkan atau dapat disebut lepas kendali (https://gcore.com/blog/self-evolving-ai-cyberthreats )

 

Penulis

Stefanus Benhard S.Kom.

FDP Scholar