Mengapa Model AI Tidak Pernah Bisa 100% Akurat dalam Mendeteksi Hate Speech?

Article

Perkembangan kecerdasan buatan (AI) saat ini sangat cepat, namun mengapa platform teknologi bersar seperti X atau Instagram seakan masih kesulitan mendeteksi hate speech secara baik dan tepat? Mengapa AI seolah tidak pernah bisa membedakan dengan pasti mana yang merupakan opini tajam, candaan gelap, atau murni ujaran kebencian?

Untuk memahami ini, kita perlu melihat besarnya permasalahan terlebih dahulu. Berdasarkan data statistik global, media sosial telah menjadi platform utama untuk diskusi publik dengan lebih dari 5,24 miliar identitas pengguna aktif di seluruh dunia, yang merepresentasikan sekitar 63,9% dari populasi global. Kemudahan akses ini nyatanya juga meningkatkan risiko distribusi konten berbahaya. Berdasarkan penelitian terkait paparan media sosial, hingga 80% pengguna media sosial berusia 10-18 tahun di Amerika Serikat menemukan hate speech hanya dalam periode satu bulan. Mengingat besarnya volume data tersebut, moderasi manual oleh manusia sudah tidak cukup efektif, sehingga sistem deteksi otomatis sangat diperlukan.

Namun, terlepas dari canggihnya teknologi saat ini, terdapat satu alasan fundamental mengapa akurasi 100% adalah sebuah ilusi.

Mungkin Masalahnya Ada pada Manusia, Bukan Mesin

Penelitian studi telah dilakukan untuk mengevaluasi topik ini dengan melatih model menggunakan 35.998 sampel teks yang digabungkan dari tiga dataset besar: MMHS150K, MHS, dan HateXplain. Fakta yang paling mengejutkan dari penelitian tersebut adalah ditemukannya tingkat kontradiksi sebesar 17,21% di antara para penilai (anotator) manusia itu sendiri terhadap majority vote. Hal ini terjadi karena para anotator dipaksa untuk memilih hanya satu label saja pada teks yang ada kemungkinan cukup ambigu, sehingga hampir seperlima dari keputusan mereka saling bertentangan satu sama lain. Kondisi ini menciptakan batasan yang unik di mana melalui Hukum Total Ekspektasi (Law of Total Expectation), penelitian membuktikan bahwa performa rata-rata manusia di kisaran 82,79% akibat ketidaksepakatan tersebut.

Jebakan Klasifikasi Tunggal pada Teks Multilabel

Mengapa akurasi sempurna sangat sulit dicapai meski menggunakan teknologi canggih?

Masalahnya terletak pada aturan main evaluasinya. Di dunia nyata, ujaran kebencian sering kali bersifat tumpang tindih (intersectional), di mana satu kalimat tajam bisa saja mengandung berbagai kategori sekaligus seperti gabungan antara unsur Rasisme, Seksisme, serangan Orientasi Seksual, hingga sentimen Agama.

Ketika sebuah teks memiliki makna ganda seperti itu, para penilai manusia yang pada dasarnya sudah memiliki kecenderungan subjektifnya masing-masing, seringkali dipaksa untuk memilih hanya satu label utama. Label yang paling banyak dipilih (mayoritas) akhirnya akan ditetapkan sebagai “kunci jawaban” mutlak. Nah, saat model AI memproses teks kompleks tersebut, mesin ini sangat mungkin mendeteksi berbagai unsur kebencian yang ada dan pada akhirnya memilih label yang ternyata mewakili suara minoritas manusia.

Karena sistem evaluasi saat ini memaksakan aturan klasifikasi tunggal (single-label), tebakan AI tersebut akan langsung divonis “salah” hanya karena tidak sama dengan mayoritas. Padahal, tebakan mesin itu tidak sepenuhnya keliru, unsur kebencian tersebut nyata adanya di dalam teks dan bahkan disetujui oleh sebagian penilai. Fenomena ini menunjukkan bahwa memaksakan satu label kaku pada ujaran kebencian yang kompleks pada akhirnya hanya menciptakan kesalahan buatan (artificial errors). Alih-alih menyalahkan kecerdasan AI, hal ini membuktikan bahwa kita sangat membutuhkan sistem evaluasi baru yang tidak memaksa model ke dalam satu label pasti, melainkan menggunakan kerangka kerja multi-label atau probabilitas di masa depan.

Pada akhirnya, jawaban atas pertanyaan mengapa AI tidak pernah bisa mencapai akurasi 100% dalam mendeteksi hate speech berakar pada subjektivitas manusia itu sendiri. Selama manusia tidak bisa bersepakat sepenuhnya mengenai batasan pasti ujaran kebencian, AI pun tidak akan bisa mencapai akurasi sempurna. Oleh karena itu, dalam mengevaluasi kinerja sebuah model AI, kita tidak bisa lagi hanya terpaku pada metrik statistik tradisional seperti F1-macro atau sekadar mencari kesalahan pada arsitektur modelnya. Kita perlu mengalihkan fokus evaluasi ke akar masalah lainnya seperti data. Jika manusia yang bertugas memberi label saja kebingungan dan saling berdebat dalam mengklasifikasikan sebuah kalimat, maka data yang dihasilkan secara otomatis akan mengandung noise. Kegagalan sistem dalam mencapai angka sempurna seringkali bukanlah karena model yang “salah” atau gagal belajar, melainkan karena datanya sendiri yang memang terlalu ambigu untuk dijadikan bahan ajar yang mutlak tanpa cela.

Referensi

Kemp DataReportal – Global Digital Insights [Internet]. 2025 [cited 2026 Apr 23]. Digital 2025: Global Overview Report. Available from: https://datareportal.com/reports/digital-2025-global-overview-report
Christina D, Gilliland A, Ong C, Slusser W, Hansen M, Amlani A, et al. The Rise of Social Media UCLA Initiative to Study Hate [Internet]. 2024 Dec 20 [cited 2026 Apr 23]. Available from: https://studyofhate.ucla.edu/smash-social-media-hate/
Gomez R, Gibert J, Gomez L, Karatzas D. Exploring Hate Speech Detection in Multimodal Publications [Internet]. arXiv; 2019 [cited 2026 Apr 23]. Available from: https://arxiv.org/abs/1910.03814 doi:10.48550/ARXIV.1910.03814
Sachdeva P, Barreto R, Bacon G, Sahn A, von Vacano C, Kennedy The Measuring
Hate Speech Corpus: Leveraging Rasch Measurement Theory for Data Perspectivism. In: Abercrombie G, Basile V, Tonelli S, Rieser V, Uma A, editors. Proceedings of the 1st Workshop on Perspectivist Approaches to NLP @LREC2022 [Internet]. Marseille, France: European Language Resources Association; 2022 [cited 2026 Apr 23]. p. 83–94. Available from: https://aclanthology.org/2022.nlperspectives-1.11/
Mathew B, Saha P, Yimam SM, Biemann C, Goyal P, Mukherjee A. HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection [Internet]. arXiv; 2020 [cited 2026 Apr 23]. Available from: https://arxiv.org/abs/2012.10289 doi:10.48550/ARXIV.2012.10289

Penulis

2702328661 – Garent Ecklesia (Data Science)
2702328781 – Harry Santosa (Data Science)
D3690 – Prof. Derwin Suhartono