Apa Itu Analisis Suara Emosional & Bagaimana Cara Kerjanya?

Speech Emotion Recognition (SER) adalah teknologi AI yang mampu mendeteksi emosi manusia berdasarkan pola vokal seperti pitch, intonasi, tempo, dan kekuatan suara. Tidak hanya kata-kata, suara juga membawa data yang kaya akan makna emosional.

Tahapan utama dalam SER adalah melakukan ekstraksi fitur audio yang bisa dilakukan via openSMILE, lalu melakukan klasifikasi dengan model seperti CNN, ResNet, atau transfer learning dengan speaker recognition dan BERT fusion untuk meningkatkan akurasi. Contoh model terbaru yang memanfaatkan sistem multimodal, dipresentasikan di InterSpeech 2025 menggunakan Graph Attention Networks dan prosodic features untuk meraih Macro F1-score mendekati 39–40% pada data ucapan naturalistik.

Sumber: Unsplash

 

Evolusi Teknologi: Dari Ekstraksi Nada Suara Hingga Analisis Emosi Real-Time

Di masa lalu, riset hanya mampu mengamati pitch atau volume dalam sebuah data signal atau rekaman signal. Saat ini, penelitian sudah mencakup beberapa ini :

  • Toolkit openSMILE digunakan secara luas dikomunitas riset SER untuk ekstraksi fitur suara seperti pitch, tempo, dan loudness dalam berbagai situasi
  • Studi systematic literature review terbaru menunjukkan tren integrasi multimodal (suara + teks) serta teknik augmentasi data dan transfer learning untuk mengatasi keterbatasan dataset dan noise dari background

Sumber: AI Generated | Midjourney

 

Aplikasi Praktis Teknologi Analisis Suara di Berbagai Bidang

  • Psikologi & Kesehatan Mental
    Digunakan dalam konseling secara online untuk memahami state emosi dari klien walaupun verbalnya netral. Cocok untuk screening dini kesehatan mental pasien.
  • Bisnis & Customer Service
    Platform seperti Cogito (MIT spin‑out) dan Uniphore memberi notifikasi untuk memandu agent call center mengetahui mood pelanggan dan menyesuaikan respons secara empatik, sehingga satisfaction meningkat dan durasi panggilan lebih efisien.
  • Pendidikan & Pembelajaran Digital
    Aplikasi berdasarkan CNN + PAD model dapat membantu guru memahami mood siswa selama belajar daring dan menyesuaikan metode pengajaran untuk pengalaman belajar yang lebih efektif

 

Tantangan & Etika

Meskipun menjanjikan, teknologi ini menghadapi beberapa resiko, antara lain :

  • Bias Budaya & Linguistik: Akurasi mungkin dapat berbeda antar bahasa, pola bicara, budaya dan gender.
  • Privasi & Regulasi: Suara termasuk data sensitif, diperlukan otorisasi jelas dan keamanan data yang kuat.
  • Akurasi di Kondisi Nyata: Noise background atau classroom crowds menyulitkan sistem, model baru mencoba mengatasinya dengan augmentasi data dan attention fusion. Mungkin perlu dilakukan analisis mendalam pada background sound.

 

Penulis

Stefanus Benhard S.Kom. (FDP Scholar)

 

Referensi

  1. Bravo, L., Rodriguez, C., Hidalgo, P., & Angulo, C. (2025). A Systematic Review on Artificial Intelligence-Based Multimodal Dialogue Systems capable of emotion Recognition. Multimodal Technologies and Interaction9(3), 28. https://doi.org/10.3390/mti9030028
  2. Ferreira, A. I. S., Gris, L. R., Ólives, L., Ribeiro, D., Fernando, L., Lustosa, F., … & de Oliveira, F. S. (2025). Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025. arXiv preprint arXiv:2506.02088.