Pendahuluan 

Kemampuan Artificial Intelligence (AI) dalam memahami dan menghasilkan suara manusia telah merevolusi banyak aspek kehidupan, mulai dari asisten virtual, layanan pelanggan otomatis, hingga penciptaan musik dan sintesis suara tokoh terkenal. Dua cabang utama dalam teknologi ini adalah Speech Recognition (Pengenalan Suara) dan Speech Synthesis (Generasi Suara). Artikel ini membahas secara lengkap bagaimana kedua proses tersebut bekerja, teknologi yang digunakan, serta aplikasinya di berbagai sektor. 

Sumber: EDN.com

 Apa Itu Speech Recognition dan Speech Generation? 

1. Speech Recognition (ASR – Automatic Speech Recognition)

Adalah proses ketika AI mengenali ucapan manusia dalam bentuk audio dan mengubahnya menjadi teks digital. 

Contoh: 

  • Google Assistant memahami perintah “Buka WhatsApp”. 
  • YouTube menampilkan subtitle otomatis dari suara dalam video.

2. Speech Generation (Speech Synthesis atau Text-to-Speech/TTS)

Adalah kebalikannya: AI mengubah teks menjadi suara yang bisa didengar, seolah-olah diucapkan oleh manusia. 

Contoh: 

  • Google Translate membacakan hasil terjemahan. 
  • Narasi berita otomatis dengan suara AI. 

Bagaimana AI Mengenali Suara (Speech Recognition)? 

Langkah-langkah Utama:

1. Preprocessing Audio 

  • Suara manusia direkam dalam format digital. 
  • Dilakukan penghapusan noise, normalisasi volume, dan transformasi sinyal (misalnya menggunakan Fourier Transform). 

2. Feature Extraction 

  • Ekstraksi ciri akustik seperti MFCC (Mel Frequency Cepstral Coefficients), yang merepresentasikan pola suara secara matematis. 
  • Tujuannya untuk mengubah gelombang suara menjadi vektor angka yang bisa diproses oleh AI. 

3. Model AI (Deep Learning) 

  • Model seperti Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM), atau Transformer-based models (seperti Whisper dari OpenAI) digunakan untuk mengenali urutan suara dan menerjemahkannya ke teks. 

4. Language Model 

  • AI memanfaatkan model bahasa (contoh: GPT, BERT) untuk memahami konteks kata, sehingga bisa membedakan antara “dua” dan “doa” misalnya. 

5. Output Teks 

  • Hasil akhirnya adalah transkripsi teks dari suara yang diucapkan. 

6. Teknologi Populer

  • Whisper by OpenAI – model open-source untuk multi-lingual speech recognition. 
  • Google Speech-to-Text API 
  • Microsoft Azure Speech Services 
  • DeepSpeech by Mozilla (sudah dihentikan, tapi jadi pelopor open-source ASR) 

Bagaimana AI Menghasilkan Suara (Speech Generation)? 

1. Langkah-langkah Utama

2. Input Teks 

  • AI menerima kalimat sebagai input, misalnya: “Selamat pagi, dunia!” 

3. Text Analysis 

  • Teks dianalisis untuk menentukan intonasi, jeda, dan tekanan kata. 
  • Digunakan juga NLP untuk memahami konteks kalimat. 

4. Linguistic to Acoustic Conversion 

  • Proses mengubah teks menjadi parameter suara seperti frekuensi, durasi, dan amplitudo. 

5. Vocoder (Voice Decoder) 

  • Komponen yang mengubah parameter tadi menjadi gelombang suara nyata. 
  • Contoh vocoder modern: WaveNet (oleh DeepMind), HiFi-GAN, MelGAN. 

6. Output Audio 

  • AI menghasilkan suara yang bisa didengarkan, mirip manusia atau karakter tertentu. 

7. Teknologi Populer

  • Google Text-to-Speech 
  • Amazon Polly 
  • Microsoft Azure TTS 
  • Resemble AI, Descript Overdub (untuk clone suara manusia) 
  • PlayHT, ElevenLabs – AI voice generator berbasis neural network 

Teknologi yang Digunakan 

Komponen  Fungsi  Teknologi Umum 
NLP  Memahami konteks teks  BERT, GPT 
Deep Neural Network  Mempelajari pola suara  RNN, CNN, Transformer 
MFCC  Representasi fitur suara  Signal processing 
Vocoder  Mengubah parameter ke audio  WaveNet, HiFi-GAN 
ASR Engine  Mengenali suara  Whisper, Google STT 

Contoh Implementasi Nyata 

1. Asisten Virtual

  • Google Assistant, Siri, Alexa: menggabungkan speech recognition dan TTS untuk interaksi dua arah. 

2. AI Voiceover & Dubber

  • Netflix mulai menggunakan AI untuk dubbing otomatis dengan intonasi emosional. 

3. Customer Service Otomatis

  • Bot suara di call center yang bisa mengenali keluhan pelanggan dan menjawab secara verbal. 

4. Voice Cloning

  • Digunakan dalam pelestarian suara tokoh bersejarah (misalnya suara Stephen Hawking yang diabadikan). 

Keunggulan dan Risiko 

Keunggulan: 

  • Memudahkan interaksi tanpa tangan (hands-free) 
  • Meningkatkan aksesibilitas bagi penyandang disabilitas 
  • Mempercepat produksi konten audio 

Risiko & Tantangan: 

  • Voice deepfake: penyalahgunaan cloning suara untuk penipuan. 
  • Privasi: data suara bisa disalahgunakan jika tidak dilindungi. 
  • Bias linguistik: beberapa AI kesulitan mengenali aksen atau dialek tertentu. 

Masa Depan AI dalam Suara 

AI di bidang suara akan semakin mendekati kemampuan manusia, seperti: 

  • Emotion AI: mengenali dan menghasilkan suara dengan emosi. 
  • Real-time voice translation: suara langsung diterjemahkan ke bahasa lain dengan suara asli. 
  • Voice Identity Verification: autentikasi hanya dengan suara. 

Kesimpulan 

AI dalam bidang pengenalan dan pembangkitan suara telah membawa lompatan besar dalam teknologi interaksi manusia dan mesin. Dari asisten virtual hingga voice cloning, kemampuannya didukung oleh kemajuan dalam deep learning, NLP, dan teknologi sinyal digital. Namun, penting untuk mengembangkan dan menggunakan teknologi ini secara etis dan bertanggung jawab untuk menghindari penyalahgunaan. 


Penulis 

Fiqri Ramadhan Tambunan, S.Kom., M.Kom. – FDP Scholar 

 

Referensi : 

https://cloud.google.com/text-to-speech 

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae (2020),HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, https://doi.org/10.48550/arXiv.2010.05646 

https://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/