Bayangkan kembali ke tahun 2011. Saat itu, Apple memperkenalkan Siri, asisten digital pertama yang mampu merespons perintah suara dengan cara yang terasa sangat futuristik pada saat itu. Kita bisa bertanya, “Gimana cuaca hari ini?” dan kemudian kita mendengar suara jawaban seperti, “Hari ini cerah dengan suhu 30 derajat.” Siri menjadi simbol awal dari era baru, yaitu manusia berbicara dengan mesin, dan mesin menjawab dengan cerdas.

Lebih dari satu dekade kemudian, kita hidup di masa di mana ChatGPT, Google Gemini, dan Copilot bukan hanya menjawab pertanyaan, tetapi bisa menulis puisi, menganalisis kode, hingga membantu pekerjaan profesional. Evolusi ini tidak terjadi dalam semalam. Terdapat rangkaian perjalanan panjang dari teknologi berbasis aturan sederhana (rule-based) menuju large language model (LLM) yang mempelajari miliaran kata dari seluruh dunia.

Awal Mula: Siri dan Era Asisten Suara

Ketika Siri diluncurkan bersama iPhone 4S pada tahun 2011, teknologi ini terasa sangat canggih. Di balik tampilannya yang sederhana, Siri dibangun menggunakan kombinasi speech recognition, natural language understanding (NLU), dan rule-based system. Artinya, Siri hanya bisa memahami pola kalimat tertentu dan memberi jawaban yang sudah diprogram sebelumnya.

Siri sebenarnya lahir dari proyek riset bernama Cognitive Agent that Learns and Organizes (CALO) yang dikembangkan oleh DARPA di Amerika Serikat pada awal 2000-an . Apple kemudian mengakuisisi startup bernama Siri Inc. dan mengintegrasikannya ke iPhone. Teknologi ini menjadi inspirasi bagi asisten digital lain seperti Google Now (2012), Amazon Alexa (2014), dan Microsoft Cortana (2015).

Namun, pada tahap awal, semua asisten digital ini memiliki keterbatasan besar: mereka tidak benar-benar mengerti bahasa manusia, hanya mengenali pola. Interaksi terasa kaku dan terikat pada perintah tertentu seperti “set an alarm” atau “play music.”

Evolusi Menuju Pemahaman Bahasa Alami

Perkembangan besar datang ketika teknologi machine learning dan deep learning mulai diadopsi secara luas sekitar tahun 2015–2017. Model seperti Word2Vec dan GloVe memungkinkan komputer untuk memahami hubungan antar kata dalam konteks yang lebih luas, bukan sekadar pencocokan teks.

Kemudian pada tahun 2018, Google memperkenalkan Bidirectional Encoder Representations from Transformers (BERT), sebuah model yang menjadi titik penting dalam natural language processing (Devlin et al., 2019). BERT membantu model mengenali makna kata berdasarkan konteks di kedua arah (sebelum dan sesudah), membuat hasil analisis bahasa menjadi jauh lebih akurat.

Sejak itu, asisten digital tidak lagi hanya berbasis perintah, tetapi mulai berdialog. Alexa, Google Assistant, dan Siri versi modern mampu memahami konteks, melakukan percakapan lanjutan, bahkan menyesuaikan gaya bicara berdasarkan pengguna.

Era Large Language Model

Lompatan terbesar terjadi pada tahun 2020 ketika OpenAI memperkenalkan Generative Pre-trained Transformer 3 (GPT-3). Model ini dilatih menggunakan lebih dari 175 miliar parameter, ukuran tersebut mampu menghasilkan teks yang hampir tidak bisa dibedakan dari tulisan manusia (Brown et al., 2020).

Berbeda dari Siri atau Alexa yang menggunakan logika berbasis rule, ChatGPT dan model sejenis menggunakan pendekatan transformer-based generative modeling. Mereka tidak hanya memahami bahasa, tetapi juga menciptakannya. Dari menjawab pertanyaan kompleks, hingga membuat kode program.

Keunggulan ChatGPT bukan hanya pada kemampuannya memahami konteks, tetapi juga pada kemampuannya beradaptasi. Model ini bisa belajar dari percakapan sebelumnya, mengenali gaya bahasa pengguna, dan menyesuaikan tingkat formalitas. Hasilnya, pengalaman berbicara dengan AI kini terasa lebih natural dan manusiawi daripada sebelumnya.

Masa Depan Asisten Digital

Ke depan, para ahli memperkirakan bahwa asisten digital akan menjadi semakin personal dan multimodal, yaitu mampu memahami bukan hanya teks dan suara, tetapi juga gambar, ekspresi wajah, bahkan emosi. Model seperti GPT-4 dan Gemini 1.5 sudah menunjukkan kemampuan ini, memproses teks, gambar, dan video secara bersamaan (OpenAI, 2024).

Namun, kemajuan ini juga menuntut tanggung jawab besar, seperti memastikan bahwa AI dikembangkan secara etis, transparan, dan tetap memprioritaskan manusia. Karena pada akhirnya, teknologi terbaik bukan yang menggantikan manusia, tetapi yang membantu manusia menjadi lebih baik.

Penulis 

Muhammad Alfhi Saputra, S.Kom., M.Kom. – FDP Scholar 

 

Referensi

Podcastle. (2023, July 20). How was Siri created? Podcastle Blog. https://podcastle.ai/blog/how-was-siri-created/

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL-HLT.

OpenAI. (2024). GPT-4 technical report. OpenAI Publications.