Bagaimana YouTube Tahu Apa yang Ingin Kita Tonton?
Hari ini hampir semua orang yang punya internet telah menggunakan YouTube – baik untuk menonton tutorial masak, mendengarkan musik, maupun ulasan film/game. Dari video shorts yang trending hingga konten edukasi yang spesifik, rasanya platform ini tahu persis apa yang ingin kita tonton berikutnya. Cukup buka homepagenya, dan disanalah disusunkan deretan video yang sesuai dengan ketertarikan Anda.
Pernahkah Anda bertanya-tanya bagaimana YouTube memutuskan video mana yang akan direkomendasikan? Bagaimana YouTube tahu bahwa setelah tutorial memasak, Anda mungkin menikmati vlog makanan, atau bahwa menonton satu klip game dapat mengarah ke daftar putar penuh konten serupa?. Mari kita lihat lebih dekat di balik layar dan temukan bagaimana rekomendasi sistem YouTube – didukung oleh AI(Artificial Intelligence) dan NLP(Natural Language Processing) – bekerja untuk membuat miliaran pemirsa tetap menonton setiap hari.

Sumber: Shutterstock.com
Apa itu sistem rekomendasi?
Sistem rekomendasi adalah sistem AI dan ML(Machine Learning) yang menyarankan item seperti video, lagu, atau produk kepada pengguna berdasarkan preferensi, perilaku, dan konteks mereka. Intinya sistem ini merupakan “otak” sistem yang memutuskan apa yang mungkin Anda sukai selanjutnya.
YouTube mengandalkan sistem rekomendasi karena jutaan video diunggah setiap hari, dan pengguna tidak ingin menghabiskan waktu berjam-jam mencari secara manual. Sistem ini mempersonalisasi beranda setiap pengguna, membuat rekomendasi lebih relevan dan menarik.
Secara umum ada tiga jenis sistem rekomendasi:
- Pemfilteran Berbasis Konten: Menggunakan fitur item (seperti tag video, deskripsi, atau transkrip).
- Pemfilteran Kolaboratif: Mencari kesamaan di antara pengguna dan pola menonton (misalnya, “Orang yang suka nonton Naruto juga menonton Demon Slayer”)
- Sistem Hybrid(Hibrida): Menggabungkan kedua metode tersebut. YouTube, Netflix, dan TikTok biasanya menggunakan cara ini.
Mengapa NLP Terlibat dalam Sistem Rekomendasi YouTube?
YouTube tidak hanya mengandalkan angka seperti waktu tonton atau jumlah likes, tetapi juga perlu memahami bahasa. Di sinilah NLP berperan. NLP memungkinkan YouTube untuk menafsirkan dan menganalisis judul, deskripsi, transkrip, tag, dan bahkan komentar video. Hal ini membantu platform memahami isi video, apa yang dicari pengguna, dan bagaimana perasaan mereka terhadap video tersebut.
Cara Kerja Rekomendasi YouTube
Proses rekomendasi YouTube beroperasi dalam dua tahap utama:
- Candidate Generation: Memilih beberapa ratus video potensial dari jutaan video.
- Ranking: Mengurutkan kandidat dan memilih 20 teratas (atau kurang) yang muncul di halaman beranda.
Pada tahap Candidate Generation, sistem menyaring jutaan video yang tersedia di platform dan mempersempitnya menjadi beberapa ratus video yang kemungkinan menarik minat pengguna. Sistem melakukan ini dengan menganalisis pola tontonan, riwayat pencarian, langganan, dan interaksi seperti suka, bagikan, dan komentar.
Lalu di tahap Ranking, beberapa ratus kandidat tersebut diurutkan secara cermat berdasarkan prediksi interaksi—intinya, video mana yang menurut sistem paling mungkin Anda klik, tonton, dan nikmati. Langkah terakhir ini menentukan apa yang muncul di beranda, di bilah sisi, dan di akhir video.
Bersama-sama, kedua tahap ini membentuk tulang punggung mesin personalisasi YouTube. Prosesnya dinamis dan terus beradaptasi—setiap kali pengguna menonton atau melewatkan video, model tersebut mempelajari dan mengkalibrasi ulang rekomendasi berikutnya.
Candidate Generation (NLP + ML)
Tahap Candidate Generation berfungsi sebagai “filter pertama” sistem, yang mengubah jutaan video potensial menjadi beberapa ratus rekomendasi yang layak. Di sini, Machine Learning dan NLP bekerja berdampingan.
Machine Learning menganalisis data kuantitatif—seperti riwayat tontonan, penelusuran, dan langganan—untuk memprediksi topik atau kreator yang disukai penonton. NLP melengkapi hal ini dengan mengonversi data bahasa seperti judul, deskripsi, dan transkrip menjadi fitur numerik terstruktur yang dapat diproses oleh ML. Dengan menggunakan teknik seperti ekstraksi kata kunci(keyword extraction), penyematan semantik(semantic embeddings), dan konversi ucapan ke teks, NLP membantu YouTube memahami konten video secara menyeluruh. NLP dapat membedakan apakah “Python” merujuk pada pemrograman atau hewan dan mengenali bahwa “funny cats” dan “hilarious kittens” memiliki makna yang sama.
Dengan menggabungkan data perilaku dengan pemahaman bahasa, pembuatan kandidat YouTube melampaui pola—NLP memahami konteks konten, memberikan sistem rekomendasi yang lebih kaya dan lebih cerdas.

Sumber: lesswrong.com
Ranking
Setelah daftar Candidate Generation, YouTube harus memutuskan video mana yang akan ditampilkan di bagian atas halaman beranda Anda.
Tujuan: Memilih 20 video paling relevan dan menarik.
Faktor Ranking:
- Relevansi (NLP): Memeriksa seberapa sesuai judul, transkrip, dan tag video dengan minat Anda.
- Prediksi Keterlibatan (ML): Memprediksi seberapa besar kemungkinan Anda mengklik atau menonton video berdasarkan perilaku sebelumnya.
- Personalisasi: Mempelajari pola individual Anda (apa yang Anda tonton, lewati, atau tonton ulang).
- Kesegaran & Tren: Memprioritaskan konten baru dan viral.
- Keragaman: Menghindari hanya menampilkan satu topik agar rekomendasi Anda tetap bervariasi.
Ranking adalah “penilai akhir” – peringkat tidak hanya menentukan apa yang Anda lihat, tetapi juga urutan Anda melihatnya.
Cara Kerja BERT dalam NLP YouTube
Di tengah cara kerjanya bahasa YouTube adalah model berbasis Transformer seperti BERT (Bidirectional Encoder Representations from Transformers), yang diperkenalkan oleh Google pada tahun 2018. Meskipun Google belum secara resmi mengonfirmasi bahwa YouTube menggunakan BERT secara langsung, kemungkinan besar platform tersebut menggunakan model yang mirip BERT atau berbasis Transformer yang dibangun atas arsitektur yang sama.
BERT mentransformasikan NLP melalui Bidirectional Context(Konteks dua arah) – kemampuan untuk menginterpretasikan kata-kata yang digunakan sebelum dan sesudahnya. Misalkan, dalam frasa “The bank was flooded”, model memahami bahwa merujuk kepada tepi sungai, bukan lembaga keuangan. Kesadaran konteks inilah yang mengunkinkan YouTube untuk menginterpretasikan judul, komentar, dan transkrip yang ambigu dengan lebih akurat.
Dalam praktisnya, model-model Transformer ini mendukung fungsi-fungsi utama dalam sistem YouTube:
- Analisis Semantik: Mengidentifikasi hubungan antar kata untuk mengelompokkan video-video serupa.
- Pengenalan Maksud Pencarian: Memahami maksud pengguna saat mengetik kueri seperti “Tutorial Python” atau “Fakta Python.”
- Pemahaman Ucapan : Menginterpretasi audio yang ditranskripsi untuk mengekstrak topik dan tema.
- Sentimen dan Moderasi: Mendeteksi nada, emosi, dan menyaring komentar-komentar negatif atau spam.
Model-model ini dilatih melalui teknik-teknik pembelajaran mengawasi sendiri seperti Masked Language Modeling (memprediksi kata-kata yang hilang) dan Next Sentence Prediction (mempelajari hubungan kalimat), kemudian disempurnakan dengan data berlabel untuk tugas-tugas seperti analisis sentimen, deteksi topik, dan moderasi konten.

Sumber: istockphoto.com
Kesimpulan
Sistem rekomendasi YouTube menggunakan jaringan neural dalam untuk personalisasi skala besar dan model NLP berbasis Transformer untuk memahami bahasa. NLP memungkinkan sistem untuk menginterpretasikan judul, transkrip, penelusuran, dan komentar, sementara ML memeringkat video berdasarkan interaksi dan relevansi.
Meskipun Google belum secara eksplisit menyatakan bahwa YouTube menggunakan BERT, kemungkinan besar model Transformer yang mirip BERT membentuk fondasi pemahaman bahasa YouTube — memungkinkannya memberikan rekomendasi cerdas dan personal yang sesuai dengan apa yang benar-benar ingin ditonton pengguna.
Penulis
- Rafael Jefferson Pribadi
- Wesley Coa
- Benedictus Alonso Harland Sutojo
- Prof. Derwin Suhartono
Referensi
- Covington, P., Adams, J., & Sargin, E. (2016). Deep Neural Networks for YouTube Recommendations. Proceedings of the 10th ACM Conference on Recommender Systems (RecSys).
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems (NeurIPS 2017).
- Google Research Blog. (2019). Recommending What Video to Watch Next: A Multitask Ranking System. Retrieved from https://research.google
- Google AI Blog. (2019). Understanding Searches Better than Ever Before with BERT. Retrieved from https://blog.google
- Jigsaw & Google. (2020). Perspective API: Using Machine Learning to Reduce Toxicity Online. Retrieved from https://perspectiveapi.com
Last updated :
SOCIAL MEDIA
Let’s relentlessly connected and get caught up each other.
Looking for tweets ...