People Innovation Excellence
 

N-Gram

Model probabilistik N-gram, merupakan model yang digunakan untuk memprediksi kata berikutnya yang mungkin dari kata N-1 sebelumnya. Model statistika dari urutan kata ini seringkali disebut juga sebagai model bahasa (language models / LMs).

Model estimasi seperti N-gram memberikan probabilitas kemungkinan pada kata berikutnya yang mungkin dapat digunakan untuk melakukan kemungkinan penggabungan pada keseluruhan kalimat. Model N-gram merupakan model yang paling penting dalam pemrosesan suara ataupun bahasa baik untuk memperkirakan probabilitas kata berikutnya maupun keseluruhan sequence.

N-gram cukup esensial pada banyak hal dimana kata perlu diartikan dengan lebih tepat mengingat terkadang ada input yang ambigu maupun gangguan (noise). Misalnya pada speech recognition, seringkali pembicaraan terdengar sangat membingungkan dan banyak kata terdengar sangat mirip sehingga sulit dibedakan.

Selain itu, model N-gram juga esensial dalam mesin penerjemah statistik misalnya dalam hal menerjemahkan sumber kalimat bahasa Mandarin seperti “他向记者介绍了该声明的主要内容”. Katakanlah telah disiapkan beberapa terjemahan bahasa Inggris yang mungkin untuk kalimat tersebut:

  • he briefed to reporters on the chief contents of the statement
  • he briefed reporters on the chief contents of the statement
  • he briefed to reporters on the main contents of the statement
  • he briefed reporters on the main contents of the statement

Gramatikal pada N-gram akan memberikan saran bahwa briefed reporters lebih mungkin dibandingkan dengan briefed to reporters, dan main contents lebih mungkin dibandingkan dengan chief contents. Sehingga kita dapat memilih kalimat yang lebih sesuai sebagai kalimat terjemahan, yakni yang memiliki probabilitas paling tinggi.

Dalam perbaikan ejaan, kita perlu menemukan dan memperbaiki kesalahan eja yang tanpa disengaja menghasilkan sebuah kata lain dalam bahasa Inggris. Misalkan kita ingin menulis minutes namun tertulis minuets dalam kalimat yang berbunyi “They are leaving in about fifteen minuets to go to her house.

Oleh karena kesalahan ini menjadi sebuah kata lain yang terdaftar dalam bahasa Inggris, kata tersebut tidak akan dapat begitu saja ditandai jika hanya dilakukan pengecekan kata yang terdaftar dalam kamus. Namun, bisa diperhatikan bahwa about fifteen minutes akan lebih mungkin dibandingkan dengan about fifteen minuets. Sebuah spellchecker dapat menggunakan estimasi probabilistik dalam mendeteksi baik kesalahan maupun menyarankan perbaikan yang memiliki probabilitas lebih tinggi.

Di sisi lain, prediksi kata juga penting dalam sistem argumentative communication yang digunakan untuk membantu para penyandang cacat. Bagi orang-orang yang tidak dapat berkomunikasi menggunakan suara ataupun bahasa isyarat, dapat berkomunikasi menggunakan sedikit pergerakan tubuh untuk memilih kata dari menu yang disuarakan oleh sistem. Prediksi kata dapat kemudian digunakan untuk menyarankan kata yang mungkin bagi menu tersebut.

Selain area-area sederhana yang telah didiskusikan di atas, model N-gram juga memegang peranan amat penting dalam NLP, seperti part-of-speech tagging, natural language generation, dan word similarity, juga untuk aplikasi authorship identification, sentiment extraction hing


Published at :
Written By
Dr. Derwin Suhartono, S.Kom., M.T.I
Head of Program of Computer Science | School of Computer Science

Periksa Browser Anda

Check Your Browser

Situs ini tidak lagi mendukung penggunaan browser dengan teknologi tertinggal.

Apabila Anda melihat pesan ini, berarti Anda masih menggunakan browser Internet Explorer seri 8 / 7 / 6 / ...

Sebagai informasi, browser yang anda gunakan ini tidaklah aman dan tidak dapat menampilkan teknologi CSS terakhir yang dapat membuat sebuah situs tampil lebih baik. Bahkan Microsoft sebagai pembuatnya, telah merekomendasikan agar menggunakan browser yang lebih modern.

Untuk tampilan yang lebih baik, gunakan salah satu browser berikut. Download dan Install, seluruhnya gratis untuk digunakan.

We're Moving Forward.

This Site Is No Longer Supporting Out-of Date Browser.

If you are viewing this message, it means that you are currently using Internet Explorer 8 / 7 / 6 / below to access this site. FYI, it is unsafe and unable to render the latest CSS improvements. Even Microsoft, its creator, wants you to install more modern browser.

Best viewed with one of these browser instead. It is totally free.

  1. Google Chrome
  2. Mozilla Firefox
  3. Opera
  4. Internet Explorer 9
Close