N-Gram
Model probabilistik N-gram, merupakan model yang digunakan untuk memprediksi kata berikutnya yang mungkin dari kata N-1 sebelumnya. Model statistika dari urutan kata ini seringkali disebut juga sebagai model bahasa (language models / LMs).
Model estimasi seperti N-gram memberikan probabilitas kemungkinan pada kata berikutnya yang mungkin dapat digunakan untuk melakukan kemungkinan penggabungan pada keseluruhan kalimat. Model N-gram merupakan model yang paling penting dalam pemrosesan suara ataupun bahasa baik untuk memperkirakan probabilitas kata berikutnya maupun keseluruhan sequence.
N-gram cukup esensial pada banyak hal dimana kata perlu diartikan dengan lebih tepat mengingat terkadang ada input yang ambigu maupun gangguan (noise). Misalnya pada speech recognition, seringkali pembicaraan terdengar sangat membingungkan dan banyak kata terdengar sangat mirip sehingga sulit dibedakan.
Selain itu, model N-gram juga esensial dalam mesin penerjemah statistik misalnya dalam hal menerjemahkan sumber kalimat bahasa Mandarin seperti “他向记者介绍了该声明的主要内容”. Katakanlah telah disiapkan beberapa terjemahan bahasa Inggris yang mungkin untuk kalimat tersebut:
- he briefed to reporters on the chief contents of the statement
- he briefed reporters on the chief contents of the statement
- he briefed to reporters on the main contents of the statement
- he briefed reporters on the main contents of the statement
Gramatikal pada N-gram akan memberikan saran bahwa briefed reporters lebih mungkin dibandingkan dengan briefed to reporters, dan main contents lebih mungkin dibandingkan dengan chief contents. Sehingga kita dapat memilih kalimat yang lebih sesuai sebagai kalimat terjemahan, yakni yang memiliki probabilitas paling tinggi.
Dalam perbaikan ejaan, kita perlu menemukan dan memperbaiki kesalahan eja yang tanpa disengaja menghasilkan sebuah kata lain dalam bahasa Inggris. Misalkan kita ingin menulis minutes namun tertulis minuets dalam kalimat yang berbunyi “They are leaving in about fifteen minuets to go to her house”.
Oleh karena kesalahan ini menjadi sebuah kata lain yang terdaftar dalam bahasa Inggris, kata tersebut tidak akan dapat begitu saja ditandai jika hanya dilakukan pengecekan kata yang terdaftar dalam kamus. Namun, bisa diperhatikan bahwa about fifteen minutes akan lebih mungkin dibandingkan dengan about fifteen minuets. Sebuah spellchecker dapat menggunakan estimasi probabilistik dalam mendeteksi baik kesalahan maupun menyarankan perbaikan yang memiliki probabilitas lebih tinggi.
Di sisi lain, prediksi kata juga penting dalam sistem argumentative communication yang digunakan untuk membantu para penyandang cacat. Bagi orang-orang yang tidak dapat berkomunikasi menggunakan suara ataupun bahasa isyarat, dapat berkomunikasi menggunakan sedikit pergerakan tubuh untuk memilih kata dari menu yang disuarakan oleh sistem. Prediksi kata dapat kemudian digunakan untuk menyarankan kata yang mungkin bagi menu tersebut.
Selain area-area sederhana yang telah didiskusikan di atas, model N-gram juga memegang peranan amat penting dalam NLP, seperti part-of-speech tagging, natural language generation, dan word similarity, juga untuk aplikasi authorship identification, sentiment extraction hing