KATEGORISASI PERTANYAAN PADA WEBSITE OPINI.ID BERBASISKAN IMPLEMENTASI LEXICAL FEATURE

Oleh :  Christian Eka Saputra, Derwin Suhartono

Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu agar bisa memanfaatkan informasi yang sekilas tidak bermakna menjadi suatu hal yang sangat bermakna untuk masa yang akan datang.

Menurut Ikonomakis, Kotsiantis, dan Tampakas (2005) salah satu solusi yang ditawarkan dalam menghadapi permasalahan tersebut adalah dengan melakukan proses automasi klasifikasi teks. Automasi klasifikasi teks sangat dibutuhkan pada era digital yang sangat pesat saat ini dikarenakan setiap hari kehidupan manusia akan selalu berhadapan dengan jumlah varian dokumen teks dan perlu adanya upaya untuk mengatasi informasi dalam jumlah yang besar dan yang seringkali bersifat tidak terstruktur. Proses automasi klasifikasi teks memegang peran yang begitu penting dalam melakukan organisasi suatu dokumen teks, penentuan ciri dan karakteristik dari suatu dokumen dan berbagai implementasi Machine Learning yang lain seperti Question Answering maupun Information Retrieval atau sistem temu kembali informasi.

Menentukan sebuah karakteristik atau informasi yang tersembunyi di dalam sebuah dataset yang begitu besar sangat perlu dilakukan, menurut Sukma, Santoso, Ramadhan, Wiraswari dan Sari (2014) sebuah dokumen yang tidak terstruktur memiliki banyak arti, makna serta tujuan yang berbeda – beda oleh karena itu perlu adanya suatu metode khusus yang dapat memberikan informasi penting yang terkandung dari suatu dokumen teks.

Dalam perkembangan implementasi sebuah automasi klasifikasi teks terdapat beberapa contoh algoritma yang digunakan seperti Naive Bayes, Support Vector Machine ataupun Decision Tree , dan dalam hal ini juga terdapat beberapa representasi feature leksikal yang berpengaruh dalam proses automasi klasifikasi teks untuk menentukan berbagai informasi dan karakteristik dari suatu dokumen teks seperti N-Gram, Traditional Bag of Word Model, dan juga konsep Bag of Concept yang merupakan pengembangan dari  konsep Bag of Word dan berbagai representasi feature yang lain.
Beberapa penelitian atau riset telah dilakukan oleh beberapa orang terhadap uji akurasi yang didapatkan melalui perbandingan representasi feature leksikal yang berbeda – beda, berikut hasil pengujian yang dilakukan oleh Rahmoun dan Elberrichi (2007) yang melakukan uji perbandingan terhadap representasi feature  N-gram, Bag of Word dan Bag of Stem Word dari 2 korpus data yang berbeda yaitu Reuters dan 20Newsgrou.