Vector Space Model dalam Pengolahan Teks

Vector Space Model (VSM) merupakan sebuah pendekatan natural yang berbasis pada vektor dari setiap kata dalam suatu dimensi spasial. Dokumen dipandang sebagai sebuah vektor yang memiliki magnitude (jarak) dan direction (arah). Pada VSM, sebuah kata direpresentasikan dengan sebuah dimensi dari ruang vektor. Relevansi sebuah dokumen ke sebuah kueri didasarkan pada similaritas diantara vektor dokumen dan vektor kueri.

VSM memungkinkan sebuah kerangka pencocokan parsial. Hal ini dicapai dengan menetapkan bobot non-biner untuk istilah indeks dalam kueri dan dokumen. Bobot istilah yang akhirnya digunakan untuk menghitung tingkat kesamaan antara setiap dokumen yang tersimpan dalam sistem dan permintaan pengguna. Dokumen yang terambil disortir dalam urutan yang memiliki kemiripan, model vektor memperhitungkan pertimbangan dokumen yang relevan dengan permintaan pengguna. Hasilnya adalah himpunan dokumen yang terambil jauh lebih akurat. Sebuah dokumen d_j dan sebuah query q direpresentasikan sebagai vektor t-dimensi.

Gambar 1. Sudut Deviasi yang Terbentuk dari Dokumen dan Kueri

Dalam VSM, koleksi dokumen direpresentasikan sebagai sebuah matrik term-document (atau matrik term frequency). Setiap sel dalam matrik bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol berarti bahwa term tersebut tidak ada dalam dokumen.

Proses perhitungan VSM melalui tahapan perhitungan term frequency (tf) menggunakan persamaan:

Dengan tf adalah term frequency, dan tf_i,j adalah banyaknya kemunculan term t_i dalam dokumen d_j, Term frequency (tf) dihitung dengan menghitung banyaknya kemunculan term t_i dalam dokumen dj. Perhitungan Inverse Document Frequency (idf), menggunakan persamaan:

Dengan idf_i adalah inverse document frequency, N adalah jumlah dokumen yang terambil oleh sistem, dan df_i adalah banyaknya dokumen dalam koleksi dimana term t_i muncul di dalamnya, maka perhitungan idf_i digunakan untuk mengetahui banyaknya term yang dicari (df_i) yang muncul dalam dokumen lain yang ada pada database (korpus). Perhitungan term frequency Inverse Document Frequency (tfidf), menggunakan persamaan:

Dengan W_ij adalah bobot dokumen, N adalah jumlah dokumen yang terambil oleh sistem, tf_i,jadalah banyaknya kemunculan term t_i pada dokumen dj, dan df_i adalah banyaknya dokumen dalam koleksi dimana term t_i muncul didalamnya. Bobot dokumen (W_ij) dihitung untuk didapatkannya suatu bobot hasil perkalian atau kombinasi antara term frequency (tf_i,j) dan Inverse Document Frequency (df_i).

Dengan |q| adalah jarak kueri, dan W_iq adalah bobot kueri dokumen ke-i, maka jarak kueri (|q|) dihitung untuk didapatkan jarak kueri dari bobot kueri dokumen (Wiq) yang terambil oleh sistem. Jarak kueri bisa dihitung dengan persamaan akar jumlah kuadrat dari query.

Dengan |dj| adalah jarak dokumen, dan W_ij adalah bobot dokumen ke-i, maka jarak dokumen (|dj|) dihitung untuk didapatkan jarak dokumen dari bobot dokumen (W_ij) yang terambil oleh sistem. Jarak dokumen bisa dihitung dengan persamaan akar jumlah kuadrat dari dokumen. Perhitungan pengukuran similaritas query document (inner product), menggunakan persamaan

Dengan W_ij adalah bobot term dalam dokumen, W_iqadalah bobot kueri, dan sim (q, dj) adalah similaritas antara kueri dan dokumen. Similaritas antara kueri dan dokumen atau inner product / Sim (q, dj) digunakan untuk mendapatkan bobot dengan didasarkan pada bobot term dalam dokumen (W_ij) dan bobot query (W_iq) atau dengan cara menjumlah bobot q dikalikan dengan bobot dokumen.

Pengukuran cosine similarity (menghitung nilai kosinus sudut antara dua vektor) menggunakan persamaan:

Similaritas antara kueri dan dokumen atau sim(q,d_j) berbanding lurus terhadap jumlah bobot kueri (q) dikali bobot dokumen (d_j) dan berbanding terbalik terhadap akar jumlah kuadrat q (|q|) dikali akar jumlah kuadrat dokumen (|d_j|).
Perhitungan similaritas akan menghasilkan bobot dokumen dari 0 mendekati 1 atau menghasilkan bobot dokumen yang lebih besar dibandingkan dengan nilai yang dihasilkan dari perhitungan inner product.
Hasil tersebut akan diuji lagi dengan recall dan precision. Precision dapat dianggap sebagai ukuran ketepatan atau ketelitian, sedangkan recall adalah kesempurnaan.

Dengan R adalah recall, maka nilai R didapatkan dengan membandingkan jumlah item relevan yang diperoleh dengan jumlah total item relevan pada collection.

Dengan P adalah precision. maka nilai P didapatkan dengan membandingkan jumlah item relevan yang diperoleh dengan jumlah total item yang diperoleh. Precision adalah jumlah dokumen relevan yang diperoleh dari database setelah dinilai user dengan informasi yang dibutuhkan.

Dengan F adalah F-measure yang merupakan ukuran hasil kombinasi dari precision dan recall.

Vector Space Model dalam Pengolahan Teks

School of Computer Science

BINUS UNIVERSITY

Periksa Browser Anda

Check Your Browser