People Innovation Excellence

Introduction to entity disambiguation in information retrieval

Information retrieval adalah pencarian informasi dari kumpulan-kumpulan dokumen yang ada sesuai dengan permintaan informasi yang diinginkan oleh pengguna. Contoh yang paling mudah dipahami adalah mesin pencarian pada Google. Pengguna dapat mengetikkan beberapa kata kunci yang ingin dicari atau mungkin dengan pertanyaan. Di dalam information retrieval, kata kunci yang dimasukkan oleh pengguna kita sebut dengan query, sedangkan untuk kumpulan dokumen tempat pengguna mencari informasi disebut dengan corpus. Pendeteksian sebuah entitas merupakan salah satu hal penting didalam aplikasi information retrieval. Manusia bisa dengan mudah mengidentifikasi entitas berdasarkan konteks yang ada, akan tetapi didalam information extraction system (IES) diperlukan algoritma tersendiri untuk melakukan pengenalan sebuah entitas tersebut.

Ketika seseorang melakukan pencarian terhadap keyword tertentu, sistem akan menampilkan beberapa dokumen yang terkait dengan keyword, tetapi terkadang sistem juga menghasilkan dokumen yang tidak tepat dengan yang dicari. Terdapat 3 macam tipe dokumen, diantaranya adalah dokumen terstruktur, semi terstruktur dan tidak terstruktur. Semantic annotation merupakan salah satu teknik yang dapat digunakan untuk membuat sebuah dokumen yang tidak terstruktur menjadi lebih bermakna bagi mesin pencarian. Banyak entitas yang dideskripsikan dengan menggunakan kata yang sama, contohnya adalah kata “Michael Jordan” dapat menunjuk seorang pemain basket terkenal tetapi juga bisa menunjuk seorang pemain sepak bola. Manusia dapat membedakan siapa yang dimaksud dari Michael Jordan tersebut dengan melihat pada konteks kemunculan kata tersebut namun akan sulit bagi mesin pencarian untuk memahaminya.

Problem tersebut dikenal dengan entity resolution/ entity recognition/ entity disambiguation. Beberapa metode telah dilakukan untuk menyelesaikan masalah tersebut, diantaranya adalah Taxonomy Based Disambiguation (TBD) dimana metode tersebut menggunakan konteks kemunculan kata dari entitas tersebut sebagai bahan pertimbangan untuk menetapkan makna sebenarnya dari entitas tersebut. Konsep yang sama juga diterapkan pada aplikasi pencarian yang diberi nama ESTER. Aplikasi tersebut memanfaatkan format link dari Wikipedia source untuk mengidentifikasi entitas yang sebenarnya. Selain itu ada juga sebuah knowledge base yang dihasilkan dari Wikipedia untuk menangani entity disambiguation tersebut (YAGO). YAGO digunakan oleh NLP system bernama AIDA sebagai katalog dari entitas-entitas.

Evaluasi dari sebuah sistem information retrieval dilakukan dengan mengukur nilai dari precision dan recall sistem. Recall akan menunjukkan seberapa lengkap sistem yang ada dapat menampilkan data yang relevan, sedangkan nilai precision akan menunjukkan seberapa tepatnya sistem menampilkan dokumen yang seharusnya diperoleh. Formulasi dari recall dan precision dapat dilihat sebagai berikut:

Recall: tp / (tp + fp)

Precision: tp / (tp + fn)

Dimana:

tp (true positive): jumlahdokumenbenar yang di retrieve

fp (false positive): jumlahdokumensalah yang di retrieve

tn (true negative): jumlahdokumen yang tidakrelevan yang tidakberhasil di retrieve

fn (false negative): jumlahdokumen yang relevantetapitidakberhasil di retrieve

Hanafiah, Novita, and ChristophQuix.”Entity Recognition in Information Extraction.”In Asian Conference on Intelligent Information and Database Systems, pp. 113-122.Springer International Publishing, 2014.

Yosef, M.A., Hoart, J., Bordino, I., Spaniol, M., Weikum, G.: Aida: An online tool for accurate disambiguation of named entities in text and tables. PVLDB 4(12), 1450–1453 (2011)

Dill, S., Eiron, N., Gibson, D., Gruhl, D., Guha, R., Jhingran, A., Kanungo, T., McCurley, K., Rajagopalan, S., Tomkins, A.: A case for automated large-scale semantic annotation. Web Semantics 1(1), 115–132 (2003)

Bast, H., Chitea, A., Suchanek, F.M., Weber, I.: Ester: efficient search on text, entities, and relations. In: Kraaij, W., de Vries, A.P., Clarke, C.L.A., Fuhr, N., Kando, N. (eds.) Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Amsterdam, The Netherlands, pp. 671–678. ACM (2007)

Bunescu, R.C., Pasca, M.: Using encyclopedic knowledge for named entity disambiguation. In: McCarthy, D., Wintner, S. (eds.) Proc. 11th Conf. of the European Chapter of the Association for Computational Linguistics, Trento, Italy (2006)

Cucerzan, S.: Large-scale named entity disambiguation based on wikipedia data. In: Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, Czech Republic, pp. 708–716 (2007)

Zhang, W., Su, J., Tan, C.L., Wang, W.: Entity linking leveraging automatically generated annotation. In: Huang, C.R., Jurafsky, D. (eds.) Proc. 23rd International Conference on Computational Linguistics, Beijing, China, pp. 1290–1298. Tsinghua University Press (2010)

Dredze, M., McNamee, P., Rao, D., Gerber, A., Finin, T.: Entity disambiguation for knowledge base population. In: Huang, C.R., Jurafsky, D. (eds.) Proc. 23rd International Conference on Computational Linguistics, Beijing, China, pp. 277– 285. Tsinghua University Press (2010)

YAGO: http://www.mpi-inf.mpg.de/yago-naga/yago/


Published at : Updated
Written By
Novita Hanafiah, S.Kom., M.Sc
Concentration Content Coordinator Intteligent Systems | School of Computer Science
Leave Your Footprint

    Periksa Browser Anda

    Check Your Browser

    Situs ini tidak lagi mendukung penggunaan browser dengan teknologi tertinggal.

    Apabila Anda melihat pesan ini, berarti Anda masih menggunakan browser Internet Explorer seri 8 / 7 / 6 / ...

    Sebagai informasi, browser yang anda gunakan ini tidaklah aman dan tidak dapat menampilkan teknologi CSS terakhir yang dapat membuat sebuah situs tampil lebih baik. Bahkan Microsoft sebagai pembuatnya, telah merekomendasikan agar menggunakan browser yang lebih modern.

    Untuk tampilan yang lebih baik, gunakan salah satu browser berikut. Download dan Install, seluruhnya gratis untuk digunakan.

    We're Moving Forward.

    This Site Is No Longer Supporting Out-of Date Browser.

    If you are viewing this message, it means that you are currently using Internet Explorer 8 / 7 / 6 / below to access this site. FYI, it is unsafe and unable to render the latest CSS improvements. Even Microsoft, its creator, wants you to install more modern browser.

    Best viewed with one of these browser instead. It is totally free.

    1. Google Chrome
    2. Mozilla Firefox
    3. Opera
    4. Internet Explorer 9
    Close