Introduction to entity disambiguation in information retrieval
Information retrieval adalah pencarian informasi dari kumpulan-kumpulan dokumen yang ada sesuai dengan permintaan informasi yang diinginkan oleh pengguna. Contoh yang paling mudah dipahami adalah mesin pencarian pada Google. Pengguna dapat mengetikkan beberapa kata kunci yang ingin dicari atau mungkin dengan pertanyaan. Di dalam information retrieval, kata kunci yang dimasukkan oleh pengguna kita sebut dengan query, sedangkan untuk kumpulan dokumen tempat pengguna mencari informasi disebut dengan corpus. Pendeteksian sebuah entitas merupakan salah satu hal penting didalam aplikasi information retrieval. Manusia bisa dengan mudah mengidentifikasi entitas berdasarkan konteks yang ada, akan tetapi didalam information extraction system (IES) diperlukan algoritma tersendiri untuk melakukan pengenalan sebuah entitas tersebut.
Ketika seseorang melakukan pencarian terhadap keyword tertentu, sistem akan menampilkan beberapa dokumen yang terkait dengan keyword, tetapi terkadang sistem juga menghasilkan dokumen yang tidak tepat dengan yang dicari. Terdapat 3 macam tipe dokumen, diantaranya adalah dokumen terstruktur, semi terstruktur dan tidak terstruktur. Semantic annotation merupakan salah satu teknik yang dapat digunakan untuk membuat sebuah dokumen yang tidak terstruktur menjadi lebih bermakna bagi mesin pencarian. Banyak entitas yang dideskripsikan dengan menggunakan kata yang sama, contohnya adalah kata “Michael Jordan” dapat menunjuk seorang pemain basket terkenal tetapi juga bisa menunjuk seorang pemain sepak bola. Manusia dapat membedakan siapa yang dimaksud dari Michael Jordan tersebut dengan melihat pada konteks kemunculan kata tersebut namun akan sulit bagi mesin pencarian untuk memahaminya.
Problem tersebut dikenal dengan entity resolution/ entity recognition/ entity disambiguation. Beberapa metode telah dilakukan untuk menyelesaikan masalah tersebut, diantaranya adalah Taxonomy Based Disambiguation (TBD) dimana metode tersebut menggunakan konteks kemunculan kata dari entitas tersebut sebagai bahan pertimbangan untuk menetapkan makna sebenarnya dari entitas tersebut. Konsep yang sama juga diterapkan pada aplikasi pencarian yang diberi nama ESTER. Aplikasi tersebut memanfaatkan format link dari Wikipedia source untuk mengidentifikasi entitas yang sebenarnya. Selain itu ada juga sebuah knowledge base yang dihasilkan dari Wikipedia untuk menangani entity disambiguation tersebut (YAGO). YAGO digunakan oleh NLP system bernama AIDA sebagai katalog dari entitas-entitas.
Evaluasi dari sebuah sistem information retrieval dilakukan dengan mengukur nilai dari precision dan recall sistem. Recall akan menunjukkan seberapa lengkap sistem yang ada dapat menampilkan data yang relevan, sedangkan nilai precision akan menunjukkan seberapa tepatnya sistem menampilkan dokumen yang seharusnya diperoleh. Formulasi dari recall dan precision dapat dilihat sebagai berikut:
Recall: tp / (tp + fp)
Precision: tp / (tp + fn)
Dimana:
tp (true positive): jumlahdokumenbenar yang di retrieve
fp (false positive): jumlahdokumensalah yang di retrieve
tn (true negative): jumlahdokumen yang tidakrelevan yang tidakberhasil di retrieve
fn (false negative): jumlahdokumen yang relevantetapitidakberhasil di retrieve
Hanafiah, Novita, and ChristophQuix.”Entity Recognition in Information Extraction.”In Asian Conference on Intelligent Information and Database Systems, pp. 113-122.Springer International Publishing, 2014.
Yosef, M.A., Hoart, J., Bordino, I., Spaniol, M., Weikum, G.: Aida: An online tool for accurate disambiguation of named entities in text and tables. PVLDB 4(12), 1450–1453 (2011)
Dill, S., Eiron, N., Gibson, D., Gruhl, D., Guha, R., Jhingran, A., Kanungo, T., McCurley, K., Rajagopalan, S., Tomkins, A.: A case for automated large-scale semantic annotation. Web Semantics 1(1), 115–132 (2003)
Bast, H., Chitea, A., Suchanek, F.M., Weber, I.: Ester: efficient search on text, entities, and relations. In: Kraaij, W., de Vries, A.P., Clarke, C.L.A., Fuhr, N., Kando, N. (eds.) Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Amsterdam, The Netherlands, pp. 671–678. ACM (2007)
Bunescu, R.C., Pasca, M.: Using encyclopedic knowledge for named entity disambiguation. In: McCarthy, D., Wintner, S. (eds.) Proc. 11th Conf. of the European Chapter of the Association for Computational Linguistics, Trento, Italy (2006)
Cucerzan, S.: Large-scale named entity disambiguation based on wikipedia data. In: Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, Czech Republic, pp. 708–716 (2007)
Zhang, W., Su, J., Tan, C.L., Wang, W.: Entity linking leveraging automatically generated annotation. In: Huang, C.R., Jurafsky, D. (eds.) Proc. 23rd International Conference on Computational Linguistics, Beijing, China, pp. 1290–1298. Tsinghua University Press (2010)
Dredze, M., McNamee, P., Rao, D., Gerber, A., Finin, T.: Entity disambiguation for knowledge base population. In: Huang, C.R., Jurafsky, D. (eds.) Proc. 23rd International Conference on Computational Linguistics, Beijing, China, pp. 277– 285. Tsinghua University Press (2010)
YAGO: http://www.mpi-inf.mpg.de/yago-naga/yago/