‘Pengindeksan’ Model Vektor dan Clustering

Ditulis oleh putubuku di/pada April 3, 2008

Dalam teori pengindeksan dan information retrieval, dikenal adanya model klasik. Model ini menganggap bahwa setiap dokumen dapat digambarkan dengan, atau diwakili oleh, serangkaian katakunci yang disebut sebagai indeks (index). Kata atau istilah yang digunakan sebagai indeks (index terms) pada dasarnya adalah kata yang diambil dari dokumen, maupun yang ditentukan dari luar dokumen, yang secara semantik dapat membantu manusia mengetahui tema utama sebuah dokumen. Pada umumnya indeks adalah kata-benda, sebab kata-benda memiliki arti pada dirinya sendiri, sehingga secara semantik lebih mudah dikenali dan diartikan.

Indeks merupakan hal terpenting dalam information retrieval, tetapi tidak semua kata indeks memiliki nilai penting yang sama sebagai wakil dokumen. Jika sebuah penyimpanan memiliki 1000 dokumen, dan jika sebuah kata indeks (misalnya kata ‘informasi’) muncul di setiap dokumen tersebut, maka kata itu tidak ada gunanya sebab dia tidak dapat membedakan antara dokumen nomor 1 sampai nomor 1000, semuanya tentang informasi. Sebaliknya, kalau ada istilah yang muncul hanya di lima dokumen (misalnya frasa ‘pengetahuan eksplisit’), maka frasa tersebut sangat penting sebab menjadi ciri unik untuk lima dokumen yang dapat dipilih oleh pengguna sesuai keperluannya.

Maka pemberian nilai terhadap sebuah istilah indeks menjadi pokok persoalan bagi semua sistem information retrieval. Salah satu cara untuk mengenakan nilai yang berbeda-beda kepada sebuah istilah yang digunakan sebagai indeks adalah adalah dengan mendaftar semua istilah yang ada dalam indeks, lalu memberikan kemungkinan nilai sama dengan atau lebih besar dari nol, untuk satu per satu istilah itu.

Dalam sistem information retrieval yang menggunakan Boolean maka variabel nilai bobot istilah indeks selalu bersifat biner (dua pilihan), yaitu nol atau satu. Jika nilainya satu maka model Boolean menyimpulkan bahwa dokumen relevan terhadap sebuah permintaan (query). Selebihnya, kalau bernilai nol maka dokumen dianggap tidak relevan. Karena hanya dua pilihan (alias biner), maka tidak ada kemungkinan ‘agak relevan’ alias partial match. Keuntungan model Boolean tentunya adalah kesederhanaannya. Kerugian terbesarnya adalah pada kemungkinan penemuan dokumen yang terlalu banyak atau terlalu sedikit.

Pengenaan bobot (weighs) pada istilah indeks merupakan salah satu cara mengatasi kerugian model Boolean sederhana tersebut. Misalnya dengan menggunakan model Vektor. Model ini menganggap bahwa pembobotan biner terlalu terbatas kegunaannya, dan mengusulkan penggunaan konsep partial matching. Konsep ini dicapai dengan mengenakan bobot non-biner terhadap istilah indeks di dalam query dan di dalam dokumen. Masing-masing bobot ini kemudian digunakan untuk menghitung derajat kesamaan (degree of similarity) antara setiap dokumen di dalam sistem dan query yang diajukan pengguna. Sistem kemudian dapat mengurutkan dokumen menurut derajat kesamaan, dari yang paling tinggi ke yang paling rendah. Dengan kata lain, sistem menawarkan juga dokumen yang tidak sepenuhnya memenuhi query (atau ‘agak relevan’ alias partial match). Penjajaran dokumen secara berurutan ini diharapkan menghasilkan ketepatan (presisi) dibandingkan model Boolean klasik.

Perhatikanlah bahwa untuk model Vektor, bobot selalu dikaitkan dengan pasangan indeks dan query. Bobot ini selalu bernilai positif dan non-biner. Istilah yang digunakan di dalam query selalu diberi bobot. Lalu, dilakukan penghitungan vektor query dan vektor dokumen, sehingga yang muncul adalah variasi nilai mulai dari nol sampai satu. Dalam model Vektor, maka derajat kesamaan indeks dokumen dan istilah dalam query, dihitung sebagai sebuah korelasi antara dua vektor tersebut. Korelasi ini kemudian dapat dikuantiikasi, salah satunya dengan menghitung kosinus sudut antara kedua vektor.

Dengan kata lain, alih-alih memutuskan apakah sebuah dokumen relevan atau tidak, model Vektor membuat urut-urutan dokumen menurut derajat kesamaan (degree of similarity) terhadap query. Sebuah dokumen dapat dipilih walaupun hanya cocok dengan query secara sebagian (partial match).

Tetapi, bagaimana mendapatkan dan menghitung bobot untuk istilah indeks? Karya Salton dan McGill (1983) mengulas berbagai cara menghitung bobot itu. Cara yang mereka anggap paling efektif adalah dengan menerapkan prinsip-prinsip clustering alias pengelompokan. Jika ada sekumpulan koleksi objek, C, dan sebuah set A, maka algoritme clustering pada dasarnya hanya bermaksud memisahkan C menjadi dua kelompok: Pertama, kelompok yang berisi objek yang dapat dikaitkan dengan set A. Kedua, kelompok yang berisi objek yang tidak dapat dikaitkan dengan set A. Kondisi set A yang samar-samar menyebabkan kita tidak punya informasi yang lengkap untuk memutuskan secara tepat objek mana yang sungguh-sungguh cocok untuk set A dan objek mana yang sungguh-sungguh tidak cocok. Misalnya, seseorang mencari set A dari mobil-mobil yang harganya setara dengan Lexus 400. Jika kita tidak bisa secara persis dan tunggal, apa yang dimaksud dengan “setara”, maka kita tidak dapat dengan persis mendeskripsikan set A itu.

Untuk melihat persoalan information retrieval sebagai persoalan clustering, kita menganggap kumpulan dokumen sebagai koleksi C dan menganggap query pengguna sebagai set A yang samar-samar (vague). Dengan skenario ini, maka persoalan information retrieval dapat dipersempit menjadi persoalan tentang bagaimana menentukan dokumen yang dapat dimasukkan sebagai set A, dan dokumen yang tidak dapat dimasukkan ke set A.

Ada dua isyu yang harus diatasi. Pertama, harus ada cara untuk menentukan fitur yang paling tepat dapat menggambarkan objek-objek di set A. Kedua, harus ada cara untuk menentukan fitur yang paling tepat dapat memisahkan objek di set A dari objek-objek lain di C. Fitur yang pertama akan menjadi cara mengkuantifikasi kesamaan intra-cluster. Fitur kedua akan menjadi cara mengkuantifikasi perbedaan inter-cluster. Kalau sebuah sistem dapat menyeimbangkan keduanya, maka sistem itu bekerja dengan baik.

Bacaan:

Salton, G. dan M.J. McGill (1983), Introduction to Modern Information Retrival, Ne York : McGraw-Hill.

Sumber diambil dari http://iperpin.wordpress.com/tag/pengindeksan/