Simulasi Pembobotan Kata dengan TF-IDF

Hal yang perlu diperhatikan dalam pencarian informasi dari koleksi dokumen yang heterogen adalah pembobotan term. Term dapat berupa kata, frase atau unit hasil indexing lainnya dalam suatu dokumen yang dapat digunakan untuk mengetahui konteks dari dokumen tersebut. Karena setiap kata memiliki tingkat kepentingan yang berbeda dalam dokumen, maka untuk setiap kata tersebut diberikan sebuah indikator, yaitu term weight (Zafikri, 2008).

Metode TF-IDF merupakan metode pembobotan term yang banyak digunakan sebagai metode pembanding terhadap metode pembobotan baru. Pada metode ini, perhitungan bobot term t dalam sebuah dokumen dilakukan dengan mengalikan nilai Term Frequency dengan Inverse Document Frequency.

Untuk melakukan perhitungan besar nilai bobot menggunakan TF-IDF, beberapa langkah yang dilakukan diantaranya adalah sebagai berikut (Fatimah, 2009):

Menghitung Term Frequency (TF), yakni frekuensi kemunculan term (t) pada dokumen (D). Contoh (terdapat kalimat) :

Pelayanan hotel memuaskan. Menu sarapan bervariasi dan lengkap. Fasilitas hotel lengkap, pelayanannya bagus, kamarnya luas, hotel ini cocok untuk tempat menginap bersama keluarga.