Simulasi Pembobotan Kata dengan TF-IDF

Hal yang perlu diperhatikan dalam pencarian informasi dari koleksi dokumen yang heterogen adalah pembobotan term. Term dapat berupa kata, frase atau unit hasil indexing lainnya dalam suatu dokumen yang dapat digunakan untuk mengetahui konteks dari dokumen tersebut. Karena setiap kata memiliki tingkat kepentingan yang berbeda dalam dokumen, maka untuk setiap kata tersebut diberikan sebuah indikator, yaitu term weight (Zafikri, 2008).

Metode TF-IDF merupakan metode pembobotan term yang banyak digunakan sebagai metode pembanding terhadap metode pembobotan baru. Pada metode ini, perhitungan bobot term t dalam sebuah dokumen dilakukan dengan mengalikan nilai Term Frequency dengan Inverse Document Frequency.

Untuk melakukan perhitungan besar nilai bobot menggunakan TF-IDF, beberapa langkah yang dilakukan diantaranya adalah sebagai berikut (Fatimah, 2009):
  • Menghitung Term Frequency (TF), yakni frekuensi kemunculan term (t) pada dokumen (D). Contoh (terdapat kalimat) :
Pelayanan hotel memuaskan. Menu sarapan bervariasi dan lengkap. Fasilitas hotel lengkap, pelayanannya bagus, kamarnya luas, hotel ini cocok untuk tempat menginap bersama keluarga.

  • Menghitung Document Frequency (DF), yaitu banyaknya dokumen dimana suatu term (t) muncul. Contoh berdasarkan soal yang sama pada poin pertama
  • Menghitung Invers Document Frequency (IDF)

  • Menghitung nilai TF-IDF 


Sekian, semoga bermanfaat

Daftar Pustaka


Fatimah,   Siti.2009.   Pembobotan   TF   IDF.  https://temukembaliinformasi. 
       wordpress.com/tag/tf-idf/ diakses tanggal 19 Juli 2017
Zafikri, Atika.2008. Implementasi Metode Term Frequency Inverse Document 
       Frequency  (TF-IDF)   Pada   Sistem  Temu  Kembal i Informasi.  Skripsi. 
       Program Studi S-1 Ilmu Komputer FMIPA USU
Previous
Next Post »


:) :( hihi :-) :D =D :-d ;( ;-( @-) :P :o -_- (o) :p :-? (p) :-s (m) 8-) :-t :-b b-( :-# =p~ $-) (y) (f) x-) (k) (h) cheer lol rock angry @@ :ng pin poop :* :v 100

Weekly