Laman

Selasa, 10 Juli 2012

Tokenisasi

Didalam sistem temu kembali terdapat proses text mining yang memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapat dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Tahapan yang dilakukansecara umum dalam text mining adalah : tokenizing, filtering, stemming, tagging dan analyzing.
Pada proses tersebut masing-masing melakukan fungsinya masing-masing. Proses tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Proses ini menghasilkan kata –kata yang berdiri sendiri. Sedangkan proses filtering adalah tahap mengambil kata – kata penting dari hasil token. Bisa menggunakan algoritma stop list ( membuang kata-kata yang kurang penting atau word list. Proses ini akan dihasilkan kata yang penting saja dan membuang kata kata yang kurang penting.
Tahap stemming adalah tahap mencari root dari tiap kata hasil filtering. Tahap ini akan menghilangkan imbuhan pada suatu kalimat. Sedangkan tahap tagging adalah tahap mencari bentuk awal/ root dari tiap kata lampau atau kata hasil stemming.
Apakah proses tokenizing penting untuk dilakukan ?
Sangat penting, karena didalam proses ini merupakan tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Proses ini menghasilkan kata –kata yang berdiri sendiri. Dan kemudian dilakukan proses filtering. Tahap filtering mengambil kata-kata yang penting dari hasil proses token. Dan setelah itu baru dilakukan proses stemming , tagging dan analyzing. Sehingga antara tahap – tahap ini saling terkait dan berhubungan.

by. Ulfah Hasanah