Laman

Selasa, 10 Juli 2012

Proses Tokenizing

Pada dasarnya proses tokenizing yaitu proses memisahkan setiap kata yang menyusun suatu dokumen. Pengertian tokenizing itu sendiri adalah proses pemotongan input berdasarkan tiap kata yang menyusunnya. Umumnya setiap kata teridentifikasi atau terpisahkan dengan kata lain oleh karakter spasi, sehingga proses tokenizing mengandalkan karakter spasi pada dokumen untuk melakukan pemisahan kata.
Tokenizing  di  dalam  pembuatan  perangkat  lunak  text  mining  ini merupakan  proses  penguraian  deskripsi  yang  semula  berupa  kalimat-kalimat berisi kata-kata dan tanda pemisah antara kata seperti titik(.), koma(,), spasi dan tanda  pemisah  lain  menjadi  kata-kata  saja  baik  itu  berupa  kata-kata  penting maupun kata-kata tak penting. Secara sederhana proses parsing ini terlihat sebagai proses pengubahan huruf menjadi huruf kecil dan proses pengambilan kata jika ketemu tanda spasi namun pada kenyataannya tidak sesederhana itu.
Proses  ini  akan  melakukan  pengecekan  dari  karakter  pertama  sampai dengan karakter terakhir. Apabila karakter ke-i bukan merupakan pemenggal kata maka akan ditambahkan dengan karakter selanjutnya. Karakter pemenggal kata ini contohnya seperti tanda baca atau spasi. 
Atau dengan kata lain proses tokenizing yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase.

by. Ulfah Hasanah