Pada dasarnya proses tokenizing yaitu proses memisahkan setiap kata yang menyusun suatu dokumen. Pengertian tokenizing itu sendiri adalah proses pemotongan input berdasarkan tiap kata yang menyusunnya. Umumnya setiap kata teridentifikasi atau terpisahkan dengan kata lain oleh karakter spasi, sehingga proses tokenizing mengandalkan karakter spasi pada dokumen untuk melakukan pemisahan kata.
Tokenizing di dalam pembuatan perangkat lunak text mining ini merupakan proses penguraian deskripsi yang semula berupa kalimat-kalimat berisi kata-kata dan tanda pemisah antara kata seperti titik(.), koma(,), spasi dan tanda pemisah lain menjadi kata-kata saja baik itu berupa kata-kata penting maupun kata-kata tak penting. Secara sederhana proses parsing ini terlihat sebagai proses pengubahan huruf menjadi huruf kecil dan proses pengambilan kata jika ketemu tanda spasi namun pada kenyataannya tidak sesederhana itu.
Proses ini akan melakukan pengecekan dari karakter pertama sampai dengan karakter terakhir. Apabila karakter ke-i bukan merupakan pemenggal kata maka akan ditambahkan dengan karakter selanjutnya. Karakter pemenggal kata ini contohnya seperti tanda baca atau spasi.
Atau dengan kata lain proses tokenizing yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase.
Tokenizing di dalam pembuatan perangkat lunak text mining ini merupakan proses penguraian deskripsi yang semula berupa kalimat-kalimat berisi kata-kata dan tanda pemisah antara kata seperti titik(.), koma(,), spasi dan tanda pemisah lain menjadi kata-kata saja baik itu berupa kata-kata penting maupun kata-kata tak penting. Secara sederhana proses parsing ini terlihat sebagai proses pengubahan huruf menjadi huruf kecil dan proses pengambilan kata jika ketemu tanda spasi namun pada kenyataannya tidak sesederhana itu.
Proses ini akan melakukan pengecekan dari karakter pertama sampai dengan karakter terakhir. Apabila karakter ke-i bukan merupakan pemenggal kata maka akan ditambahkan dengan karakter selanjutnya. Karakter pemenggal kata ini contohnya seperti tanda baca atau spasi.
Atau dengan kata lain proses tokenizing yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase.
by. Ulfah Hasanah