Thursday, October 30, 2008

stemming teks bhs Indonesia untuk kategorisasi


Dalam information retireval dan text mining, biasanya biasanya salah satu tahap praprosesing adalah melakukan stemming. Jika kemudian dokumen text tersebut akan dilakukan berbagai proses sekaligus, misalkan dia akan digunakan untuk di search, di cluster dan di kategorisasi, summarize .. dll maka idealnya praprosesing tsb, termasuk proses stemming itu akan optimal untuk semua proses itu. Ataukan kalau preprosesing dibuat spesifik untuk proses tertentu (misalkan kategorisasi) maka akan lebih efektif (kategorisasi lebih akurat)? Preprosesing seperti apa yang spesifik?

Siang-sore ini saya berdiskusi dengan Ochie yang sedang melakukan penelitian (untuk Tugas Akhirnya) tentang stemming dokumen bahasa Indonesia dengan tekanan untuk kategorisasi.

Akan diimplementasikan teknik-teknik yang ada (saat ini kami belum menemukan aplikasi stemming bahasa Indonesia yang bisa didownload di internet), dan menganalisis pengaruhnya dalam kategorisasi. Juga akan dilihat kalau stemming nya "sempurna" (artinya dikerjakan oleh manusias sehingga stemmingnya benar-benar 100% tepat) bagaimana pengaruhnya terhadap
kategorisasi.

Ini slide yang dibikin Ochie sekilas ttg stemming:
slide (underconstruction)
Contoh hasil stemming (doc)

Salah satu referensi utama dalam stemming bahasa Indonesia, adalah:

Stemming Indonesian
: A confix-stripping approach
ACM Transactions on Asian Language Information Processing (TALIP) archive
Volume 6 , Issue 4 (December 2007)

surveys existing techniques for stemming Indonesian words to their morphological
roots, presents our novel and highly accurate CS algorithm, and explores the effectiveness of stemming in the context of general-purpose text information retrieval through ad hoc queries.