Showing posts with label stemming. Show all posts
Showing posts with label stemming. Show all posts
Friday, November 28, 2008
mapping kata dasar..
Kalau ada corpus semacam PropBank, tampaknya juga bermanfaat kalau untuk kata dasar kita buat mapingnya: anatara kata dasar dengan turunannya, sehingga tidak perlu proses stemming. Dan membuat mapping ini tidak terlalu susah, hanya butuh waktu.
Tuesday, November 25, 2008
ide riset: Indonesian word list
http://indodic.com/index.html
Download our Indonesian word list for use in spell-checkers here. Read the Installation notes.
Bisa terus menerus ditambah dengan melakukan parsing web page yang menggunakan bahasa formal (misalkan koran). Lebih menarik kalau kemudian diklasifikasikan, misalkan apakah termasuk kata kerja, nama orang dst. Klasifikasi bisa hirarkis dan multilabel.
Lebih lanjut lagi juga mencakup yang non-formal (bahasa gaul) dan singkatan-singkatan.
Secara terus menerus mengambil kata yang ada dari beberapa situs web (misalkan dari koran-koran) diambil kata-kata yang dipakai. Kita buat daftar kata. Berapa frekuensinya. IDF. Kata-kata yang salah ketik.
Apa fungsinya, al:
pengganti "stemming"
membantu spelling checker
analisis, misal: kata yang sering dipakai, yang sering salah ketik...
xx
Kita bisa mencari keluarga kata itu.
Download our Indonesian word list for use in spell-checkers here. Read the Installation notes.
Bisa terus menerus ditambah dengan melakukan parsing web page yang menggunakan bahasa formal (misalkan koran). Lebih menarik kalau kemudian diklasifikasikan, misalkan apakah termasuk kata kerja, nama orang dst. Klasifikasi bisa hirarkis dan multilabel.
Lebih lanjut lagi juga mencakup yang non-formal (bahasa gaul) dan singkatan-singkatan.
Secara terus menerus mengambil kata yang ada dari beberapa situs web (misalkan dari koran-koran) diambil kata-kata yang dipakai. Kita buat daftar kata. Berapa frekuensinya. IDF. Kata-kata yang salah ketik.
Apa fungsinya, al:
pengganti "stemming"
membantu spelling checker
analisis, misal: kata yang sering dipakai, yang sering salah ketik...
xx
Kita bisa mencari keluarga kata itu.
Friday, November 21, 2008
daftar kata dasar bhs Indonesia
Salah satu penelitian kami di IT Telkom saat ini membutuhkan daftar kata dasar. Dari daftar kata dasar dari KBBI, ternyata kata dasarnya tidak lengkap. Kalau di versi buku/cetaknya dan sih saya yakin lengkap. Dan daftar kata dasar yang kami peroleh itu (file Excell) juga diperoleh dengan tidak mudah (misalkan bisa download di web site pusat bahasa atau yang lain).
Apa saja kata dasar yan tidak ada dalam file Excell itu?
Coba cek keberadaanya dalam KBBI Daring
Apa saja kata dasar yan tidak ada dalam file Excell itu?
Coba cek keberadaanya dalam KBBI Daring
Thursday, October 30, 2008
stemming teks bhs Indonesia untuk kategorisasi
Dalam information retireval dan text mining, biasanya biasanya salah satu tahap praprosesing adalah melakukan stemming. Jika kemudian dokumen text tersebut akan dilakukan berbagai proses sekaligus, misalkan dia akan digunakan untuk di search, di cluster dan di kategorisasi, summarize .. dll maka idealnya praprosesing tsb, termasuk proses stemming itu akan optimal untuk semua proses itu. Ataukan kalau preprosesing dibuat spesifik untuk proses tertentu (misalkan kategorisasi) maka akan lebih efektif (kategorisasi lebih akurat)? Preprosesing seperti apa yang spesifik?
Siang-sore ini saya berdiskusi dengan Ochie yang sedang melakukan penelitian (untuk Tugas Akhirnya) tentang stemming dokumen bahasa Indonesia dengan tekanan untuk kategorisasi.
Akan diimplementasikan teknik-teknik yang ada (saat ini kami belum menemukan aplikasi stemming bahasa Indonesia yang bisa didownload di internet), dan menganalisis pengaruhnya dalam kategorisasi. Juga akan dilihat kalau stemming nya "sempurna" (artinya dikerjakan oleh manusias sehingga stemmingnya benar-benar 100% tepat) bagaimana pengaruhnya terhadap
kategorisasi.
Ini slide yang dibikin Ochie sekilas ttg stemming: slide (underconstruction)
Contoh hasil stemming (doc)
Salah satu referensi utama dalam stemming bahasa Indonesia, adalah:
Stemming Indonesian: A confix-stripping approach
ACM Transactions on Asian Language Information Processing (TALIP) archive
Volume 6 , Issue 4 (December 2007)
surveys existing techniques for stemming Indonesian words to their morphological
roots, presents our novel and highly accurate CS algorithm, and explores the effectiveness of stemming in the context of general-purpose text information retrieval through ad hoc queries.
Subscribe to:
Posts (Atom)