http://indodic.com/index.html
Download our Indonesian word list for use in spell-checkers here. Read the Installation notes.
Bisa terus menerus ditambah dengan melakukan parsing web page yang menggunakan bahasa formal (misalkan koran). Lebih menarik kalau kemudian diklasifikasikan, misalkan apakah termasuk kata kerja, nama orang dst. Klasifikasi bisa hirarkis dan multilabel.
Lebih lanjut lagi juga mencakup yang non-formal (bahasa gaul) dan singkatan-singkatan.
Secara terus menerus mengambil kata yang ada dari beberapa situs web (misalkan dari koran-koran) diambil kata-kata yang dipakai. Kita buat daftar kata. Berapa frekuensinya. IDF. Kata-kata yang salah ketik.
Apa fungsinya, al:
pengganti "stemming"
membantu spelling checker
analisis, misal: kata yang sering dipakai, yang sering salah ketik...
xx
Kita bisa mencari keluarga kata itu.