Pada text mining ataupun juga information retrieval, biasanya dokumen teks direpresentasikan dengan "bag of term", dimana urutan atau lokasi term tidak diperhitungkan. Pada representasi ini, bobot masing-masing term dihitung secara statistik, biasanya dengan prinsip TF IDF. Umunya "term" di sini adalah "word"/kata.
Salah satu upaya untuk memperbaiki efektifitas dari text mining (atau lebih sempitnya lagi: kategorisasi dan klasterisasi) dan information retrieval adalah dengan menggunakan "bag of concept"
Terkait dengan itu, kami di IT Telkom sedang melakukan penelitian bagaimana mengimpelentasikan untuk bahasa Indoensia dan memperbaiki teknik yang ada untuk kategorisasi dokumen.
Acuan utama kami: Shady Shehata, Fakhri Karray, Mohamed Kamel: A concept-based model for enhancing text categorization. KDD 2007: 629-637
Video saat tulisan itu dipresentasikan ada di VideoLecture.
Copy - biasanya saya jalankan menggunakan Real Player
Mahasiswa yang terlibat:
*Nuri: mengimplementasikan prototipe term semantic labeller untuk bahasa Indonesia.
*Widy: mengimplementasikan Conceptual Ontohological Graph (COG) untuk bahasa Indonesia dan mencoba membuat perbaikan dari teknik semula.
*Candra: mengimplementasikan Statistical Analyzer untuk bahasa Indonesia dan mencoba membuat perbaikan dari teknik semula.
Untuk Widy dan Candra, sementara menggunakan pelabelan semantik secara manual. Kira-kira diperlukan waktu 15 menit untuk melabeli satu dokumen.
Dokumen yang akan diproses utamanya adalah untuk artikel berita bahasa Indonesia.