Wednesday, December 10, 2008

sentiment classification

Setiap Rabu sore (pk.15.30an s/d 17.00) saya berdiskusi dengan Agung Pradeka, tentang "sentiment analysis"atau lebih tepatnya "sentiment classifcation".

Sentiment=perasaan, emosi. Terkait erat dengan itu adalah "opini/pendapat"

Salah satu pelopor awal penelitian tentang klasifikasi sentimen adalah Bo Pang et. al. (Bo Pang, Lillian Lee, Shivakumar Vaithyanathan: Thumbs up? Sentiment Classification using Machine Learning Techniques. CoRR cs.CL/0205070, 2002). Dalam tulisan ini mereka menyampaikan pentingnya klasifikasi sentimen. Dikatakan juga bahwa menggunakan teknik-teknik machine learning standar, seperti SVM dan Naive Bayes menghasilkan akurasi yang lebih baik dibandingkan dengan klasifikasi yang dilakukan oleh manusia. Namun lebih jelek dibandingkan kalau teknik-teknik itu digunakan untuk klasfikasi topik. Klasifikasi topik adalah "klasifikasi teks pada umumnya" atau lebih umum disebut kategorisasi teks. Dalam tulisan sentimen, ada hal-hal spesifik yang perlu digali/dioptimalkan agar akurasinya lebih baik, misalkan bagian-bagian kalimat yang menunjukkan opini. Sehingga salah satu pendekatannya adalah pada praprosesingnya (misalkan memanfaatkan NLP) dengan tetap menggunakan teknik machine learning standar. Sebagai contoh, diidentifikasi jenis kata yang dianggap mengindikasikan adanya opini.

bagaimana penelitian lebih lanjut tantang sentiment classification ini, al. bisa dilihat dengan Google Scholar dengan kata kuncil judul tulisan diatas "Thumbs up? Sentiment Classification using Machine Learning Techniques", kemudian klik tulisan apa saja yang merujuk ke tulisan ini. barusan saya lihat: ada 446 tulisan!

Terkait dengan sentiment classification adalah "opinion mining", yaitu menghasilkan summary dari tulisan, dimana summarynya adalah opinion yang ada di tulisan itu. Ini pekerjaan yang lebih sulit dibandingkan sentiment classification.