Friday, October 10, 2008

Cluster validasi: kasus BIRCH

Salah satu pekerjaan yang sulit dalam data mining adalah validasi cluster. Salah satu algoritma clustering yang populer adalah BIRCH. http://citeseer.ist.psu.edu/zhang96birch.html

Saya tidak ingin menulis tentang algoritma ini, namun tentang bagaimana penulis paper ttg BIRCH melakukan validasi cluster. Dalam paper itu digunakan apa yang mereka sebut radius dan diameter dari cluster. Dimana semakin kecil radius atau diameter, maka kualitas cluster akan semakin bagus.










Intinya adalah jarak antar semua pasangan instance dalam sebuah cluster.

Salah satu yang dilakukan BIRCH adalah menghilangkan noise/outlier.