Salah satu pekerjaan yang sulit dalam data mining adalah validasi cluster. Salah satu algoritma clustering yang populer adalah BIRCH. http://citeseer.ist.psu.edu/zhang96birch.html
Saya tidak ingin menulis tentang algoritma ini, namun tentang bagaimana penulis paper ttg BIRCH melakukan validasi cluster. Dalam paper itu digunakan apa yang mereka sebut radius dan diameter dari cluster. Dimana semakin kecil radius atau diameter, maka kualitas cluster akan semakin bagus.
Intinya adalah jarak antar semua pasangan instance dalam sebuah cluster.
Salah satu yang dilakukan BIRCH adalah menghilangkan noise/outlier.