Tuesday, November 18, 2008

contrast data mining

Salah satu penelitian saya adalah seputar contrast data mining

Tutorial bisa dilihat di:
http://knoesis.wright.edu/library/presentations/bailey-dong-v2-1.ppt atau di
http://videolectures.net/mlss08au_kotagiri_dami/ (di sini ada slides dan videonya)

Mayoritas buku teks membahas tentang jenis pola / pekerjaan standar dalam data mining, yaitu klasifikasi, asosiasi dan clustering. Contrast data mining merupakan suatu yang lain. Di sini kita ingin mencari perbedaan (yang signifikan) antara dua atau lebih kelompok.

Misalkan:
Apa sih perbedaan karakteristik antara pelanggan yang churn dengan pelanggan yang loyal? Apa perbedaan antara karekteristik pelanggan antara pelanggan di wilayah DKI dengan yang Jateng? Apa perbedaan karekteristik antara pelanggan di DKI pada tahun 2007 dengan pada tahun 2008?

Bisa juga antara beberapa kelompok, misalkan untuk tahun 2000 s/d 2008?

Bagaimana mereprentasikan kontras antara dua kelompok atau lebih?
Salah satunya dengan menyajikan dalam himpunan "conjunction atribute-value".
Misalkan, pada kasus di kampus:
Apa perbedaan antara mahasiswa departemen TE dengan mahasiswa IF? data yang tersedia adalah data test penerimaan mhs baru, dan data nilai tahun pertama. Misalkan hasilnya adalah:
- nilai test masuk Bahasa Inggris > 8 dan perempuan dan alumni dari SMA negeri
untuk IF: ada 20% mhs yang seperti itu, sedangkan untuk TE hanya 5%
- ... dll

Bisa juga kemudian bentuk chimpunan kontras (contrast set) diubah menjadi bentuk yang lebih mudah dibaca user. Misalnya seperti yang dilakukan penulis paper ini.

Stephen D. Bay, Michael J. Pazzani: Detecting Group Differences: Mining Contrast Sets. Data Min. Knowl. Discov. 5(3): 213-246 (2001)

Selanjutnya saya menggunakan tulisan tersebut untuk membicarakan tentang contrast data mining. Tulisan tsb adalah referensi utama Trisnie mhs ITTelkom dalam mengerjakan TAnya.

Sebenarnya informasi contrast bisa juga disapat dari hasil learning yang lain, misalkan classification rule, decision tree, association rule, maupun feature selection. Namun ada beberapa kelemahan dari cara-cara seperti itu untuk menghasilkan informasi kontras.

* ada yang sulit dibaca makna perbedaannya (misal association rule)
* ada yang hasilnya tidak lengkap atau tidak bagus, artinya ada informasi perbedaan yang secara signifikan ada, namun justru tidak ditampilkan. (misal pada rule atau decision tree)

Sayangnya tidak ada cara pengukuran kuantititif apakah sebuah hasil himpunan kontras itu baik atau tidak, lengkap .. dll.

Permasalahan utama dalam contrast set mining ini adalah efisiensi: search space yang sangat besar. Kita harus meneliti pasangan conjunction atribut-value.

Salah satu kontribusi utama paper di atas adalah menyampaikan teknikyang efisien, dengan memangkas sebagian serach spacenya.


[under construction]

. . .

Bagaimana kalau kitamencoba melakukan kontras atas teks?