Barusan diskusi dengan mhs ITTelkom, Sugi, yang sedang mengerjakan penelitian untuk TA ttg cost sensitve learning.
Dengan merujuk pada metoda COSTING pada Cost-Sensitive Learning by Cost-Proportionate Example Weighting. Dimana pada metoda ini diperhitungkan cost atau benefit per instance, bukan dengan cost atau benefit matrix.
Beberapa poin dari diskusi:
NILAI BENEFIT
Untuk kasus churn prediction sebagai benefit dari setiap instance (di sini adalah customer) bisa besarnya jumlah pulsa, atau lebih umumnya lagi "customer value". Namun sebaiknya ada nilai kuantitatifnya. Pada data training, dibuat sebuah atribut baru yang berisi nilai "benefit", dimana untuk customer yang mempunyai class "churn" nilai benefitnya adalah dari nilai tersebut, sedangkan untuk customer yang "loyal" nilai benefitnya diset nol. Mengapa? Karena untuk customer yang churn pada training set jika ditebak benar sebagai churn, dianggap dapat dicegah agar tidak churn. Sedangkan customer yang loyal, jika ditebak menjadi churn tidak memberi benefit namun kalau ditebak benar sebagi loyal juga tidak memberi benefit.
Jika dianalogikan dengan data donasi pada KDD Cup 98. Nilai benefitnya dalah besarnya donasi. Yang menyumbang: analog dengan churn, sedang yang tidak menyumbang dianalogikan dengan loyal.
NILAI COST
Untuk yang nilai costnya belum diketahui (kalau untuk kasus KDD Cup 98 ttg donasi, costnya adalah biaya untuk mengirim brosur), kita bisa menjadikan cost sebagai satu variabel. Kita buat grafik dimana sumbu X adalah cost, dan sumbu Y adalah total benefit hasil prediksi.
EVALUASI
Evaluasi utama yang bisa dilakukan adalah besarnya total benefit dari hasil prediksi.
Beberapa evaluasi lain perlu dilakukan: top decile lift n%, gini index. Ada baiknya juga total benefit untuk misalkan top n%.
Sedangkan F-measure untuk kelas minor bisa digunakan sebagi informasi tambahan.
LAIN-LAIN
Metoda COSTING ini dapat digolongkan sebagai upper sampling?