Ada beberapa pendekatan: black box, transparent box. Kalau untuk imbalance istilahnya “manipulasi data” dan “manipulasi/modifikasi algorithm”. Kalau pada feature selection ini seperti filter-based dan wrapper-based.
Selain black box vs transparent box bisa sudut pandang lain: relabeling, sampling, weighting. Relabeling dan sampling adalah black box, sedangan weighting adalah transparent box.
[sebutkan sumbernya]
Relabeling artinya melabel ulang kelasnya, (misal algoritma …)
Sampling: melakukan sampling sehingga distribusi antar kelas (atau instance) berubah.
Weighting artinya member bobot yang berbeda antar instance saat pembangunan model.
Pendekatan sampling merupakan yang cukup mudah dilakukan. Dan kelebihan lain bisa menggunakan classifier yang ada. Karena sampling dilakukan pada preprosesing.
Contoh yang menggunakan Sampling adalah algoritma Costing, dan cost-proportionate roulette sampling (CPRS). Pada algoritma Costing menggunakan rejection sampling, dan pada algoritma CPRS menggunakan roulette sampling.
Apa itu rejection sampling? Ini slide singkat yang dibuat Sugi. ppt
Apa itu roulette sampling? Ini banyak digunakan di algoritma genetika (GA) saat mutasi.
[buat slide roulette sampling, menyusul]
Penggunaan sampling biasanya diikuti dengan bagging (pada Costing dan CPRS)
Sampling pada cost sensitive learning ini pada prinsipnya sama dengan sampling pada imbalance problem.