Sunday, November 30, 2008

Educational Data Mining, paper due 31/3/09

International Conference on Educational Data Mining (EDM 09)http://www.educationaldatamining.org/EDM2009/

Paper submission: March 31, 2009
Acceptance notification: May 1, 2009
Camera ready paper: May 20, 2009
Conference: July 1-3, 2009

ASONAM 09, 10 Des 08 abstrak

The 2009 International Conference on Advanced in Social Network Analysis and Data Mining. ASONAM 2009Athens, Greece
July 20-22, 2009http://www.asonam.org

including, but not limited to:
...- Preparing data for Web mining
- Web mining algorithms...

IMPORTANT DATES:
December 10, 2008: Abstract submission deadline.
January 30, 2009: Full papers due.
March 15, 2009: Notification of acceptance of papers.
April 7, 2009: Camera-ready paper deadline.
April 7, 2009: Conference registration deadline for authors presenting papers.

Saturday, November 29, 2008

AIEMPro09 London

Second International Workshop on Automated Information Extraction in Media Production (AIEMPro09) Special Session at WIAMIS 2009 (http://wiamis2009.qmul.net/)
London, 6-8 May 2009

Tentative deadlines:
Paper submission: 11 January 2009
Notification of reviews: 1 February 2009
Final camera ready (this is a STRICT DEADLINE): 13th February 2009

Areas of Interest (not limited to):
....
Automated news production
Content summarisation (e.g., sports highlights)
....

send the paperin PDF format DIRECTLY to the organisers by e-mail.
Organisers:
Alberto Messina (RAI CRIT) a.messina@rai.it
Jean-Pierre Evain (European Broadcasting Union) evain@ebu.ch
Robbie De Sutter (VRT medialab) robbie.desutter@vrt.be

Friday, November 28, 2008

IJCBS'09 Shanghai

The International Joint Conference on Bioinformatics, Systems Biology and Intelligent Computing (IJCBS'09) Shanghai, China on August 3rd - 6th, 2009

Important Dates
Paper Submission : February 15, 2009 (maximum 8 pages with IEEE/CS conference format)
Notification to Authors: March 15, 2009
Camera-Ready, Full Papers: April 5, 2009

mapping kata dasar..

Kalau ada corpus semacam PropBank, tampaknya juga bermanfaat kalau untuk kata dasar kita buat mapingnya: anatara kata dasar dengan turunannya, sehingga tidak perlu proses stemming. Dan membuat mapping ini tidak terlalu susah, hanya butuh waktu.

Komputerisasi pengetahuan keislaman (khususnya al Quran)

Saat hendak full time ke dunia akademis, saya bermimpi nanti ingin intens dalam bidang "komputerisasi pengetahuan keislaman", ada lab khusus tentang itu... Ini bidang yang multi displin (baik intern ilmu komputer, maupun dengan disipilin diluar ilmu komputer) Namun ternyata sangat sulit bagi saya, karena al. multidisplin itu, salah satunya karena saya sudah lambat masuk ke dunia akademis (hampir kepala 4 baru full time).

Saya sudah menawarkan ke teman2, ada juga yang cukup berminat namu belum tindak lanjut..
Juga masjid kampus sebenarnya bisa sebagai "koordinator"... ini juga sudah saya lontarkan ke pengurus masjid.

Barusan saya terpikir lagi salah satu pekerjaan terkait komputerisasi al Quran. Dalam computional lingustics ada proyek pembangunan corpus dengan anotasi2 peran semantik spt misalkan PropBank. Saya pikir kita akan sangat terbantu kalau al Quran, hadits dll diberi anotasi, baik itu peran semantik seperti PropBank itu atau yang lain. Nanti aplikasinya cukup banyak. Ini butuh waktu lama, dan terus menerus.

konferensi di Indonesia

Kemarin saya ikutan SNIKA di Unpar.

Beberapa komentar:

* Acara akademik seperti ini sangat bagus.

* Kebanyakan lingkup konferensi di Indonesia terlalu luas, termasuk SNIKA ini.

* Lebih baik namanya adalah Konferensi... bukan Seminar...., karena maknanya beda, lihat di petunjuk IEEE dll. Beberapa acara serupa di Indonesia dinamakan seminar seperti ini..

* Hampir semua konferensi di Indoensia sulit ditemui paper fulltext softcopynya, berbeda dengan konferensi di luar negeri. Baik itu di web site konferensi maupun web site pengarang. Prosiding hanya tersedia versi cetak. Sangat sangat, penyebaran ilu jadi sulit.

* Program/acara kebanyakan konferensi di Indoensia cenderung hanya: seminar dan presentasi paralel dari hasil CFP. Sangat bermanfaat kalau ada: tutorial, panel diskusi akademik dll. Kita bisa contoh konferensi2 internasional yang sudah mapan. (misal konferensi KDD)

* Untuk panel seminar, konferensi2 di kita cenderung menghadirkan "selebriti"/pejabat, bukan pakar.

* Saya pernah bincang2 dengan seseorang, andaikata banyak peneliti/dosen dari universitas2 tidak terkenal namun menghasilkan karya bagus. Ternyata kemarin ada pak Mauritsius Tuga dari Universitas Katolik Widya Mandira, Kupang yang bagus dan serius penelitiannya. Beliau mendalami "timetabling problem".

DEXA 2009

http://www.dexa.org

Database an Expert Systems Applications
August 31 – September 4, 2009

* Submission of abstracts: March 1, 2009
* Submission of full papers: March 8, 2009
* Notification of acceptance: May 22, 2009
* Camera-ready copies due: June 10, 2009

Wednesday, November 26, 2008

sentiment/opinion analysis

bacalah buku tentang opinion mining and sentiment analysis:
http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html

standar penulisan daftar pustaka

Ternyata pada tulisan di konferensi top pun kadang cara penulisan daftar pustaka juga tidak standar, misalkan paper ini dari konferensi KDD 2003 yang judulnya Eliminating Noisy Information in Web Pages for Data Mining:


Huruf besar pada setiap awal kata

[1] Anderberg, M.R. Cluster Analysis for Applications, Academic Press, Inc. New York, 1973.

[2] Bar-Yossef, Z. and Rajagopalan, S. Template Detection via Data Mining and its Applications, WWW 2002, 2002.


Huruf besar hanya pada huruf awal.


[4] Beeferman, D., Berger, A. and Lafferty, J. Statistical models for text segmentation. Machine learning, 34(1-3), 1999.

[5] Broder, A., Glassman, S., Manasse, M. and Zweig, G. Syntactic clustering of the Web, Proceeding of WWW6, 1997.



Untuk sesama hasil konferensi

Pakai "Proceeding of ..."

[8] Davision, B.D. Recognizing Nepotistic links on the Web. Proceeding of AAAI 2000.


Tidak pakai "Proceeding of ..."

[13] Lee, M.L., Ling, W. and Low, W.L. Intelliclean: A knowledge-based intelligent data cleaner. KDD-2000, 2000.

Fwd: [Dbworld] International Conference on Business Data Mining



---------- Forwarded message ----------
From: Raja Velu <rpvelu@syr.edu>
Date: Wed, Nov 26, 2008 at 2:31 AM
Subject: [Dbworld] International Conference on Business Data Mining
To: dbworld@cs.wisc.edu


 The International Conference on Business Data Mining will be organized
 during 28th -31st December 2008 at the Indian School of Business Hyderabad.
The conference is organized by C. R. Rao Advanced Institute of Mathematics,
 Statistics and Computer Science, with supports from DST(GoI)and CM:
http://home.iitk.ac.in/~mayankv/DM_conference_final/index.htm
The conference will be preceded by a week -long workshop on demonstration of various data
mining techniques: http://home.iitk.ac.in/~mayankv/Web_DM_Maam/index.htm

_______________________________________________
Please do not post msgs that are not relevant to the database community at large.  Go to www.cs.wisc.edu/dbworld for guidelines and posting forms.
To unsubscribe, go to https://lists.cs.wisc.edu/mailman/listinfo/dbworld

daftar blog guru dan dosen

sikat gigi bayi

Bisa dicoba untuk anak2 dan orang dewasa, utamanya yang gusinya sensitif atau gigi tidak teratur.

ide penelitian: sentence selection, feature selection

"Sentence selection" pada extractive summarization merupakan salah satu bentuk feature selection.

Tuesday, November 25, 2008

Resepsi pernikahan: salut untuk Aa Gym













[gb dari jawapos]


Aa Gym Mantu, Disuguhi Bakso Tahu
http://www.surya.co.id/web/Berita-Utama/Aa-Gym-Mantu-Disuguhi-Bakso-Tahu.html

Monday, 24 November 2008

Sekarang musim pesohor menikah jor-joran. Tetapi Abdullah Gymnastiar (Aa Gym) menabrak kebiasaan itu. Saat menikahkan anak perempuannya, Ghaida Tsurayya, 20, dengan Harpinadi Ihram, 24, justru konsep sederhana yang dibuat Aa Gym. Dia ingin memberikan contoh jika pernikahan tidak mesti dirayakan dengan glamor.

Sebenarnya pernikahan ini akan berlangsung setelah Aa Gym menjalankan ibadah haji. Namun untuk efisiensi, maka resepsi dilakukan Minggu (23/11). “Pernikahan ini kami buat sederhana begitu pun makanannya. Ada 22 gerai para pedagang kaki lima,” tutur Aa Gym sehari sebelum menikahkan anaknya, Sabtu (22/11).

Benar saja, saat resepsi berlangsung di Gedung Central V Komplek Pesantren Darrut Tauhiid, para pedagang kaki lima yang biasa mangkal di Gegerkalong diusung.

Makanan yang disajikan adalah makanan rakyat seperti bakso tahu, kue-kue, hingga tutug oncom. Makanan untuk para pejabat dan tamu undangan lainnya tidak akan dibedakan. Semua pedagang melengkapi diri dengan nama menu dan identitas pedagang.

Meski dikemas sederhana, masyarakat yang ingin menjadi saksi pernikahan itu sangat banyak. Menurut pantauan Tribun Jabar yang satu grup dengan Surya, diperkirakan sekitar 2.000 orang datang. Ini membuat Jalan Gegerkalong sempat tertutup padahal Aa Gym sudah berpesan agar tak perlu menutup jalan.

Selama akad nikah, mempelai pria dan wanita dipisahkan. Harpinadi Ihram duduk di depan berhadapan dengan Aa Gym, petugas KUA, dan Ustad Yusuf Mansyur yang menjadi wali nikah Harpinadi. Mempelai wanita, Ghaida duduk di belakang Harpinadi dengan jarak kurang lebih empat meter. Ghaida didampingi oleh ibunya, Ninih Muthmainnah yang sering disapa Teh Ninih, istri pertama Aa Gym.

Tempat duduk para tamu dibagi dua dan dipisahkan sekat. Sebelah kanan untuk laki-laki dan sebelah kiri untuk perempuan. Acara resepsi juga dibagi menjadi dua sesi. Pukul 10.00-12.00 WIB untuk undangan Aa Gym dan pihak besan. Pukul 12.00-15.00 WIB waktu untuk teman-teman Harpinadi dan Ghaida.

Ghaida dan Harpinadi yang bekerja di Jogjakarta, bertemu empat bulan lalu ketika umroh. Setelah menikah, mereka akan tinggal di Bandung.

Tampak di antara undangan Menpora Adhyaksa Dault, Hadad Alwi, dan Syam Bimbo. Tetapi Alfarini Eridani, istri kedua Aa Gym, tidak tampak hingga resepsi berakhir. Menurut kabar, dia tak datang karena tak bisa meninggalkan bayinya yang baru dilahirkan beberapa minggu. tribun jabar/krisdiantoro

= = =

tambahan dari Kompas:

http://www.kompas.com/read/xml/2008/11/23/20372172/pernikahan.putri.pertama.aa.gym.menyedot.perhatian

...
Para tamu udangan disuguhi nyanyian religi kelompok musik Ummy Maqtum Voice, yang semua anggotanya tunanetra. Aa Gym tampak sangat menikmati lagu-lagu mereka yang menyetuh hati. Beberapa kali ia tampak kaget ketika tamunya hendak berjabat tangan. Ada banyak menu pilihan di sana. Mulai dari mie kocok, sate padang, batagor Bandung, pem pek sampai es krim

ide penelitian: menyusun "sejarah"(?)

Dari informasi2 internet (utamanya koran) kita susun secara semi otomatis suatu isi, biografi dll. Misal biografi Amien Rais. Termasuk dari koran yg diambil adalah opini.

MK studi terbimbing dan MK kompetisi

Dekonstruksi Sistem Kekuatan Keuangan Dunia: Analisis dari sudut pandang lain.

http://wakalasauqi.blogspot.com/2008/11/dekonstruksi-sistem-kekuatan-keuangan.html

Buku: Kembali ke Dinar, Tinggalkan Riba Tegakkan Muamalah


http://wakalasauqi.blogspot.com/2007/04/buku-kembali-ke-dinar-tinggalkan-riba.html

semprot lubang jalan


Salah satu upaya yang bisa kita lakukan untuk mengurangi kecelakaan karena jalan berlubang, terutama untuk lubang yang membahayakan adalah dengan menyemprot menggunakan cat yang jelas (misal spotlight warna terang). Untuk itu bagusnyakita bawa-bawa cat semprot itu, kita taruh di kendaraan kita, kalau kita ketemu di jalan dan memungkinkan, kita berhenti sejenak untuk menyemprotnya.

Seperti yang dilakukan mas Handy Hermansyah pada foto di atas, namun akan lebih baik kalau disemprot lebih banyak ke lubangnya, warna yang lebih mencolok dan spotlight dan lebih praktis menggunakan cat semporti (eg. pylox). http://www.karbonjournal.org/id/archives/detail.php?ID_focus=12

peduli...

IT Telkom gedungnya cukup bagus (arsitektur tropis) sehingga al. meminimalkan penggunaan lampu. Cahaya matahari sudah cukup menerangi untuk selasar2 di dalam gedung.

Pagi ini saya sampai di kampus pk.7.45. Matahari sudh bersinar terang, namun cukup banyak lampu yang masih menyala. Beberapa orang (pagi in saya lihat mahasiswa) lewat. Mestinya mereka bisa mematikan lampu itu sambil mereka lewat. Ternyata tidak, dan ini cukup sering saya jumpai.

Kita sudah semestinya peduli akan hal-hal menskipun kecil

ide riset: Indonesian word list

http://indodic.com/index.html

Download our Indonesian word list for use in spell-checkers here. Read the Installation notes.

Bisa terus menerus ditambah dengan melakukan parsing web page yang menggunakan bahasa formal (misalkan koran). Lebih menarik kalau kemudian diklasifikasikan, misalkan apakah termasuk kata kerja, nama orang dst. Klasifikasi bisa hirarkis dan multilabel.

Lebih lanjut lagi juga mencakup yang non-formal (bahasa gaul) dan singkatan-singkatan.

Secara terus menerus mengambil kata yang ada dari beberapa situs web (misalkan dari koran-koran) diambil kata-kata yang dipakai. Kita buat daftar kata. Berapa frekuensinya. IDF. Kata-kata yang salah ketik.

Apa fungsinya, al:
pengganti "stemming"
membantu spelling checker
analisis, misal: kata yang sering dipakai, yang sering salah ketik...
xx
Kita bisa mencari keluarga kata itu.

menyederhanakan matrix pada cost sensitive learning

Banyak kasus riil (seperti pada Data Mining Cup 2008), nilai cost matrix pada TP, TN tidak bernilai nol. Sedangkan untuk beberapa penghitungan [jelaskan] dan juga beberapa keperluan praktis nilai2 cost untuk yang prediksinya benar mesti diisi nol (misalkan software SPSS Clementine mengharuskan seperti itu). Kita bisa mengubahnya dengan mengurangi dengan nilai yan sama untuk kolom yang sama.

[contoh, perlihatkan kasus dan cost matrix DMCup 2008)
[penjelasan penghitungan]
[referensi]

cost pada cost sensitive learning

Biasanya cost pada "cost sensitve learning" memang misclassification cost namum bukan hanya itu, .....

[penjelasan]
[contoh]
[referensi]

relawan masjid, pengurus masjid

Bagaimana mengoptimalkan potensi jamaah dan ummat sekitar masjid untuk memakmurkan masjid?

* pengalamanku beberapa masjid dekat tempat tinggal: di Purworejo (masjid Kauman), di Yogya (masjid Karangkajen), di kos-kosan (masjid Bagusrangin), di kantor (masjid Kantor Pusat Telkom Japati), di Zamrud (masjid Mutumanikam), di Suryalaya (masjid alMuhajirin) ....

[ceritakan secara ringkas]

Dari semua pengalaman saya di masjid di atas ada beberapa hal krusial yang belum optimal.

* [ide]

Monday, November 24, 2008

Saturday, November 22, 2008

Di daerah sendiri bingung arah kiblat

Saya sudah lebih dari 10 tahun tinggal di daerah Buah Batu Bandung. Salah satu "keistimewaan" Bandung (paling tidak menurut saya) adalah sulit menebak arah mata angin.

Coba lihat dari wikimapia.org, bisa dilihat Bandung, termasuk jalan Buah Batu.
Bisa dilihat blok2 jalannya tidak kotak2, arahnya juga tidak utara-selatan, timur-barat. Dan juga sering pelan-pelan belok (tidak panjang lurus).

Rumah saya bisa dicari: search " "Moch Arif Bijaksana" pada Wikimapia.

ranking pencarian di Google

Ternyata jika kita menggunakan produk Google (misal blogspot.com, sites.google.com) halaman web kita akan diberi peringkat lebih tinggi oleh Google dibandingkan oleh Yahoo.

Coba cari "Data Mining and Applied Statistics Research Group". Bandingkan antara Google dengan Yahoo.

Dan beberapa contoh dan keyword lain yang telah saya amati.

Friday, November 21, 2008

kebijakan gagal Bush

Siapa yg menanggung akibatnya?

Banyak. Yang terasa misalkan banyak orang Irak, Afghanistan ...
Dan jika Obama menyesali kegagalan pendahulunya, mestinya pemerintah AS meminta maaf dan memberi ganti rugi.

ide riset: word clustering untuk bahasa Indonesia

Stemming merupakan salah satu bentuk word clustering

Stemming biasanya memotong sampai kata dasar.

Namun misalkan untuk kata aktif dan pasif apakah dapat dianggap sama?

Juga dalam word clustering: thesaurus.

Word clustering, bisa secara bahasa juga berdasarkan data.



Bagaimana peran word clustering untuk keperluan text categorization (juga yang lain)

kamus indonesia inggris online

Biasanya kalau membuthkan kamus, saya cari di Google dengan kata kunci "kamus", cukup sering saya kurang puas dengan kamus-kamus online yang ditampilkan pada halaman pertama hasil pencarian Google.

Ada kamus IndoDic online. Bagus, sangat membantu.
Beberapa catatan positif:
* lengkap, karena memang ada versi cetaknya yang menurut website dibuat selama 10 tahun
* ditampilkan kata dasarnya
* bisa ditampilkan keluarga dari kata itu
* web site simple, tidak ada iklan
* ada versi offlinenya yang bisa didownload gratis
* ada versi mobile.
* gratis (ada kamus online yang mesti bayar kalau mau lihat full feature)


Contoh perbandingan kamus:
Indonesia -> Inggris untuk "pengadaan"

IndoDict
pengadaan n. peng+ada+an supplying; provisioning; procuring; acquisition process

kamus.net
Pengadaan blind

sederet.com
pengadaan 1 stock. 2 supplying, provisioning. 3 provisions. 4 procurement.
ada Other Match(es): .. [cat cukup bagus

kamus.ugm.ac.id
pengadaan fakta utk mmbuktikan hukum yg lebih umum induction

kamus.itb.ac.id
1. pengadaan 1 stock. 2 supplying, provisioning. 3 provisions. 4 procurement.


Kemudian pada IndoDict, bisa di-klik kata-kata lain yang merupakan keluarga pengadaan, yaitu yang kata dasarnya sama-sama "ada".

Untuk mencari apa saja keluarga dari kata dasar bisa dicari Kamus Besar Bahasa Indonesia (KBBI). Misalkan kata dasar "ada"


Coba juga perbandingan kamus:
Indonesia -> Inggris untuk "adakah", "adalah"

IndoDict
adalah 1 v. ada+lah was; were; am; is; are; to be; there was
adalah 2 n. ada+lah equation mark; equal sign

kamus.net
Adalah am

kamus.itb.ac.id
Maaf, Terjemahan untuk "adakah" belum ada dalam Database


Ternyata kamus ini dikerjakan oleh orang asing (terimakasih pak Wayne B. Krause), tentunya dibantu oleh banyak orang termasuk orang-orang Indoensia. Sekali lagi ini contoh yang memperlihatkan ketekunan orang Barat yang harus kita contoh. Contoh lain ketekunan oran Barat adalah pembuatan buku Pangeran Diponegoro click. Mestinya institusi seperti UGM yang berlimpah orang komputer dan bahasa mempunyai riset jangka panjang seputar kamus ini. Mungkin sudah ada, namun saya belum menemukan di internet yang telah bisa kita manfaatkan.

daftar kata dasar bhs Indonesia

Salah satu penelitian kami di IT Telkom saat ini membutuhkan daftar kata dasar. Dari daftar kata dasar dari KBBI, ternyata kata dasarnya tidak lengkap. Kalau di versi buku/cetaknya dan sih saya yakin lengkap. Dan daftar kata dasar yang kami peroleh itu (file Excell) juga diperoleh dengan tidak mudah (misalkan bisa download di web site pusat bahasa atau yang lain).

Apa saja kata dasar yan tidak ada dalam file Excell itu?
Coba cek keberadaanya dalam KBBI Daring

Thursday, November 20, 2008

banjir bandang Majalaya, Bandung (PR)

submit short paper

Tidak ada salahnya kita submit short paper.

contoh shor paper

Jahna Otterbacher, Dragomir R. Radev: Fact-focused novelty detection: a feasibility study. SIGIR 2006: 687-688

Tuesday, November 18, 2008

ant colony - algoritma ant miner

swarm intellegence...

[under construction]

algoritma PNrule

[under construction]

ini buatan ayu (mhs ITTelkom) doc

ustadz Haryono

Kenal/tahu tentang ustadz Haryono?
Saya ingin berbagi pengalaman saya sedikit.. penah ke "tempat praktek" beliau

[under construction]

15 ribu vs 100

Tadi saya baca di koran:
orang Indonesia yang belajar di Australia ada sekitar 15 ribu orang, dan
orang Australia yang belajar di Indonesia..... hanya sekitar 100 orang!

Apa artinya?

Positif: orang Indonesia antusias belajar, bahkan sampai ke LN juga..
Negatif: perguruan tinggi di Indonesia tidak menarik minat. (contohnya di kampusku tidak ada mhs asing) Mengapa? bahasa... keilmuan...

penelitian di Indonesia?

Barusan saya membaca email sesorang yang saya kenal namanya. Orang Indonesia, profesor dalam bidang IT. Saya penasaran, saya cari web site beliau. Saya belum menemukan web site beliau orang akademik. Malah ternyata menamukan web site beliau sebagai caleg. Dari web site itu saya baca ternyata perjalanan studinya mengesankan. S2 dalam 1 tahun dan S3 dalam 2,5 tahun. Kemudian saya coba cari, dari perjalanan panjang beliau sejak sekolah sampai sekarang lebih dari 10 tahun apa saja publikasinya. Saya menemukan tidak lebih dari jumlah jari sebelah tangan.

Mungkin inilah profil akademisi Indonesia. Lebih cendrung ke struktural.. dst. Dan ternyata juga politik!

salami slicing

Diterbitkan dalam berbagai tulisan dengan perbedaan minor (lihat beberpa tulisan: salami slicing blog Hadi Nur Duplicate and salami publications)

Kebetulan saya sedang pelajari tentang concept-based, saya temukan:

Shady Shehata, Fakhri Karray, Mohamed Kamel: Enhancing Text Categorization Using Sentence Semantics. ADMA 2008: 87-98

Shady Shehata, Fakhri Karray, Mohamed Kamel: A concept-based model for enhancing text categorization. KDD 2007: 629-637

Shady Shehata, Fakhri Karray, Mohamed Kamel: Enhancing Search Engine Quality Using Concept-based Text Retrieval. Web Intelligence 2007: 26-32

Shady Shehata, Fakhri Karray, Mohamed S. Kamel: Enhancing Text Clustering Using Concept-based Mining Model. ICDM 2006: 1043-1048

Shady Shehata, Fakhri Karray, Mohamed S. Kamel: Enhancing Text Retrieval Performance using Conceptual Ontological Graph. ICDM Workshops 2006: 39-44

contrast data mining

Salah satu penelitian saya adalah seputar contrast data mining

Tutorial bisa dilihat di:
http://knoesis.wright.edu/library/presentations/bailey-dong-v2-1.ppt atau di
http://videolectures.net/mlss08au_kotagiri_dami/ (di sini ada slides dan videonya)

Mayoritas buku teks membahas tentang jenis pola / pekerjaan standar dalam data mining, yaitu klasifikasi, asosiasi dan clustering. Contrast data mining merupakan suatu yang lain. Di sini kita ingin mencari perbedaan (yang signifikan) antara dua atau lebih kelompok.

Misalkan:
Apa sih perbedaan karakteristik antara pelanggan yang churn dengan pelanggan yang loyal? Apa perbedaan antara karekteristik pelanggan antara pelanggan di wilayah DKI dengan yang Jateng? Apa perbedaan karekteristik antara pelanggan di DKI pada tahun 2007 dengan pada tahun 2008?

Bisa juga antara beberapa kelompok, misalkan untuk tahun 2000 s/d 2008?

Bagaimana mereprentasikan kontras antara dua kelompok atau lebih?
Salah satunya dengan menyajikan dalam himpunan "conjunction atribute-value".
Misalkan, pada kasus di kampus:
Apa perbedaan antara mahasiswa departemen TE dengan mahasiswa IF? data yang tersedia adalah data test penerimaan mhs baru, dan data nilai tahun pertama. Misalkan hasilnya adalah:
- nilai test masuk Bahasa Inggris > 8 dan perempuan dan alumni dari SMA negeri
untuk IF: ada 20% mhs yang seperti itu, sedangkan untuk TE hanya 5%
- ... dll

Bisa juga kemudian bentuk chimpunan kontras (contrast set) diubah menjadi bentuk yang lebih mudah dibaca user. Misalnya seperti yang dilakukan penulis paper ini.

Stephen D. Bay, Michael J. Pazzani: Detecting Group Differences: Mining Contrast Sets. Data Min. Knowl. Discov. 5(3): 213-246 (2001)

Selanjutnya saya menggunakan tulisan tersebut untuk membicarakan tentang contrast data mining. Tulisan tsb adalah referensi utama Trisnie mhs ITTelkom dalam mengerjakan TAnya.

Sebenarnya informasi contrast bisa juga disapat dari hasil learning yang lain, misalkan classification rule, decision tree, association rule, maupun feature selection. Namun ada beberapa kelemahan dari cara-cara seperti itu untuk menghasilkan informasi kontras.

* ada yang sulit dibaca makna perbedaannya (misal association rule)
* ada yang hasilnya tidak lengkap atau tidak bagus, artinya ada informasi perbedaan yang secara signifikan ada, namun justru tidak ditampilkan. (misal pada rule atau decision tree)

Sayangnya tidak ada cara pengukuran kuantititif apakah sebuah hasil himpunan kontras itu baik atau tidak, lengkap .. dll.

Permasalahan utama dalam contrast set mining ini adalah efisiensi: search space yang sangat besar. Kita harus meneliti pasangan conjunction atribut-value.

Salah satu kontribusi utama paper di atas adalah menyampaikan teknikyang efisien, dengan memangkas sebagian serach spacenya.


[under construction]

. . .

Bagaimana kalau kitamencoba melakukan kontras atas teks?

LexRank catatan 13 Nov 08

LexRank

Eigenvector centrality..apa itu?

Bagaimana tipe graph nya? Directed, undirected è saya duga undirected
Idf-modified cosine similarity coba terangkan --> PR UNT PEKAN DEPAN
Mengapa dimodifikasi?

LexRank untuk single doc saja atau muti-doc.
Kalau multi-doc ada noise doc bagaimana?

Demo di internet LexRank

Graph-based ATS lain apa selain LexRank dan TextRank?
Semua graph-based pada prinsipnya adalah ranking?
Seberapa bagus graph-based ATS?

Apa yang dimaksud dengan central sentence. Dan apa itu the most central central sentence.
Centrality: degree centrality, eigenvector centrality (ini lebih baik dari degree centrality)
Eigenvector centrality cukup sulit dipahami (bagi saya)
Apa itu Markov chain? Apa itu Power Method?

Coba sehari meringas satu artikel berita. Extraction. Dengan disertai alasan mengapa kalimat yang dipilih adalah itu.

Bagaimanakah system secara garis besar. (dari awal/input sampai akhir/output)
Centroid vs centrality.

GOAL Feby:
Buat tulisan dan slide selengkap dan sejelas mungkin LexRank. Dengan bahasa yang mudah. Dengan contoh-contoh.
Membuat implementasi untuk bhs Indonesia, gunakan untuk pengujian, dievaluasi.
Cari implementasi LexRank yang sudah ada, gunakan untuk uji coba. è sudah ada di MEAD.

= = = = =

Sebuah dokumen yang baik mestinya isi dokumen tercermin dalam judul dan kalimat-kalimat awal atau paragraph awal, namun kadang-kadang ada artikel berita yang memberitakan beberapa topic, dimana ada topic yang tidak tercermin pada judul maupun kalimat-kalimat awal. Berilah contoh artikel.

Kalau tidak tercermin di judul kadang topic “tambahan” di tuliskan pada subjudul. Berilah contoh artikel.

Ada juga artikel yang judulnya sama sekali tidak mencerminkan isi dokumen. Judulnya dibuat menarik perhatian. Ini misalkan cukup mudah kita jumpai ada artikel olah raga. Berilah contoh artikel. Namun kemungkinan (coba teliti) meskipun judulnya tidak mencerminkan isinya, namun pada kalimat-kalimat awal tetap sudah menceminkan isi berita.

Hipotesa:
Secara default bobot judul besar, namun jika antara judul dengan kalimat-kalimat awal “tidak sinkron” (similarity antara judul dengan kalimat2 awal kecil), maka bobot judul tidak terlalu besar. Sehingga ada kemungkinan judul tidak masuk dalam ringkasan hasil.

Pengujian:
Jika kita menggunakan metoda peringkasan yang sangat sederhana: yaitu hasil peringkasan adalah n kalimat pertama. Bagaimana hasilnya? Gunakan evaluasi standar. Metoda ini digunakan sebagai salah satu pembanding untuk metoda graph-based yang dicoba.

Pengujian:
Lakukan uji coba meringkas artikel bahasa Indonesia menggunakan Sidobi. Lihat seberapa hasilnya.
Lakukan uji coba meringkas artikel bahasa Inggris menggunakan demo LexRank. Lihat seberapa hasilnya.

Hipotesa:
Ada kemungkinan antara satu sumber berita dengan sumber berita yang lain bentuk penulisan berbeda, maksudnya ada yang cukup mudah diringkas, ada yang sulit. Yang cukup mudah (artinya pembuatan artikel baik), misalkan dengan kalimat-kalimat awal sudah bisa dibuat ringkasannya.

Pertanyaan:
apakah perbedaan LexRank dengan TextRank? (metoda: cara graph bagaimana, single document – multi-document, etc). Masing-masing diterbitkan tahun berapa? Apakah yang satu memperbaiki yang lain?

Pertanyaan:Document similarity mengapa bisa digunakan untuk peringkasan?Pikirkan berbagai jenis similarity. Apa perbedaan LexRank dengan TextRank dalam hal similarity?Bagaimana kalau menggunakan similarity sederhana saja? Bagaimana hasil peringkasannya?

Buatlah contoh yang sederhana dan ekstrim untuk menggambarkan ide dibalik mengapa graph-based / similarity ini bisa digunakan untuk peringkasan.

Hasil ringkasan terdiri dari kalimat-kalimat(1) yang banyak mirip dengan kalimat-kalimat lain(2) yang banyak mirip dengan kalimat-kalimat itu [yaitu kalimat-kalimat (2)] Ini adalah undirected graph. Berbeda dengan PageRank yang directed graph. Penghitungan undirected graph lebih sederhana dari pada directed graph.

Graph-based ATS hanya meninjau dari sudut pandang similarity saja, tidak ada pertimbangan lain, seperti misalkan posisi kalimat dalam dokumen. Juga adanya struktur yang mungkin bisa diambil, misalkan: subjudul (dalam isi artikel), adanya yang dibold, untuk kategori internasional bisa saja kota (yang disebut pada awal berita)

Mungkin juga ada noise:
· Kalimat noise
· Dokumen noise (untuk multi-dokumen)

= = =

Buatlah tulisan pendek khusus membahas jenis-jenis peringkasan: abstraktif-ekstraktif, macam-macam tujuan peringkasan. Berilah contoh-contoh untuk itu.

= = =

Graph-based ATS pada dasarnya merupakan order-based (?) / rank based. Sebagai alternative lain ATS adalah centroid based. Cari tulisan-tulisan yang menerangkan tentang centroid based ini.

Menurut dugaan saya, centroid based itu adalah sbb:
Dipilih term-term yang penting. Kumpulan term-term yang penting ini adalah centroid. Jadi centroid ini merupakan “pseudo sentence”. Di sini hanya ada satu pseudo-sentence sebagai centroid. Kalimat-kalimat yang lain dicari jaraknya dari centroid, yang lebih dekat dengan ventroid dianggap lebih penting.

Bagaimana cara menentukan penting tidaknya sebuah artikel. Salah satu cara sederhana adalah dengan TF dan posisi kalimat/term.
Buatlah contoh: ada sebuah artikel kemudian bagaimana proses peringkasannya. Bagaimana hasil peringkasanannya.

== =

Untuk multi-document mengapa tidak dibedakan bahwa antar beberapa kalimat ada dalam dokumen yang sama atau tidak? Secara intuitif bagaimana?

Multi-docement yang seperti apa? Dilakukan clustering dulu.. Multi-document artinya dalam kumpulan document itu menggambarkan/berisi even/kejadian/peristiwa yang sama misalkan untuk kategori internasional dikumpulkan dahulu peristiwa yang sama/serupa, misalkan tentang krisis keuangan atau lebih sempit lagi tentang pertemuan G20.

Kalau kita diberi kumpulan dokumen yang masih banyak misalkan semua berita dalam kategori internasional, kemudian kita langsung diminta untuk meringkas, bagaimana? Mengelompokkan artikel itu dapat dianggap sebagai salah satu proses peringkasan! Karena dalam keseluruhan artikel dalam kategori internasional itu kalau diringkas yang perkejadian. Untuk kita bisa mencoba mengembangkan bagaimana pengelompokan itu digunakan untuk peringkasan. Baik untuk single document maupun multi-document. Dokumen (atau kumpulan dokumen) dikelompok-kelompokan dulu (dibagi-bagi dulu dalam sub-..). Lakukan pe-ranking-an atas kelompok-kelompok itu. Dipilih hanya kelompok-kelompok yang penting saja. Kemudian baru dari setiap kelompok yang penting dicari kalimat-kalimat yang dianggap penting.

Untuk artikel berita, sering ada “sub-judul” (?) di dalam tulisan. Itu dapat dianggap sebagai kelompok. (Itu artinya penulis sudah membuatkan kelompok secara logika). Jadi dipisahkan (merupakan kelompok yang berbeda). Berilah contoh.

= = =

Waktu awal-awal diskusi dengan Nur, didiskusikan juga artikel yang seingat saya graph-based juga. Coba cari dan baca kembali.

= = =

Cari di internet, apa saja metoda ATS yang graph based. Apakah semua graph-based merupakan rank based? Cari dalam daftar referensi dalam tulisan timestamp-based. Jangan lupa dilihat tahun pembuatan, dan kalau bisa hubungan antara satu metoda dengan metoda lain. Apakah sebuah metoda merupakan perbaikan/varian dari yang lain. Buat juga dalam time-frame.

= = =

Usahakan mencari corpus standar/benchmark untuk ATS ini meski dalam English.

Buat corpus bahasa Indonesia untuk benchmark ATS. Ada peringkasan yang dibuat secara manual. Peringkasan dibuat sebaik mungkin, dengan melibatkan beberapa orang.

ICISO Beijing

International Conference on Informatics and Semiotics in Organisations, IFIP WG8.1 Working Conference (ICISO 2009),

Important datesFull
paper submission: 30 November, 2008
Notification of acceptance: 7 January 2009
Camera-ready version: 30 January, 2009
Conference: 11-12 April, 2009

ACIT (Arab) deadline sekitar akhir Juni

The International Arab Conference on Information Technology (ACIT) tahunan

http://acit2k.org/ACIT/

deadline sekitar akhir Juni

Monday, November 17, 2008

gedung dengan arsitektur tropis

Untuk daerah tropis, alangkah bagusnya memang gedung dengan arsitektur tropis.
.... tapi... apalah artinya ternyata banyak dipasang AC juga (padahal ini Bandung) ..

PhD student positions in Helsinki on mining and learning networks

Applications are invited for (up to) four-year fully-funded

PhD student positions

at the Department of Computer Science at the University of Helsinki, Finland. The selected students will receive well-supervised PhD training in a world-class research environment on the topics of data mining and machine learning. The starting date is flexible and to be negotiated, at the earliest March 1st 2009.

Specifically, the selected students will be working on methods for learning networks and graphs from a variety of data and utilizing the found structures for visualization, explanation, and prediction. The research will be carried out in the context of the Finnish Centre of Excellence for Algorithmic Data Analysis (Algodan) and the Helsinki Institute for Information Technology (HIIT). Students will be supervised by senior members of the recently established Discovering
Network Structures (DiNS) collaboration: ......

selengkapnya baca di sini PhD student positions available

algoritma Costing dll

[under construction]

level imbalance: ..

minor = rev - c_retensi
mayor = c_retensi

cost retensi

evaluasi: sum rev TP - sum c_retensi TP+FP

voting menggunakan confidence (clementine)

dibandingkan dengan:
base clsssifier: C.50
base clsssifier: C.50 + balancing (ada macam-macam balancing)

revenue max: ...
revenue min: ....
revenue Costing: ....


Penggunaan Bagging apakah membantu dalam Costing?
Tren pengaruh iterasi bagging terhadap evaluasi (Recall, Precison, F, Revenue)

Pengaruh cost retensi terhadap evaluasi (Recall, Precison, F, Revenue)

Seberapa bagus (efektif -> revenue) algoritma Costing untuk
cost sensitive learning,
churn prediction

Mengapa bagus/jelek?
al. rejection sampling menghasilkan sample yang sedikit. Seberapa sedikit. (berapa %) cost-proportionate rejection sampling produces a smaller training set (by a factor of about N/Z).

Paper Roulette: we set the constant Z = maxC(i). Bagaimana cara mendapatkannya?

**sampling-based cost sensitive. Papernya algoritmanya apa saja.
pendekatan lain: ensemble

target:
* roulette (per instance) + rejection sampling

presisi berapa angka dibelakang koma untuk angka random (0-1)

rekutmen asisten lab DMC ITTelkom

Untuk mhs ITTelkom yang berminat menjadi asisten lab atau asisten riset Data Mining Center (DMC)


Rekruitasi Asisten Data Mining Center (DMC)

Laboratorium Data Mining Center (DMC) Gd F.301, salah satu laboratorium riset Departemen Teknik Informatika membuka kesempatan kepada Mahasiswa IT Telkom yang mempunyai semangat dan komitmen tinggi untuk menjadi Asisten Laboratorium dan Asisten Riset Lab DMC.
Bagi yang berminat harap mengirimkan surat permohonan melalui e-mail :
1. Subject e-mail : Permohonan menjadi asisten DMC

2. Pengiriman ke email :
to : dmc_ittelkom@yahoo.com
cc : arifbijaksana@gmail.com

3. Isi email:

-----------------------------------------------------------------------
Nama, NIM,
Pernyataan akan bersungguh-sungguh mengerjakan riset, membantu kegiatan dan adminsitrasi DMC.

Pernyataan bahwa setelah selesai TA, bersedia:
  • Menyampaikan hasil riset / TA (mempresentasikan dalam seminar yang diselenggarakan DMC)
  • Membuat dokumentasi petunjuk instalasi dan pemakaian aplikasi yang telah dibuat
  • Memberikan copy buku (hardcover) dan mengcopykan CD TA ke komputer DMC
----------------------------------------------------------------------------------------------------
Lampiran (dalam sebuah file zipped dengan nama file ):
  • CV (termasuk email, no HP)
  • Transkrip nilai
  • Foto (free style)
  • Memberikan usulan kegiatan / program kerja DMC
4. Tahap berikutnya adalah wawancara (waktu akan ditetapkan kemudian).

Catatan:
  • Prioritas untuk S1 angkatan 2005 dan 2006.
  • Mahasiswa harus akan / sedang mengerjakan TA seputar Data Mining
  • Untuk mendapatkan judul topik TA bisa mendiskusikan via email ke dmc_ittelkom@yahoo.com
  • Untuk menjadi asisten DMC, pembimbing TA/riset boleh dengan dosen siapa saja (tidak terbatas dosen MAB)
  • Mahasiswa yang bisa mengajukan sebagai asisten DMC tidak terbatas mahasiswa S1 IF, namun bisa dari D3IF, S1 TI, S1 TE.
  • Untuk mahasiswa yang sedang mengerjakan riset/TA di Lab DMC yang belum pernah mengirimkan surat permohonan, juga diharuskan mengirimkan permohonan seperti di atas.

Surat permohonan dikirimkan paling lambat Sabtu 29 November 2008 pk.23.59.

Topik riset DMC saat ini, terutama
  • Text mining dan automatic text summarization : terutama penerapan untuk dokumen berbahasa Indonesia.
  • Imbalance classification : terutama untuk penerapan pada churn prediction
  • Penerapan data mining untuk IT Telkom
= = = = =

Kewajiban dan hak asisten DMC

Kewajiban
  1. Mengkoordinir dan bertanggung-jawab terhadap kegiatan-kegiatan DMC, administrasi DMC
  2. Mengerjakan riset DMC
  3. Membantu terlaksananya kegiatan-kegiatan DMC dan administrasi DMC
  4. Membantu terlaksananya seminar Data Mining dengan menjadi pembicara terhadap TA yang telah dilaksanakan
  5. Mengikuti pertemuan tim riset masing-masing (kurang lebih 2 minggu sekali)
Point untuk Asisten Laboratorium 1, 2, 3, 4, 5
Point untuk Asisten Riset 2, 3, 4, 5


Hak
  1. Menggunakan resource DMC yang ada
  2. Mengeluarkan ide-ide untuk perkembangan DMC
  3. Mendapatkan sertifikat sebagai Asisten Riset
  4. Mendapatkan sertifikat sebagai Asisten Laboratorium
Point untuk Asisten Laboratorium 1,2,3,4
Point untuk Asisten Riset 1,2,3

catatan: asisten lab (aslab) otomatis harus menjadi asisten riset (asris)

= = =

Lain-lain

= = = =

Thanks untuk Sugi dan Intan yang telah membuatkan pemgumuman ini.

ruang rapat pagi ini pk.8


Meja banyak tempat makanan sisa. Lampu masih nyala.

Memang sih tugas CS bersih-bersih, tapi kita kan bisa bersihkan, rapikan sendiri.

Berapa sih gaji CS...



pakain baru (lagi)

Kemarin sore tiba-tiba saya lihat kok ada celana baru. Ternyata istri saya baru membelikan untukku. Ahamdulillah, setahu saya beberapa kali dia membelikan sesuatu yang memang saya butuhkan. Matur nuwun nggih.

paper terkait cost sensitive learning

Ini paper pendek yang bagus dan komprehensif tentang cost sensitive learning, karena mencakup multi-class, dan bila cost & imbalance secara umum, termasuk jika antara misclassification cost dan imbalance tidak konsisten. (yi. misclssification cost besar, prosentase banyaknya instance kelas tersebut besar)

[papernya apa.... lupa...cari]

perda K3 (Kebersihan, Ketertiban, Ke..rapihan?)

Perda K3 di Bandung yang mandul, tidak jalan?
Perda yang sangat baik.
Bahkan di kampus2, sekolah pun saya duga tidak jalan.
Mestinya ada upaya terpadu termasuk dari sisi pendidikan di sekolah2 dan kampus.
Mestinya ada dukungan dari semua pihak, termasuk ormas dan orpos.
Dukungan bukan hanya dukungan berupa pernyataan, namun tindakan nyata.
Untuk parpol, ini bisa misalkan tanggung jawab "dinas .. bayangan" yang dibuat parpol. Inilah salah satu tugas dari "pemerintah bayangan" yang dibuat parpol, bekerjasama dengan dinas yang sesungguhnya menegakkan perda K3.

Di Bandung parpol terbanyak kursinya PKS. (dan kebetulan beberapa teman dalah aktivis dan pengurus PKS Bandung). Bagaimana upaya PKS dalam penegakan Perda K3????

pemilahan sampah

Saya lihat di kampus (ITTelkom) ada upaya untuk pemilahan sampah. Saya lihat ada beberapa tempat sampah khusus untuk yang organik dan non-organik.

Niat/upaya yang sangat baik, beberapa komentar dari saya:
Belajar dari kegagalan di kampus ITB, sosialisasi, penegakan aturan, pengamatan/penelitian, istiqomah/konsistensi, perencanaan yang jelas (misal setelah dipilah terus bagaimana? petugas pengambilan smapah bagaimana), jenis pemilahan sudah tepat?

beriman dan beramal shalih

"Dan orang-orang yang beriman dan mengerjakan kebajikan (amal shalih), mereka itu penghuni surga. Mereka kekal di dalamnya" QS 2:82

Sunday, November 16, 2008

pesan kebaikan

Kita bisa menyampaikan pesan kebaikan melalui berbagai media, salah satunya di kendaraan kita. Untuk yang punya mobil, bisa al. dipasang di kaca belakangan. Sayangnya (yang saya alami), sulit menemukan stiker yang bagus isi dan tampilannya untuk dipasang di kaca belakangan. Bisa juga dengan yang sekarang cukup banyak dipakai: saya tidak tahu apa namanya, yang bolong-bolong. Kita bisa memesannya ke digital printing service?

Bila ada yang membuat desain2 yang bagus dan bisa didownload...

Pesannya misal agar menghormati penyeberang jalan dll...

kartun mulan, ada iklan sms reg model

Saat ini saya sedang nonton tv global film kartun mulan. Salah satu iklannya: sms reg model yg tayangannya wanita-wanita dengan baju cukup terbuka. Kita mesti protes: KPI, global tv, content provider...

Alamat email, telp, faxnya.....

Mestipun tidak sebagai iklan saat kartunpun iklan seperti itu tidak pantas.

Juga iklan syirik semacam primbon. Semestinya operator seluler punya tim ahli/penasehat yang antara lain yang terkait syariah. Mestinya kita desak agar bisa seperti itu. Bagaimana ormas dan orpol?

Saturday, November 15, 2008

berjalan dan bersepeda

Kalau bisa dengan berjalan kaki atau bersepeda, jangan naik kendaraan bermotor.

Dan usahakan sebisa mungkin jalan atau bersepeda.

kerja di masjid bakda subuh

Saya coba kerja, ngetik di masjid. Habis sholat Subuh sampai pk.6. Enak juga. Cukup efektif.

ide penelitian: kategorisasi email dan filter otomatis.

Kategorisasi email, mirip dengan email spam filtering. sebenarnya sudah pernah dilakukan mahasiswanya jiawei han di kanada.
Lebih bagus kalau kategorinya bebas dan bisa multi label (artinya TAG) seperti di blog.

Film apakah email sesuai topik atau OOT (artinya ditolak moderator) mirip (sama?) dengan email spam filtering. Bagusnya prosesnya iteratif. Milis "moderated", sistem filtering otomatis memisah jadi OOT atau lolos, moderator nge-check (bisa keseluruhan atau sebagian email) sebenarnya OOT atau lolos. Sistem jadinya terus menerus diperbaiki.

Ide: arsip milis di-blog-kan.

Cukup membantu, kalau arsip milis di-blog-kan. Mengapa perlu? Salah satunya bisa dikategorikan (dengan diberi tag). Juga bisa diedit dulu (paling tidak agar lebih rapi). Bagaimana agar prosesnya seotomatis mungkin? Bisakah email blog dimasukkan sebagai member milis? Coba...

UU Pornografi untuk orang tua

Saat ini pk.6 pagi saya sedang mendengarkan radio KLCBS FM100.4 Bandung, acara "Cinta Keluarga" bersama bp. Syakib Mahmud.

Beliau menyarankan agar orang tua memahami UU Pornografi. Dimana bisa mendapatkan naskah UU Pornografi?

Friday, November 14, 2008

ICMLC China

International Conference on Machine Learning and Cybernetics (ICMLC)
China 12 - 15 july 2009

Important Dates
Submission Due: 1 March 2009
Notification of Acceptance: 15 April 2009
Camera-Ready: 5 May 2009

MLDM´2009 Germany

International Conference on Machine Learning and Data Mining MLDM´2009
July 23 – 25, 2009, Leipzig/Germany

Important Dates
Deadline for paper submission: January 6, 2009
Notification of acceptance: March 6, 2009
Final paper submission: April 27, 2009

Authors can submit their papers in long or short version

ICDM 2009 Germany

Industrial Conference on Data Mining ICDM´2009
July 20 - 22, 2009, Leipzig/Germany

Deadlines
Submission of papers: 12.01.2009
Notification of acceptance: 24.03.2009
Submission of camera-ready copy: 05.05.2009

IIS 2009 Poland

International Joint Conference Intelligent Information Systems (IIS)
Poland

DEADLINES
* February 16, 2009 - paper submission deadline
* April 6, 2009 - acceptance/rejection decision due
* May 4, 2009 - submission of camera-ready papers
* June 16, 2009 - the Conference starts

Scope:
=====
Papers on these and related subjects are particularly encouraged:
- Artificial Immune Systems (AIS),
- Search Engines (SE),
- Computational Linguistics (CL),
- Knowledge Discovery (KD),
- Tools and Methods of AI (TM).

The Conference's focus will also be on the following topics:
- new computing paradigms, including, but not restricted to
biologically motivated methods, quantum computing, DNA computing,
- advanced data analysis,
- new machine learning paradigms,

UTP National Postgraduate Conference 2009

National Postgraduate Conference 2009
The Postgraduate Studies Office at the Universiti Teknologi PETRONAS (UTP)

Important Dates
Submission of Full Paper 1 December 2008
Notification of Acceptance 12 January 2009
Submission of Camera Ready 26 January 2009
Conference Date 25-26 March 2009

ICIS 2009 Sydney

"International Conference on Intelligent Systems" ICIS 2009
Sydney, Australia

Important Dates
Paper submission July 31, 2009
Notification of acceptance August 31, 2009
Final paper submission and authors' registration September 30, 2009
Conference Dates November 25-27, 2009

ICDM 2009 USA

"International Conference on Data Mining" ICDM 2009
Chicago, USA

Important Dates
Paper submission June 30, 2009
Notification of acceptance July 31, 2009
Final paper submission and authors' registration August 31, 2009
Conference Dates October 28-30, 2009

ICIFE 2009 Singapore

International Conference on Information and Financial Engineering (ICIFE 2009)
Singapore

Important Date:
Paper submission (Full Paper) November 30, 2008
Notification of acceptance December 20, 2008
Authors' Registration January 5, 2009
Final paper submission to IEEE Computer Society January 5, 2008
Conference Dates April 17 - 20, 2009

AllConferences.Com

AllConferences.Com

Is a directory focusing on conferences, conventions, trade shows, exhibits, workshops, events and business meetings.

IACC’09 India

IEEE International Advance Computing Conference (IACC’09)
India

Full Length Paper Submission due: January 01, 2009
Acceptance and revisions due: January 15, 2009
Camera Ready paper due: January 30, 2009
Last date for Registration for authors: January 30, 2009
Last date for Registration for delegates: March 04, 2009

riset vs rapat

Salah satu kendala di tanah air adalah seringnya rapat. tim ini, tim itu...

Dan jika waktunya bentrok, event terkait riset, seperti pertemuan research group adalah prioritas bawah setelah rapat.

Meeting on Statistics and Data Mining Tunisia

First Meeting on Statistics and Data Mining Hammamet Tunisia Tunisia

Abstract 2 Dec 2008
Paper 12 dec
Noyification 6 Feb
Meeting 5-6 March 2009

IEEE Conferences Database

IEEE Conferences Database (Click).

ICCSIT 2009 Beijing

International Conference on Computer Science and Information Technology (ICCSIT)
ICCSIT 2009 Beijing

Important Dates
Submission Deadline 1 March 2009
Author Notification 15 April 2009
Registration 10 May 2009
Camera Ready 10 May 2009
Conference 8-11 August 2009

WASET Scientific and Technical Committee

Online Membership Application Form

WASET kindly invites you to join in and work on the scientific and technical committees of the conferences and journals editorial boards. Membership in the WASET scientific and technical committees can open windows of opportunity for your professional growth and development as free-of-charge. Through special scientific and technical committees and divisions, and numerous occasions for scientific and technical exchange with colleagues, WASET gives scientists the power to enhance their knowledge, skills, and professional options.

ICCISE 2009. Penang

ICCISE 2009 : "International Conference on Computer Information Systems Engineering"
Penang, Malaysia

Important Dates
Paper submission November 25, 2008
Notification of acceptance November 30, 2008
Final paper submission and authors' registration December 31, 2008
Conference Dates February 25-27, 2009

ICKSE 2009

ICKSE 2009 : "International Conference on Knowledge Systems Engineering"
Rome, Italy

Important Dates
Paper submission December 30, 2008
Notification of acceptance January 31, 2009
Final paper submission and authors' registration February 28, 2009
Conference Dates April 28-30, 2009

ICICT 2009

ICICT 2009 : "International Conference on Information and Communication Technologies"
Hong Kong

Important Dates
Paper submission November 30, 2008
Notification of acceptance December 31, 2008
Final paper submission and authors' registration January 31, 2009
Conference Dates March 25-27, 2009

icime 2009

International Conference on Information management and engineering
(icime 2009)


Organized by the International Association of Computer Science and Information Technology
April 3-5, 2009, Kuala Lumpur, Malaysia

Important Dates
Paper submission December 20, 2008
Notification of acceptance January 10, 2009
Conference Dates April 3 - 5, 2009

pingpong


Salah satu hobiku main tenis meja.
"Pokoknya" terus smash.

case grammar

Tulisan ini dibuat oleh mhs IT Telkom:
Nur Indrawati
113050086

CASE GRAMMAR

Dalam [3] disebutkan bahwa case grammar merupakan salah satu pendekatan untuk representasi semantik suatu kalimat, yang menyediakan pendekatan untuk mengkombinasikan interpretasi sintaktik dan semantik. Aturan grammar dalam case grammar ditulis untuk menggambarkan aturan sintaktik dibandingkan semantik. Namun, struktur dari aturan di sini berhubungan dengan relasisemantik.

Contohnya pada kalimat “Susan printed the file” dan kalimat “The file was printed by Susan” (Gambar 1). Pada kedua kalimat tersebut, peranan semantik dari ‘Susan’ dan ‘the file’ adalah sama, tetapi peranan sintaktiknya berlawanan.

[lengkapnya disa diambil di sini: .doc]

PropBank

FrameNet

http://www.icsi.berkeley.edu/news/2007/framenet.html

Featured Research: FrameNet


The FrameNet project is one of the longest-running projects at ICSI. Led by Professor Charles Fillmore and Dr. Collin Baker, FrameNet researchers are creating "an online lexical resource for English, based on frame semantics and supported by corpus evidence." The theories of frame semantics used in the FrameNet project originated with Professor Charles Fillmore, while at UC Berkeley, prior to his work at ICSI.

Frame semantic theory categorizes words and ideas based on frames that the words evoke. Some frames are quite simple, such as the Placing frame, which involves an object, the location where it goes, and a word that suggests the object is being put in its place - for example, put, lay, shelve, or file.


In the sample sentence below, the words highlighted in black are frame-evoking words.
  • Thought evokes the Awareness/Cognition frame,
  • might evokes the Likelihood frame, and
  • die evokes the Death frame.
The color-highlighted words are elements of the frame.
  • In the Cognition frame, for example, there is the person who is thinking - I - and the thought - that I might die.
  • In the Likelihood frame, I die is the thing that might happen.
  • In the Death frame, I is the person who may die.

In the mapped image below, the relationship between the frame evoking words and their frame elements is shown in more detail, using the same sentence.



FrameNet annotators strive to document "the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, FrameNet annotators strive to document "the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through computer-assisted annotation of example sentences".

These fully annotated examples are displayed automatically and are being used in a variety of artificial intelligence and Natural Language Processing (NLP) applications.

When using computers to extract semantic information for NLP tasks, FrameNet's semantic mapping provides a means for the computer to extract meaning from a string of words.

Currently, the FrameNet database contains over 10,000 lexical units (word senses), of which more than 6,100 are fully annotated. More than 825 semantic frames are represented and exemplified in over 140,000 sentences.

The data is available through the FrameNet web site and is already being used by researchers around the world, including NLP researchers at ICSI. Srini Narayanan, head of the AI Group, used FrameNet to aid in semantic information detection in the ongoing question-answering project known as AQUAINT, and a new effort by Adam Janin of the Speech Group and Michael Ellsworth of the AI Group will focus on paraphrasing, using FrameNet data to provide semantic information. Last year, Thomas Schmidt, then a visiting German postdoc, created a multi-lingual dictionary of soccer terms, called Kicktionary, using a FrameNet-style semantic analysis of each term. (See www.kicktionary.de for more information.)

A significant improvement to FrameNet is the development of tools to automate much of the annotation process. This is essential to enable the widespread use of FrameNet data in NLP research, as it will allow NLP researchers to quickly annotate the text they are using in their project. FrameNet developers are working to create software that will annotate semantic frame information, as well as collaborating with scientists working on practical applications for FrameNet data.

One such collaboration is with researchers led by Nancy Ide at Vassar, who are working on development of a large corpus of American English called the American National Corpus. The corpus includes a wide variety of language use, both speech and text, covering everything from sermons to sitcoms. The FrameNet team is working on a FrameNet-style analysis of part of this corpus, to provide semantic information for use of the corpus in NLP research. Another collaboration is with a team led by Christiane Fellbaum at Princeton University. Fellbaum's team developed WordNet, an online dictionary which provides less detailed information than FrameNet but for many more words. The NSF-funded collaboration between FrameNet and WordNet will explore theoretical issues involved in aligning the two resources.

......
......

In recent years, FrameNet projects in several other languages have begun. ICSI regularly hosts visiting scientists working to create FrameNet databases in their native languages, which to date include Spanish, Japanese, and German.

shallow semantic language

golput

Saya selalu menggunakan hak pilih. Pemilu, pilkada.. Namun kalau benar prediksi seperti di koran, capres pemilu 2009 hanya SBY dan Megawati, saya mungkin tidak menggunakan hak pilih, GOLPUT.

Gunung Kidul, Jakarta, Tokyo, Washington

Dimanapun kita berada, coba pandanglah langit di atas sana. Amati tanah yang kita pijak. Ternyata langit yang sama, bumi yang sama. Untuk itu kita tidak sepantasnya merasa lebih hebat karena warga Washington, atau lebih rendah karena warga Gunung Kidul.

apa itu data mining?

Definisi2. Gambar. Keterangan gambar.
Unt lebih jelas ada definisi2 bidang lain
Tag: pengantar data mining

satu sampah sehari

Salah satu kontribusi kecil yang bisa kita lakukan adalah: setiap hari pungutlah satu sampah, masukkan dalam tempat sampah. Kalau 1% saja dari kita semua melakukan itu, insya Allah lingkungan jauh lebih bersih.

server email down!

Sepekan ini server email di kampus saya down!
Email merupakan alat komunikasi vital.

ide hobi: merancang tempat sampah

Di lingkungan saya, tempat sampah rumah (untuk sampah yang akan diambil tukang sampah) sangat beragam. Ada yang kantong kresek. Ada yang bikin bak beton, semua sampah "plung" masuk ke situ. Namun semuanya tidak memilah2 sampah. Bagaimana tempat sampah yang murah, praktis, meudahkan tukang sampah mengambil dan mengangkutnya?

Barangkali ada yang tertarik meranacng dan mencoba di lingkunagnnya?
Atau sudah ada yang bisa ditiru?

Perlu kita ikut dua tiga kali dengan tukang sampah keliling mengambil sampah warga, sampai dibuang di TPA agar lebih mengatahui permaslahan yang ada.

Thursday, November 13, 2008

Alain Robert


We set ourselves limits, but we are all strong enough to aim higher, to achieve our goals.
All we have to do is find such strength within ourselves.
Know how to develop it.


Alain Robert
http://www.alainrobert.com/en/index.htm

Tentang Alain Robert bisa dibaca juga di Kompas 13 nov 08, bagian Sosok

Alain Robert, Penakluk Gedung Pencakar Langit

Kamis, 13 November 2008 | 03:00 WIB

Neli Triana

Meskipun lelah luar biasa, wajah Alain Robert tampak berseri-seri. Rabu (12/11), pukul 17.30, ia akhirnya berhasil memanjat The City Tower di Jalan Jenderal Sudirman, Jakarta Pusat, bangunan setinggi 145 meter itu. Seperti ”biasa”, Si Spiderman asal Perancis ini memanjat gedung tinggi tanpa tali atau pengaman apa pun.

Beri saya ruang. Saya merasa amat panas,” kata Robert saat disambut puluhan wartawan dan penggemarnya di pelataran depan The City Tower. Peluh tampak membasahi wajah dan bajunya.

Ia duduk di tengah-tengah kerumunan dan menjawab semua pertanyaan dengan ramah. Sambil terus mengumbar senyum walaupun napasnya sedikit tersengal, Robert langsung menyatakan terima kasihnya kepada semua penonton dan pendukung aksinya.

Sikap rendah hati memang sudah menjadi bagian dari pribadi pemanjat solo yang telah menaklukkan lebih dari 90 gedung pencakar langit di seluruh dunia itu. Tentu saja, semua itu dilakukannya tanpa peralatan pengaman.

Di tengah suasana meriah itu, tiba-tiba seorang polisi berpakaian sipil merentangkan tangan menghalau para wartawan dan membawa Robert kembali ke dalam gedung. ”Kami dari kepolisian. Alain Robert kami bawa untuk diperiksa terkait perizinan aksi panjat gedungnya,” kata polisi tersebut.

Hampir satu jam kemudian, Robert digiring keluar oleh Kepala Kepolisian Resor Metro Jakarta Pusat Komisaris Besar Ike Edwin. Menurut Ike, ada informasi dari Kepolisian Daerah Metro Jaya, Alain Robert belum mengantongi izin untuk aksinya itu. Robert pun pasrah digiring ke Markas Polres Metro Jakarta Pusat untuk dimintai keterangan.

”Tidak apa-apa, saya sudah terbiasa dengan hal-hal seperti ini. Kejadian ini tidak akan pernah bisa menghentikan aksi saya,” katanya, lagi-lagi dengan memasang senyum.

Pantang dihalangi

Alain Robert memang tidak bisa dihalangi oleh siapa pun ketika ia sedang berupaya menggapai impiannya. Usianya belum genap 10 tahun saat ia mulai mengagumi Bonatti, Rébuffat, dan Desmaison. Ketiganya adalah pemanjat tebing tingkat dunia yang terkenal sepanjang masa. Sejak itu, ia hanya punya satu cita-cita, yaitu menjadi pemanjat tebing profesional.

Saat usianya 12 tahun, ia memanjat gedung hingga ke lantai delapan tanpa peralatan pengaman untuk bisa masuk ke apartemennya. Itu dilakukan karena ia lupa membawa kunci.

Orangtua Robert akhirnya menyerah setelah sempat melarang putranya menggeluti hobi yang dianggap membahayakan jiwa tersebut. Robert kemudian mulai giat berlatih di tebing-tebing di kawasan Valence, tidak terlalu jauh dari tempat tinggalnya di Digoin - Saône-et-Loire - Bourgogne, Perancis.

Tidak butuh waktu lama sampai Robert mengukuhkan dirinya menjadi pemanjat profesional. Pemanjatan dengan segala kelengkapan peralatan dan pengaman tubuh makin tidak memicu adrenalinnya. Ia pun memutuskan menjadi pemanjat solo, yang artinya memanjat dengan tangan kosong, tidak ada seuntai tali atau sebuah alat pun untuk menolongnya.

”Dengan menjadi pemanjat solo, kalau kamu jatuh, maka kamu akan mati. Itu pilihannya,” kata Robert dalam situs web resminya, alainrobert.com 2007. Ia cukup berhasil dengan karier barunya itu, hingga dua kecelakaan beruntun menimpa tepat di usianya yang ke-20, tahun 1982.

Pada 18 Januari 1982, Robert terjatuh dari ketinggian 15 meter saat memanjat tebing terjal. Ia menderita patah tulang di kedua pergelangan tangan, hidung, dan telapak kaki. Beberapa bagian tulang lain di tubuhnya pun retak-retak.

Baru saja sembuh, ia kembali memanjat tebing. Namun, pada 29 September 1982, lagi-lagi ia jatuh bebas dari ketinggian 15 meter. Kali ini, dengan kepala lebih dulu membentur permukaan tanah. Robert tidak sadarkan diri, koma selama lima hari. Lengannya patah di beberapa bagian, juga sikunya, serta tulang panggulnya (pelvis).

Selain patah tulang di sekujur tubuh, ia menderita cerebral edema, kerusakan di otak, dan vertigo, penyakit yang memengaruhi telinga bagian dalam. Organisasi Kesehatan Nasional Perancis menyatakan, Robert kehilangan 60 persen kemampuan pendengaran normalnya.

Setelah menjalani enam operasi, nyawanya terselamatkan. Tetapi, tim dokter mengultimatum bahwa Robert tidak bisa dan tidak boleh lagi melanjutkan kegemarannya memanjat tebing.

Namun, Robert tak menyerah pada nasib. Selama masa penyembuhan, ia justru giat berlatih memanjat. Dalam kurun waktu satu tahun kemudian, dia kembali memanjat. Kali ini dengan sesuatu yang berbeda. Bukan lagi tebing batu, tetapi dinding gedung-gedung tinggi yang menjadi sasarannya.

Bagi Robert, memanjat adalah filosofi hidupnya. Ia harus menghadapi dan menguasai rasa takut. Hanya orang itu sendiri yang menentukan batasan hidupnya karena setiap orang sebenarnya berkemampuan untuk mencapai cita-citanya.

”Kapan saya akan berhenti memanjat gedung tinggi? Sebenarnya, saya sedang berpikir untuk segera pensiun,” katanya.

Namun, sedetik setelah itu Robert langsung tersenyum lebar. Matanya berkedip nakal, menandakan ia tak serius dengan ucapannya.


do'a

Tadi malam adikku kejang lagi. Ya Allah, berilah adikku kekuatan. Kesembuhan. Amin.

Wednesday, November 12, 2008

pembunuh amatir

Tidak sulit menemukan "pembunuh amatir" di jalanan.

sopir angkot

Tiga hari ini saya naik angkot, dan beberapa kali melihat sopir angkot tidak mau dibayar, karena yang numpang tetangga, saudara atau temannya.

anggaran, pengadaan

Dalam mengadakan suatu barang/jasa untuk institusi kita, kita bisa lakukan dengan optimal.
Kita gunakan seefektif mungkin. Dengan harga yang wajar. Fungsional

Pengadaan satu jenis barang mungkin senilai dengan bertahun-tahun gaji pegawai cleaning service, tukang kebun! Padahal mereka adalah kepala keluarga.

berapa harga kambing 1.000 tahun yang lalu?

Harganya sama seperti sekarang!
satu sampai dua dinar.

cat:
dinar adalah uang logam/koin emas, dirham adalah uang perak.
info tersebut saya dapat dari buku karangan Zaim Saidi, bahwa harga kambing zaman Rasulullah sama seperti sekarang.
Dari tulisan orang yang sama, di koran saya juga tahu bahwa ONH jika dengan dinar malah cenderung terus turun, sementara kalau pakai rupiah semakin tinggi biayanya.

Ini grafik harga emas terhadap US$


meniru (baca: jangan kalah) dg semangat orang mlm

Orang yang aktif di MLM banyak yang bekerja di kantordi siang hari. Malam mereka menjalankan bisnis MLMnya dengan bersemangat.

Semua muslim wajib menyampaikan (dakwah), menyampaikan kebenaran. Sudah sepatutnya kita jangan kalah semangat dibanding kalau menjalankan MLM.

Misalkan kita membantu mengurus masjid, ikut mengelola sampah di RW dll. Dan ini anggap saja sebagi hobi.


blog dan web page

Corat-coret dengan blog, lalu bisa dituangkan sedikit demi sedikit ke web page/site, misalnya bisa pakai yang cukup bagus dan enak http://sites.google.com

waktu

Masya Allah, waktu terus berlalu. Terasa cepat. Sisa umur semakin berkurang. Rasanya belum lama Kamis, besok sudah Kamis lagi.

hobi

Hobinya apa?

Membaca, sepak bola, nonton film dll..

Hobi merupakan pekerjaan yang menyenangkan: pikiran. Kalau bisa juga menyehatkan. Kalau bisa juga untuk meningkatkan silaturahmi. Kalau bisa juga menambah penghasilan .. dll

Ada banyak pekerjaan yang mestinya bisa dilakukan sebagai hobi (atau diperlakukan seperti hobi), yaitu pekerjaan2 yang bermanfaat bagi masyarakat, namun bisa dibuat menyenangkan (kita nikmati), misalkan
  • mengurus perpustakaan masjid
  • membuat acara-acara anak-anak (event organizer amatir)
  • mengelola sampah RT
  • membuat situs untuk membantu pencarian anak yang hilang
  • mengelola milis komunitas yang bermanfaat
  • .. dll
Informasi-informasi di blog ini dan di banyak tempat lain barangkali bisa menjadi sumber inspirasi apa perkerjaan yang tampaknya diperlukan dan menarik bagi kita.

catatan kecilnya pak Cacuk (alm)

Saya selalu teringat pak Cacuk (alm) pernah bilang selalu menyimpan notes kecil di saku. Kalau ada info, ide dll bisa segera dicatat. Sekarang kita bisa menuliskan itu di HP lalu kirim via email ke blog kita. Sekali kirim hanya sekitar Rp.40. Meski yang dikirim ringkasan saja atau poin2 dulu, belakangan disempurnakan via web. Dengan menampilkan di blog ide, info dll bukan hanya untuk kita, namun insya Allah bermanfaat unt orang lain.

Tuesday, November 11, 2008

optimalisasi masjid kampung dan kantor/kampus

Di Indonesia jumlah masjid sangat banyak, dan tdk sedikit yg bangunannya bagus. Namun sy lihat banyak yg belum dimanfaatkan optimal. Jika banyak masjid sudah optimal alangkah dahsyatnya, . Masjid kampus/kantor juga dimakmurkan oleh karyawan. Di kampus mestinya bukan hanya mahasiswa saja yang memakmurkan masjid. Memakmurkan di sini disamping menjadi jamaah shalat adalah bagaimana membuat kegiatan keislaman, salah satunya sebagai pusat agar kehidupan di kampus lebih islami. Membuat laboratorium2, atau kerjasama dengan lab yang ada, misalkan "Pusat penelitian pemanfaatan teknologi untuk al Qur'an", penelitian-penelitian tentang sejarah Islam dll

jenis jenis cost sensitive learning

Ada beberapa pendekatan: black box, transparent box. Kalau untuk imbalance istilahnya “manipulasi data” dan “manipulasi/modifikasi algorithm”. Kalau pada feature selection ini seperti filter-based dan wrapper-based.

Selain black box vs transparent box bisa sudut pandang lain: relabeling, sampling, weighting. Relabeling dan sampling adalah black box, sedangan weighting adalah transparent box.
[sebutkan sumbernya]

Relabeling artinya melabel ulang kelasnya, (misal algoritma …)
Sampling: melakukan sampling sehingga distribusi antar kelas (atau instance) berubah.
Weighting artinya member bobot yang berbeda antar instance saat pembangunan model.

Pendekatan sampling merupakan yang cukup mudah dilakukan. Dan kelebihan lain bisa menggunakan classifier yang ada. Karena sampling dilakukan pada preprosesing.

Contoh yang menggunakan Sampling adalah algoritma Costing, dan cost-proportionate roulette sampling (CPRS). Pada algoritma Costing menggunakan rejection sampling, dan pada algoritma CPRS menggunakan roulette sampling.

Apa itu rejection sampling? Ini slide singkat yang dibuat Sugi. ppt
Apa itu roulette sampling? Ini banyak digunakan di algoritma genetika (GA) saat mutasi.

[buat slide roulette sampling, menyusul]

Penggunaan sampling biasanya diikuti dengan bagging (pada Costing dan CPRS)
Sampling pada cost sensitive learning ini pada prinsipnya sama dengan sampling pada imbalance problem.

Cost sensitive learning

Setiap Senin saya ketemu dengan Sugi, mhs yang sedang melakukan penelitian dengan saya sejak semester lalu. Topiknya “cost sensitive learning”. Yaitu klasifikasi dengan memperhatikan misclassification cost. Atau kalau dilihat dari sudut pandang lain: “true-classifiation” benefit (yi lawan dari cost).

OOT: apa ya istilah yang digunakan untuk misclassification? Miskomunikasi, istilah kebalikannya apa?

Salah satu bentuk misclassification yang banyak dipakai adalah menggunakan misclassification matrix, disingkat dengan “cost matrix”. Misclassification cost disingkat “cost”.
Dan biasanya topik cost-sensitive learning ini dikaitkan dengan topic “permasalahan klasifikasi jumlah instance antar kelas yang tidak imbang” (imbalance class problem).

[buat posting: imbalance problem vs cost sensitive learning]

OOT: bahasa Inggis yg lebih bagus/baku apa? Imbalance atau unbalance? Di data mining biasanya “imbalance”, namun ada yang mengatakan bahwa sebenarnya dari sisi bahasa yang lebih tepat adalah “unbalance”. Coba cari dengan Google “imbalance” dan “unbalance”, maka yang terakhir yang lebih banyak digunakan.

Untuk klasifikasi biner (dua kelas):
[buatlah gambar cost matrix di sini]

Di sini, ada empat jenis benar salahnya tebakan: TP, TN, FP, FN. Biasanya TP dan TN tidak ada costnya.

Sehingga hanya ada dua yang ada nilai costnya FP dan FN. Nilai FP dan FN bisa berbeda. Kedua nilai itu didapatkan memang dari permasalahan (atau dari user), kita tinggal ambil/pakai. Nilai2 itu bukan dari data, lalu kita proses sehingga menghasilkan nilai FP, FN.
Bagaimana kalau multiple-class (ada lebih dari dua nilai kelas)?

Contoh kasus yang sangat menarik adalah di kompetisi Data Mining Cup 2008. Di sini multi-class (kaau ngga salah ada lima kelas), ada imbalance, ada cost. Sayangnya kasusnya yang nggak enak: tentang lotere. Coba saja download data, keterangan permasalahannya. Beberapa mhs ITTelkom ikut kompetisi ini. Hasil mereka bisa dilihat di web site komptesisi. Cara mereka menyelesaikan permasalahan bisa didownload di sini. […………….]

O ya, bagaimana kalau multiple-class (ada lebih dari dua nilai kelas)?
Ini contoh table cost matrix dari kompetisi Data Mining Cup 2008.

[cost matrix DMCup 08]

Tampak jelas bahwa kolom dan baris matrixnya sekarang sebanyak/sebesar jumlah nilai kelasnya. Tidak ada kelas positif, kelas negative sehingga tidak ada FP dan FN. Ya bisa kita beri nama misclassification costnya misalkan kita beri nama AB, artinya kalau true class nya: A predicted: B.

Mengapa cost-sensitive penting? Lebih mendekati kebutuhan riil?
Karena evaluasi performansi klasifikasi akan lebih riil (lebih berguna bagi user) bila nilainya adalah cost (atau benefit), bukan error (atau akurasi).

Yang lebih generik lagi dibandingkan cost-matrix seperti yang di Data Mining Cup 08 adalah bila kolom dan baris matrixnya sebesar jumlah instance. Jadi ada mapping antara semua instance ke semua instance yang lain (termasuk juga ke diri sendiri). Matriksnya N x N, dimana N adalah jumlah instance. Seperti matriks-matriks sebelumnya yang dipakai adalah separo saja (matriksnya simetri).

[gambar marix NxN)

Bagaimana kalau permasalahannya seperti pada churn prediction?
Dimana nilai yang ada adalah nilai atribut (satu dimensi) bukan berupa matrix?
Mana nilai cost/benefitnya? Bagaimana kita mengubah menjadi cost matrix?

[to be continue in other posting]

contrast untuk text

Bagaimana kita mendeteksi perbedaan antara dua buah dokumen teks?

(lebih lanjutnya lagi: antara beberapa? Antara dua himpunan?)

Untuk contrast mining (bukan teks) sudah cukup banyak (contoh tutorial tentang itu)
(yang sedang dicoba dikerjakan di ITTelkom)

co-author: guru bahasa Inggris

penlu

belajar di masjid bakda subuh

Di masjid dekat rumah (al Muhajirin, Suryalaya, Buah Batu Bdg) ada kebiasaan bagus. Setiap bakda sholat Subuh berjamaah, bbrp orang ngariung mengkaji Islam. Baca hadits dll.


Unfortunately, I havent join them yet. Most of them are "senior citizen" (retired). I have plan to bring my netbook and "do something" (write, read) there for about one hour. It could be exciting.

ide penelitian: "jebakan" situs porno

Buatlah situs2 yg berperingkat tinggi saat disearch dg keyword2 seputar porno.

Bbrp orang surfer adalah tipe yg tersesat, atau tergoda. Mereka target sasarannya.

Situs2 yg kita buat dirancang yg menarik, menggugah, mengingatkan.

mana?

Kebanyakan karya, tulisan (utamanya bidang IF) di penerbitan internasional (utamanya penerbitan terkemuka) adalah saat dia S3, atau saat ada di univ di luar negeri.

Aku malu. Mana kontribusiku?
Malu saja tidak menyelesaikan masalah!

Lihat Obama yg bersemangat, optimis.

ilmuwan indonesia

Ini salah satu contoh ilmuwan Indonesia: Hadi Nur. Salut!
Bacalah posting-posting di blognya seputar penelitian. Menarik.
"Sayangnya" disiplin ilmunya beda dg saya. Dia Kimia, sy IF.

Dan ternyata istri mas Nur Hadi ini teman dekat istri sy.
(istri sy yg selalu mendorong, mendukung sy untuk terus belajar. Matur nuwun nggih.)

clean as you go (lagi)

Melanjutkan posting sebelumnya. ini

Disamping "clean as you go" merupakan kebiasaan terpuji. Akhlakul karimah. Juga ini sangat penting: berapakah gaji CS (cleaning service) yg selalu kita bebani agar merapikan tempat rapat etc?

Unt mhs: rapikan kembali ruang kelas, ambil sampah.

Tanyakan kepada CS berapakah gaji mereka!
Bandingkan dg misalkan pengeluaran pulsa kita sekeluarga.

boss, kami ingin sejahtera

Karyawan kpd atasan atau perusahaannya menuntut kesejahteraan. Itu wajar, dan memang hak karyawan (kewajiban perusahaan). Serikat pekerja didirikan jg utamanya unt itu.

Untuk itu kita juga harus sadar, kebanyakan kita yang sudah berkeluarga juga punya karyawan: PRT (pembantu rumah tangga). SUDAHKAH KITA MEMPERHATIKAN KESEJAHTERAAN MEREKA? Posisi mereka sangat lemah. Tidak ada kontrak kerja, tidak ada serikat pekerja, banyak orang menganggur shg para boss (kita) bisa sewaktu2 memberhentikan mereka, tanpa jam kerja jelas (bisa 24 jam sehari), tanpa job desc yg jelas.

Monday, November 10, 2008

perjalanan dari Caringin ke Dayeuh kolot

Perjalanan yang kurang dari satu jam.
Naik angkot, becak.
Kemiskinan, kesemrawutan yg tampak jelas.
Adakah keprihatinanku, kepedulianku?

unt PKS ttg situs web porno

Kebetulan bbrp teman adalah aktivis PKS. Sy sampaikan ke mereka spt di bawah. Juga unt organisasi lain sy mempunyai harapan serupa agar proaktif, bahu membahu mengatasi problem besar ini.

Sy pernah baca kalau Depkominfo telah mem-blok situs2 porno. Namun kenyataannya bahkan situs porno populer spt playboy pun masih bisa diakses (sy coba dg Speedy). Mohon info mengapa? Bgmna sikap PKS?

Sy pernah baca di headline Republika bahwa dg UU ITE, provider internet dll harus memblok situs2 itu, jk tdk dendanya besar. Sebaiknya PKS punya tim khusus isu pemblokiran situs2 porno, terdiri dr orang2 hukum, teknis, sosial. PKS melakukan pendekatan ke ISP-ISP dll, kalau mrk tdk mau, dicari upaya hukum (misal menuntut mereka ke pengadilan). Menggalang demo KHUSUS ISU SITUS PORNO. Dan upaya2 lain. Sy sangat prihatin, bayangkan dlm 5 menit sj kita orang awam bisa temui sangat banyak FOTO dan VIDEO yg SANGAT VULGAR. Dan ada yg mengatakan sumber utama VCD porno adalah internet.

laskar ngelangi

naufal, sefina, raisya, afina, akmal, diva
9 nov 08

*ngelangi = berenang (bhs jawa)
mrk habis berenang, setiap Ahad sering berenang bersama

ide penelitian: kontras dalam teks

Ada suatu isu, apa perbedaan antara satu pihak dengan pihak lain? Misalkan kasus Bom Bali, apa perbedaan tulisan-tulisan di Koran Kompas dan Republika? Atau antara sekelompok Koran dengan sekelompok lainnya. Setelah dilihat/diuji masing-masing kelompok mempunyai kemiripan yang tinggi.

ide penelitian: kronologi

Bagaimana kronologi Pemilu AS? Bagaimana kronologi (perjalanan karir) Obama? Bagaimana kronologi peristiwa bom Bali hingga saat ini.

Jika ada sekumpulan berita seputar suatu isu, bagaimana kita membuat kronologinya?
Bagaimana sih bentuk/representasi kronologi yang mudah dibaca (dan syukur-syukur mudah dibuat) itu?

Ide penelitian: Siapa saja yang bernama Obama?

Dalam tayangan di TV saya lihat: saat Barack (atau Barrack?) Hussein Obama berusia sekitar 25 tahun dia “pulang kampong” ke Kenya untuk pertama kalinya dalam hidupnya. Dan dia merasa di rumah sendiri saat berada di Kenya, karena al. banyak orang yang mempunyai nama yang sama/mirip dengannya.

Siapa saja orang yang namanya sama/mirip dengannya?

Cari di search engine? Cara ini susah. Kalau kita mencari dengan Google dengan kata kunci “Obama” maka yang muncul hampir semua adalah Obama “yang itu”.

Jika ada sekumpulan artikel berita, ada bebapa nama disitu, kemudian kita diminta untuk “select distinct orang” bagaimana kita menampilkan daftar orang disitu? Kalau nama sama namun itu orang yang berbeda harus ditampilkan terpisah.
Pekerjaan terkait/mirip: WSD.

OOT: saat ini saya ketik “Obama” menggunakan MS Word, dia tandai merah (tidak dikenal), kalau kita minta saran perbaikannya adalah “Osama”! Demikian juga "Barack" disarankan "Barrack". Memang karir Obama menanjak drastis, yang beberapa tahun lalu “tidak dikenal sama sekali” sekarang menjadi presiden AS. Dan tidak terbayangkan sebelumnya ada presiden AS yang mempunyai nama ada “Hussein”nya.

bom bali

Amrozi, Ali Ghufron dan Imam Samudera telah dieksekusi mati tadi malam, beberapa hal yang ingin saya tulis terkait itu, sebatas pengetahuan saya. Di sini saya ingin memisah-misahkan satu dengan lain, poin satu dengan yang lain dianggap tidak terkait. Harusnya satu dengan yang lain terkait. Silahkan dicoba mengintegrasikan sendiri..

• 200an orang meninggal karena bom Bali. Banyak yang cedera. Baik orang asing maupun orang Indonesia. Baik yang muslim maupun yang non muslim. Dari ratusan orang itu berapa banyak anggota keluarga yang ikut menderita karena ayah/anak/teman/ibu/… yang meninggal atau cedera. Cedera, cacat itu bukan hal yang enak! Sakit, menderita, kehilangan pekerjaan dll. Semuanya yang meninggal dan menderita itu adalah warga sipil. Bom diledakkan bukan di lokasi perang. Meskipun di lokasi kemunkaranpun (misalkan di lokasi judi+pelacuran+yang kumpul para koruptor), pihak yang meledakkan bom dahsyat seperti itu harus dikutuk! Dan yang saya yakini Islam mengutuk perbuatan keji itu.

• Haram hukumnya membunuh manusia tanpa alasan yang benar. Alasan yang benar terutama adalah dalam perang, dimana kita dalam posisi yang benar.
o Banyak orang yang tidak tahu apa-apa, termasuk yang yang sedang melintas, tewas akibat bom.
o Amrozi, Ali Ghufron/Mukhlas dan Imam Samudra dibunuh/dieksekusi. Apakah ini sesuai/setimpal?
Jika mereka sebenarnya tidak meledakkan bom dahsyat, namun hanya bom kecil saja: mungkin saja tetap ada yang tewas. Eksekusi mati itu bisa saja dianggap sebagai “penebus dosa” bagi mereka.

• Amrozi dkk tidak memperlihatkan penyesalan yang mendalam atas jatuhnya korban diluar target mereka. Target mereka adalah orang-orang bule. Penyesalan yang mendalam bisa diwujudkan al. ucapan penyesalan yang sungguh2, membantu mereka yang cedera dll.

• Amrozi dkk menyatakan secara eksplisit memang berniat mau membunuh orang. Dan jikapun ternyata bom dahsyat itu bukan buatan mereka, mereka tidak menyesal atau “menyalahkan” pihak lain. Misalkan begini: “Kami hanya mau membunuh beberapa orang tertentu dengan bom kami, ternyata yang bom meledak kok sangat dahsyat. Pasti ada pihak lain yang membuat bom itu dan ikut meledakkannya. Kami sangat menyesal atas jatuhnya korban diluar target kami… bla bla bla”, tapi tidak, mereka tidak menyesal, mereka tidak menyatakan hal semacam itu.

• Amrozi dkk heran mengapa bom yang meledak sangat dahsyat, diluar perkiraan mereka. Beberapa pihak menyatakan bom dahsyat yang meledak di Bali itu hampir mustahil dibuat oleh Amrozi dkk.

• Yang dianggap, dituduh bertanggung jawab (baik oleh pengadilan, banyak komponen masyarakat, termasuk kalangan internasional) atas meledaknya bom dahsyat itu adalah Amrozi dkk . Tidak ada penyelidikan, penjelasan serius atas keganjilan ini: mengapa bom yang meledak sangat dahsyat.

• Ketidakadilan yang mencolok atas sebagaian kalangan (Barat) atas kalangan yang lain (utamanya muslim). Lihat di Palestina: pemilu yang syah tidak dianggap, Irak dijajah diinvasi tidak peduli bahwa tindakan AS menentang PBB, penjara rahasia dan Guantanamo yang berisi orang-orang Islam, Afghanistan diserbu dan masih banyak lagi. Rasulullah SAW dilecehkan. Ini membuat banyak orang Islam benci, marah.

• Pembantaian atas umat Islam di Maluku tidak ditindaklanjuti dengan serius. Bahkan Manuputti salah sau yang dianggap paling betanggung jawab lari ke AS dan sekarang dilindungi pemerintah AS.

• Tingkat korupsi yang lebih tinggi di negara-negara muslim dibandingkan dengan negara Barat.

• Kerjasama antar negara muslim yang lemah. Bahkan kadang cakar-cakaran sendiri.

• Orang Islam punya kitab suci al Qur’an, punya Rasul Muhammad SAW. Dengan mempraktekkan ajaran Islam yang sesungguhnya, dengan upaya yang sungguh-sungguh, insya Allah orang Islam bisa menjadi teladan bagi orang lain, ajaran Islam menjadi penerang bagi kesejahteraan, kedamaian.

Masjid Al Muhajirin Suryalaya Bdg, Ahad 9 Nov 08 pk.12.15 s/d 13.10