Wednesday, December 31, 2008
Saturday, December 20, 2008
Tuesday, December 16, 2008
sayang lemparannya meleset
Sunday, December 14, 2008
tulisan pelabelan peran semantik secara manual
Friday, December 12, 2008
Thursday, December 11, 2008
diskusi summarization
Diskusi tadi pai al. membahas.
* apa perbedaan LexRank dengan TextRank?
Pada paper LexRank ada tida teknik: pertama yang sederhana, kedua menggunakan PageRank, ketiga continuos. Yang paling utama adalah yang kedua. Dari konsep yang disampaikan pada tulisan LexRank dan pada tulisan TextRank pebedaanya hanyalah: LexRank untuk multi-document dan Textrank untuk single-document. Pada implementasinya untuk mengatasi tantangan informasi ganda untuk multi-document, LexRank menerapkan juga "reranker" setalah dilakukan perankingan menggunakan "PageRank-based". Kemudian juga pada paper LexRank ada tambahan informasi bagaimana PageRank direpresentasikan menggunakan matriks. Dengan representasi matriks operasi dan implementasinya bisa terbantu/lebih mudah.
* beberapa kemungkinan untuk memperbaiki akurasi LexRank dan TextRank.
* timestamp graph.
* evaluasi menggunakan Rouge.
Wednesday, December 10, 2008
sentiment classification
Sentiment=perasaan, emosi. Terkait erat dengan itu adalah "opini/pendapat"
Salah satu pelopor awal penelitian tentang klasifikasi sentimen adalah Bo Pang et. al. (Bo Pang, Lillian Lee, Shivakumar Vaithyanathan: Thumbs up? Sentiment Classification using Machine Learning Techniques. CoRR cs.CL/0205070, 2002). Dalam tulisan ini mereka menyampaikan pentingnya klasifikasi sentimen. Dikatakan juga bahwa menggunakan teknik-teknik machine learning standar, seperti SVM dan Naive Bayes menghasilkan akurasi yang lebih baik dibandingkan dengan klasifikasi yang dilakukan oleh manusia. Namun lebih jelek dibandingkan kalau teknik-teknik itu digunakan untuk klasfikasi topik. Klasifikasi topik adalah "klasifikasi teks pada umumnya" atau lebih umum disebut kategorisasi teks. Dalam tulisan sentimen, ada hal-hal spesifik yang perlu digali/dioptimalkan agar akurasinya lebih baik, misalkan bagian-bagian kalimat yang menunjukkan opini. Sehingga salah satu pendekatannya adalah pada praprosesingnya (misalkan memanfaatkan NLP) dengan tetap menggunakan teknik machine learning standar. Sebagai contoh, diidentifikasi jenis kata yang dianggap mengindikasikan adanya opini.
bagaimana penelitian lebih lanjut tantang sentiment classification ini, al. bisa dilihat dengan Google Scholar dengan kata kuncil judul tulisan diatas "Thumbs up? Sentiment Classification using Machine Learning Techniques", kemudian klik tulisan apa saja yang merujuk ke tulisan ini. barusan saya lihat: ada 446 tulisan!
Terkait dengan sentiment classification adalah "opinion mining", yaitu menghasilkan summary dari tulisan, dimana summarynya adalah opinion yang ada di tulisan itu. Ini pekerjaan yang lebih sulit dibandingkan sentiment classification.
Sunday, December 7, 2008
Jalur peneliti
Beberapa contohnya yang kebetulan saya lihat:
Regina Barzilay, Min-Yen Kan.
Friday, December 5, 2008
ICADIWT 2009, paper due Jan 10 2009
London, United Kingdom, August 4-6, 2009
http://www.dirf.org/diwt2009/
IMPORTANT DATES
Submission Date: Jan 10, 2009
Notification of acceptance Two months from submission.
Camera-ready One month from notification.
Registration Two months from notification.
Conference date: August 4-6, 2009
AIPR-09, paper due: Feb 2 2009
International Conference on Artificial Intelligence and Pattern Recognition
http://www.promoteresearch.org/2009/aipr/index.html
Draft paper submission due date is extended to: February 2 2009
Acceptance/rejection decision: March 2 2009
Camera ready paper submission and pre-registration: April 6 2009
Conference: July 13-16 2009
SAW 09, paper due: 1 Feb 09
http://bis.kie.ae.poznan.pl/12th_bis/wscfp.php?i=9&ws=saw2009
* Long papers: max. 12 pages
* Work-in-progress reports: max. 6 pages
* Demo papers: max. 4 pages
IMPORTANT DATES
* February 1, 2009 - submission deadline for papers
* February 22, 2009 - notification of acceptance/rejection
* March 15, 2009 - submission of final papers
* April 27, 28 or 29, 2009 - the workshop
Discovery Science 2009, paper due 10 may 09
The 12th International Conference on Discovery Science (DS-2009)
Important Dates
Submission deadline: 10 May 2009
Notifications: 21 June 2009
Camera-ready copy: 10 July 2009
Conference: 3-5 October 2009
kita sudah mengambil nomor giliran dipanggil
Masih muda.
Badannya segar.
Suatu hari didiagnosa dokter: sakit kanker.
Tiga pekan kemudian meninggal.
Hari ini, badan kita segar.
Semoga usia kita dipanjangkan. Berdoa dan berikhtiar.
Semoga sisa umur kita bermanfaat.
Namun yang pasti, sejak hari pertama lahir kita sudah mengambil nomor giliran dipanggil.
Entah kapan.
Sunday, November 30, 2008
Educational Data Mining, paper due 31/3/09
Paper submission: March 31, 2009
Acceptance notification: May 1, 2009
Camera ready paper: May 20, 2009
Conference: July 1-3, 2009
ASONAM 09, 10 Des 08 abstrak
July 20-22, 2009http://www.asonam.org
including, but not limited to:
...- Preparing data for Web mining
- Web mining algorithms...
IMPORTANT DATES:
December 10, 2008: Abstract submission deadline.
January 30, 2009: Full papers due.
March 15, 2009: Notification of acceptance of papers.
April 7, 2009: Camera-ready paper deadline.
April 7, 2009: Conference registration deadline for authors presenting papers.
Saturday, November 29, 2008
AIEMPro09 London
London, 6-8 May 2009
Tentative deadlines:
Paper submission: 11 January 2009
Notification of reviews: 1 February 2009
Final camera ready (this is a STRICT DEADLINE): 13th February 2009
Areas of Interest (not limited to):
....
Automated news production
Content summarisation (e.g., sports highlights)
....
send the paperin PDF format DIRECTLY to the organisers by e-mail.
Organisers:
Alberto Messina (RAI CRIT) a.messina@rai.it
Jean-Pierre Evain (European Broadcasting Union) evain@ebu.ch
Robbie De Sutter (VRT medialab) robbie.desutter@vrt.be
Friday, November 28, 2008
IJCBS'09 Shanghai
Important Dates
Paper Submission : February 15, 2009 (maximum 8 pages with IEEE/CS conference format)
Notification to Authors: March 15, 2009
Camera-Ready, Full Papers: April 5, 2009
mapping kata dasar..
Komputerisasi pengetahuan keislaman (khususnya al Quran)
Saya sudah menawarkan ke teman2, ada juga yang cukup berminat namu belum tindak lanjut..
Juga masjid kampus sebenarnya bisa sebagai "koordinator"... ini juga sudah saya lontarkan ke pengurus masjid.
Barusan saya terpikir lagi salah satu pekerjaan terkait komputerisasi al Quran. Dalam computional lingustics ada proyek pembangunan corpus dengan anotasi2 peran semantik spt misalkan PropBank. Saya pikir kita akan sangat terbantu kalau al Quran, hadits dll diberi anotasi, baik itu peran semantik seperti PropBank itu atau yang lain. Nanti aplikasinya cukup banyak. Ini butuh waktu lama, dan terus menerus.
konferensi di Indonesia
Beberapa komentar:
* Acara akademik seperti ini sangat bagus.
* Kebanyakan lingkup konferensi di Indonesia terlalu luas, termasuk SNIKA ini.
* Lebih baik namanya adalah Konferensi... bukan Seminar...., karena maknanya beda, lihat di petunjuk IEEE dll. Beberapa acara serupa di Indonesia dinamakan seminar seperti ini..
* Hampir semua konferensi di Indoensia sulit ditemui paper fulltext softcopynya, berbeda dengan konferensi di luar negeri. Baik itu di web site konferensi maupun web site pengarang. Prosiding hanya tersedia versi cetak. Sangat sangat, penyebaran ilu jadi sulit.
* Program/acara kebanyakan konferensi di Indoensia cenderung hanya: seminar dan presentasi paralel dari hasil CFP. Sangat bermanfaat kalau ada: tutorial, panel diskusi akademik dll. Kita bisa contoh konferensi2 internasional yang sudah mapan. (misal konferensi KDD)
* Untuk panel seminar, konferensi2 di kita cenderung menghadirkan "selebriti"/pejabat, bukan pakar.
* Saya pernah bincang2 dengan seseorang, andaikata banyak peneliti/dosen dari universitas2 tidak terkenal namun menghasilkan karya bagus. Ternyata kemarin ada pak Mauritsius Tuga dari Universitas Katolik Widya Mandira, Kupang yang bagus dan serius penelitiannya. Beliau mendalami "timetabling problem".
DEXA 2009
Database an Expert Systems Applications
August 31 – September 4, 2009
* Submission of abstracts: March 1, 2009
* Submission of full papers: March 8, 2009
* Notification of acceptance: May 22, 2009
* Camera-ready copies due: June 10, 2009
Wednesday, November 26, 2008
sentiment/opinion analysis
http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html
standar penulisan daftar pustaka
Huruf besar pada setiap awal kata
[1] Anderberg, M.R. Cluster Analysis for Applications, Academic Press, Inc. New York, 1973.
[2] Bar-Yossef, Z. and Rajagopalan, S. Template Detection via Data Mining and its Applications, WWW 2002, 2002.
Huruf besar hanya pada huruf awal.
[4] Beeferman, D., Berger, A. and Lafferty, J. Statistical models for text segmentation. Machine learning, 34(1-3), 1999.
[5] Broder, A., Glassman, S., Manasse, M. and Zweig, G. Syntactic clustering of the Web, Proceeding of WWW6, 1997.
Untuk sesama hasil konferensi
Pakai "Proceeding of ..."
[8] Davision, B.D. Recognizing Nepotistic links on the Web. Proceeding of AAAI 2000.
Tidak pakai "Proceeding of ..."
[13] Lee, M.L., Ling, W. and Low, W.L. Intelliclean: A knowledge-based intelligent data cleaner. KDD-2000, 2000.
Fwd: [Dbworld] International Conference on Business Data Mining
From: Raja Velu <rpvelu@syr.edu>
Date: Wed, Nov 26, 2008 at 2:31 AM
Subject: [Dbworld] International Conference on Business Data Mining
To: dbworld@cs.wisc.edu
The International Conference on Business Data Mining will be organized
during 28th -31st December 2008 at the Indian School of Business Hyderabad.
The conference is organized by C. R. Rao Advanced Institute of Mathematics,
Statistics and Computer Science, with supports from DST(GoI)and CM:
http://home.iitk.ac.in/~mayankv/DM_conference_final/index.htm
The conference will be preceded by a week -long workshop on demonstration of various data
mining techniques: http://home.iitk.ac.in/~mayankv/Web_DM_Maam/index.htm
_______________________________________________
Please do not post msgs that are not relevant to the database community at large. Go to www.cs.wisc.edu/dbworld for guidelines and posting forms.
To unsubscribe, go to https://lists.cs.wisc.edu/mailman/listinfo/dbworld
sikat gigi bayi
ide penelitian: sentence selection, feature selection
Tuesday, November 25, 2008
Resepsi pernikahan: salut untuk Aa Gym
[gb dari jawapos]
Aa Gym Mantu, Disuguhi Bakso Tahu
http://www.surya.co.id/web/Berita-Utama/Aa-Gym-Mantu-Disuguhi-Bakso-Tahu.html
Monday, 24 November 2008
Sekarang musim pesohor menikah jor-joran. Tetapi Abdullah Gymnastiar (Aa Gym) menabrak kebiasaan itu. Saat menikahkan anak perempuannya, Ghaida Tsurayya, 20, dengan Harpinadi Ihram, 24, justru konsep sederhana yang dibuat Aa Gym. Dia ingin memberikan contoh jika pernikahan tidak mesti dirayakan dengan glamor.
Sebenarnya pernikahan ini akan berlangsung setelah Aa Gym menjalankan ibadah haji. Namun untuk efisiensi, maka resepsi dilakukan Minggu (23/11). “Pernikahan ini kami buat sederhana begitu pun makanannya. Ada 22 gerai para pedagang kaki lima,” tutur Aa Gym sehari sebelum menikahkan anaknya, Sabtu (22/11).
Benar saja, saat resepsi berlangsung di Gedung Central V Komplek Pesantren Darrut Tauhiid, para pedagang kaki lima yang biasa mangkal di Gegerkalong diusung.
Makanan yang disajikan adalah makanan rakyat seperti bakso tahu, kue-kue, hingga tutug oncom. Makanan untuk para pejabat dan tamu undangan lainnya tidak akan dibedakan. Semua pedagang melengkapi diri dengan nama menu dan identitas pedagang.
Meski dikemas sederhana, masyarakat yang ingin menjadi saksi pernikahan itu sangat banyak. Menurut pantauan Tribun Jabar yang satu grup dengan Surya, diperkirakan sekitar 2.000 orang datang. Ini membuat Jalan Gegerkalong sempat tertutup padahal Aa Gym sudah berpesan agar tak perlu menutup jalan.
Selama akad nikah, mempelai pria dan wanita dipisahkan. Harpinadi Ihram duduk di depan berhadapan dengan Aa Gym, petugas KUA, dan Ustad Yusuf Mansyur yang menjadi wali nikah Harpinadi. Mempelai wanita, Ghaida duduk di belakang Harpinadi dengan jarak kurang lebih empat meter. Ghaida didampingi oleh ibunya, Ninih Muthmainnah yang sering disapa Teh Ninih, istri pertama Aa Gym.
Tempat duduk para tamu dibagi dua dan dipisahkan sekat. Sebelah kanan untuk laki-laki dan sebelah kiri untuk perempuan. Acara resepsi juga dibagi menjadi dua sesi. Pukul 10.00-12.00 WIB untuk undangan Aa Gym dan pihak besan. Pukul 12.00-15.00 WIB waktu untuk teman-teman Harpinadi dan Ghaida.
Ghaida dan Harpinadi yang bekerja di Jogjakarta, bertemu empat bulan lalu ketika umroh. Setelah menikah, mereka akan tinggal di Bandung.
Tampak di antara undangan Menpora Adhyaksa Dault, Hadad Alwi, dan Syam Bimbo. Tetapi Alfarini Eridani, istri kedua Aa Gym, tidak tampak hingga resepsi berakhir. Menurut kabar, dia tak datang karena tak bisa meninggalkan bayinya yang baru dilahirkan beberapa minggu. tribun jabar/krisdiantoro
= = =
tambahan dari Kompas:
http://www.kompas.com/read/xml/2008/11/23/20372172/pernikahan.putri.pertama.aa.gym.menyedot.perhatian
...
Para tamu udangan disuguhi nyanyian religi kelompok musik Ummy Maqtum Voice, yang semua anggotanya tunanetra. Aa Gym tampak sangat menikmati lagu-lagu mereka yang menyetuh hati. Beberapa kali ia tampak kaget ketika tamunya hendak berjabat tangan. Ada banyak menu pilihan di sana. Mulai dari mie kocok, sate padang, batagor Bandung, pem pek sampai es krim
ide penelitian: menyusun "sejarah"(?)
Dekonstruksi Sistem Kekuatan Keuangan Dunia: Analisis dari sudut pandang lain.
semprot lubang jalan
Salah satu upaya yang bisa kita lakukan untuk mengurangi kecelakaan karena jalan berlubang, terutama untuk lubang yang membahayakan adalah dengan menyemprot menggunakan cat yang jelas (misal spotlight warna terang). Untuk itu bagusnyakita bawa-bawa cat semprot itu, kita taruh di kendaraan kita, kalau kita ketemu di jalan dan memungkinkan, kita berhenti sejenak untuk menyemprotnya.
Seperti yang dilakukan mas Handy Hermansyah pada foto di atas, namun akan lebih baik kalau disemprot lebih banyak ke lubangnya, warna yang lebih mencolok dan spotlight dan lebih praktis menggunakan cat semporti (eg. pylox). http://www.karbonjournal.org/id/archives/detail.php?ID_focus=12
peduli...
Pagi ini saya sampai di kampus pk.7.45. Matahari sudh bersinar terang, namun cukup banyak lampu yang masih menyala. Beberapa orang (pagi in saya lihat mahasiswa) lewat. Mestinya mereka bisa mematikan lampu itu sambil mereka lewat. Ternyata tidak, dan ini cukup sering saya jumpai.
Kita sudah semestinya peduli akan hal-hal menskipun kecil
ide riset: Indonesian word list
Download our Indonesian word list for use in spell-checkers here. Read the Installation notes.
Bisa terus menerus ditambah dengan melakukan parsing web page yang menggunakan bahasa formal (misalkan koran). Lebih menarik kalau kemudian diklasifikasikan, misalkan apakah termasuk kata kerja, nama orang dst. Klasifikasi bisa hirarkis dan multilabel.
Lebih lanjut lagi juga mencakup yang non-formal (bahasa gaul) dan singkatan-singkatan.
Secara terus menerus mengambil kata yang ada dari beberapa situs web (misalkan dari koran-koran) diambil kata-kata yang dipakai. Kita buat daftar kata. Berapa frekuensinya. IDF. Kata-kata yang salah ketik.
Apa fungsinya, al:
pengganti "stemming"
membantu spelling checker
analisis, misal: kata yang sering dipakai, yang sering salah ketik...
xx
Kita bisa mencari keluarga kata itu.
menyederhanakan matrix pada cost sensitive learning
[contoh, perlihatkan kasus dan cost matrix DMCup 2008)
[penjelasan penghitungan]
[referensi]
cost pada cost sensitive learning
[penjelasan]
[contoh]
[referensi]
relawan masjid, pengurus masjid
* pengalamanku beberapa masjid dekat tempat tinggal: di Purworejo (masjid Kauman), di Yogya (masjid Karangkajen), di kos-kosan (masjid Bagusrangin), di kantor (masjid Kantor Pusat Telkom Japati), di Zamrud (masjid Mutumanikam), di Suryalaya (masjid alMuhajirin) ....
[ceritakan secara ringkas]
Dari semua pengalaman saya di masjid di atas ada beberapa hal krusial yang belum optimal.
* [ide]
Monday, November 24, 2008
Saturday, November 22, 2008
Di daerah sendiri bingung arah kiblat
Coba lihat dari wikimapia.org, bisa dilihat Bandung, termasuk jalan Buah Batu.
Bisa dilihat blok2 jalannya tidak kotak2, arahnya juga tidak utara-selatan, timur-barat. Dan juga sering pelan-pelan belok (tidak panjang lurus).
Rumah saya bisa dicari: search " "Moch Arif Bijaksana" pada Wikimapia.
ranking pencarian di Google
Coba cari "Data Mining and Applied Statistics Research Group". Bandingkan antara Google dengan Yahoo.
Dan beberapa contoh dan keyword lain yang telah saya amati.
Friday, November 21, 2008
kebijakan gagal Bush
Banyak. Yang terasa misalkan banyak orang Irak, Afghanistan ...
Dan jika Obama menyesali kegagalan pendahulunya, mestinya pemerintah AS meminta maaf dan memberi ganti rugi.
ide riset: word clustering untuk bahasa Indonesia
Stemming biasanya memotong sampai kata dasar.
Namun misalkan untuk kata aktif dan pasif apakah dapat dianggap sama?
Juga dalam word clustering: thesaurus.
Word clustering, bisa secara bahasa juga berdasarkan data.
Bagaimana peran word clustering untuk keperluan text categorization (juga yang lain)
kamus indonesia inggris online
Ada kamus IndoDic online. Bagus, sangat membantu.
Beberapa catatan positif:
* lengkap, karena memang ada versi cetaknya yang menurut website dibuat selama 10 tahun
* ditampilkan kata dasarnya
* bisa ditampilkan keluarga dari kata itu
* web site simple, tidak ada iklan
* ada versi offlinenya yang bisa didownload gratis
* ada versi mobile.
* gratis (ada kamus online yang mesti bayar kalau mau lihat full feature)
Contoh perbandingan kamus:
Indonesia -> Inggris untuk "pengadaan"
IndoDict
pengadaan n. peng+ada+an supplying; provisioning; procuring; acquisition process
kamus.net
Pengadaan blind
sederet.com
pengadaan 1 stock. 2 supplying, provisioning. 3 provisions. 4 procurement.
ada Other Match(es): .. [cat cukup bagus
kamus.ugm.ac.id
pengadaan fakta utk mmbuktikan hukum yg lebih umum induction
kamus.itb.ac.id
1. pengadaan 1 stock. 2 supplying, provisioning. 3 provisions. 4 procurement.
Kemudian pada IndoDict, bisa di-klik kata-kata lain yang merupakan keluarga pengadaan, yaitu yang kata dasarnya sama-sama "ada".
Untuk mencari apa saja keluarga dari kata dasar bisa dicari Kamus Besar Bahasa Indonesia (KBBI). Misalkan kata dasar "ada"
Coba juga perbandingan kamus:
Indonesia -> Inggris untuk "adakah", "adalah"
IndoDict
adalah 1 v. ada+lah was; were; am; is; are; to be; there was
adalah 2 n. ada+lah equation mark; equal sign
kamus.net
Adalah am
kamus.itb.ac.id
Maaf, Terjemahan untuk "adakah" belum ada dalam Database
Ternyata kamus ini dikerjakan oleh orang asing (terimakasih pak Wayne B. Krause), tentunya dibantu oleh banyak orang termasuk orang-orang Indoensia. Sekali lagi ini contoh yang memperlihatkan ketekunan orang Barat yang harus kita contoh. Contoh lain ketekunan oran Barat adalah pembuatan buku Pangeran Diponegoro click. Mestinya institusi seperti UGM yang berlimpah orang komputer dan bahasa mempunyai riset jangka panjang seputar kamus ini. Mungkin sudah ada, namun saya belum menemukan di internet yang telah bisa kita manfaatkan.
daftar kata dasar bhs Indonesia
Apa saja kata dasar yan tidak ada dalam file Excell itu?
Coba cek keberadaanya dalam KBBI Daring
Thursday, November 20, 2008
submit short paper
contoh shor paper
Jahna Otterbacher, Dragomir R. Radev: Fact-focused novelty detection: a feasibility study. SIGIR 2006: 687-688
Tuesday, November 18, 2008
ustadz Haryono
Saya ingin berbagi pengalaman saya sedikit.. penah ke "tempat praktek" beliau
[under construction]
15 ribu vs 100
orang Indonesia yang belajar di Australia ada sekitar 15 ribu orang, dan
orang Australia yang belajar di Indonesia..... hanya sekitar 100 orang!
Apa artinya?
Positif: orang Indonesia antusias belajar, bahkan sampai ke LN juga..
Negatif: perguruan tinggi di Indonesia tidak menarik minat. (contohnya di kampusku tidak ada mhs asing) Mengapa? bahasa... keilmuan...
penelitian di Indonesia?
Mungkin inilah profil akademisi Indonesia. Lebih cendrung ke struktural.. dst. Dan ternyata juga politik!
salami slicing
Kebetulan saya sedang pelajari tentang concept-based, saya temukan:
Shady Shehata, Fakhri Karray, Mohamed Kamel: Enhancing Text Categorization Using Sentence Semantics. ADMA 2008: 87-98
Shady Shehata, Fakhri Karray, Mohamed Kamel: A concept-based model for enhancing text categorization. KDD 2007: 629-637
Shady Shehata, Fakhri Karray, Mohamed Kamel: Enhancing Search Engine Quality Using Concept-based Text Retrieval. Web Intelligence 2007: 26-32
Shady Shehata, Fakhri Karray, Mohamed S. Kamel: Enhancing Text Clustering Using Concept-based Mining Model. ICDM 2006: 1043-1048
Shady Shehata, Fakhri Karray, Mohamed S. Kamel: Enhancing Text Retrieval Performance using Conceptual Ontological Graph. ICDM Workshops 2006: 39-44
contrast data mining
Tutorial bisa dilihat di:
http://knoesis.wright.edu/library/presentations/bailey-dong-v2-1.ppt atau di
http://videolectures.net/mlss08au_kotagiri_dami/ (di sini ada slides dan videonya)
Mayoritas buku teks membahas tentang jenis pola / pekerjaan standar dalam data mining, yaitu klasifikasi, asosiasi dan clustering. Contrast data mining merupakan suatu yang lain. Di sini kita ingin mencari perbedaan (yang signifikan) antara dua atau lebih kelompok.
Misalkan:
Apa sih perbedaan karakteristik antara pelanggan yang churn dengan pelanggan yang loyal? Apa perbedaan antara karekteristik pelanggan antara pelanggan di wilayah DKI dengan yang Jateng? Apa perbedaan karekteristik antara pelanggan di DKI pada tahun 2007 dengan pada tahun 2008?
Bisa juga antara beberapa kelompok, misalkan untuk tahun 2000 s/d 2008?
Bagaimana mereprentasikan kontras antara dua kelompok atau lebih?
Salah satunya dengan menyajikan dalam himpunan "conjunction atribute-value".
Misalkan, pada kasus di kampus:
Apa perbedaan antara mahasiswa departemen TE dengan mahasiswa IF? data yang tersedia adalah data test penerimaan mhs baru, dan data nilai tahun pertama. Misalkan hasilnya adalah:
- nilai test masuk Bahasa Inggris > 8 dan perempuan dan alumni dari SMA negeri
untuk IF: ada 20% mhs yang seperti itu, sedangkan untuk TE hanya 5%
- ... dll
Bisa juga kemudian bentuk chimpunan kontras (contrast set) diubah menjadi bentuk yang lebih mudah dibaca user. Misalnya seperti yang dilakukan penulis paper ini.
Stephen D. Bay, Michael J. Pazzani: Detecting Group Differences: Mining Contrast Sets. Data Min. Knowl. Discov. 5(3): 213-246 (2001)
Selanjutnya saya menggunakan tulisan tersebut untuk membicarakan tentang contrast data mining. Tulisan tsb adalah referensi utama Trisnie mhs ITTelkom dalam mengerjakan TAnya.
Sebenarnya informasi contrast bisa juga disapat dari hasil learning yang lain, misalkan classification rule, decision tree, association rule, maupun feature selection. Namun ada beberapa kelemahan dari cara-cara seperti itu untuk menghasilkan informasi kontras.
* ada yang sulit dibaca makna perbedaannya (misal association rule)
* ada yang hasilnya tidak lengkap atau tidak bagus, artinya ada informasi perbedaan yang secara signifikan ada, namun justru tidak ditampilkan. (misal pada rule atau decision tree)
Sayangnya tidak ada cara pengukuran kuantititif apakah sebuah hasil himpunan kontras itu baik atau tidak, lengkap .. dll.
Permasalahan utama dalam contrast set mining ini adalah efisiensi: search space yang sangat besar. Kita harus meneliti pasangan conjunction atribut-value.
Salah satu kontribusi utama paper di atas adalah menyampaikan teknikyang efisien, dengan memangkas sebagian serach spacenya.
[under construction]
. . .
Bagaimana kalau kitamencoba melakukan kontras atas teks?
LexRank catatan 13 Nov 08
Eigenvector centrality..apa itu?
Bagaimana tipe graph nya? Directed, undirected è saya duga undirected
Idf-modified cosine similarity coba terangkan --> PR UNT PEKAN DEPAN
Mengapa dimodifikasi?
LexRank untuk single doc saja atau muti-doc.
Kalau multi-doc ada noise doc bagaimana?
Demo di internet LexRank
Graph-based ATS lain apa selain LexRank dan TextRank?
Semua graph-based pada prinsipnya adalah ranking?
Seberapa bagus graph-based ATS?
Apa yang dimaksud dengan central sentence. Dan apa itu the most central central sentence.
Centrality: degree centrality, eigenvector centrality (ini lebih baik dari degree centrality)
Eigenvector centrality cukup sulit dipahami (bagi saya)
Apa itu Markov chain? Apa itu Power Method?
Coba sehari meringas satu artikel berita. Extraction. Dengan disertai alasan mengapa kalimat yang dipilih adalah itu.
Bagaimanakah system secara garis besar. (dari awal/input sampai akhir/output)
Centroid vs centrality.
GOAL Feby:
Buat tulisan dan slide selengkap dan sejelas mungkin LexRank. Dengan bahasa yang mudah. Dengan contoh-contoh.
Membuat implementasi untuk bhs Indonesia, gunakan untuk pengujian, dievaluasi.
Cari implementasi LexRank yang sudah ada, gunakan untuk uji coba. è sudah ada di MEAD.
= = = = =
Sebuah dokumen yang baik mestinya isi dokumen tercermin dalam judul dan kalimat-kalimat awal atau paragraph awal, namun kadang-kadang ada artikel berita yang memberitakan beberapa topic, dimana ada topic yang tidak tercermin pada judul maupun kalimat-kalimat awal. Berilah contoh artikel.
Kalau tidak tercermin di judul kadang topic “tambahan” di tuliskan pada subjudul. Berilah contoh artikel.
Ada juga artikel yang judulnya sama sekali tidak mencerminkan isi dokumen. Judulnya dibuat menarik perhatian. Ini misalkan cukup mudah kita jumpai ada artikel olah raga. Berilah contoh artikel. Namun kemungkinan (coba teliti) meskipun judulnya tidak mencerminkan isinya, namun pada kalimat-kalimat awal tetap sudah menceminkan isi berita.
Hipotesa:
Secara default bobot judul besar, namun jika antara judul dengan kalimat-kalimat awal “tidak sinkron” (similarity antara judul dengan kalimat2 awal kecil), maka bobot judul tidak terlalu besar. Sehingga ada kemungkinan judul tidak masuk dalam ringkasan hasil.
Pengujian:
Jika kita menggunakan metoda peringkasan yang sangat sederhana: yaitu hasil peringkasan adalah n kalimat pertama. Bagaimana hasilnya? Gunakan evaluasi standar. Metoda ini digunakan sebagai salah satu pembanding untuk metoda graph-based yang dicoba.
Pengujian:
Lakukan uji coba meringkas artikel bahasa Indonesia menggunakan Sidobi. Lihat seberapa hasilnya.
Lakukan uji coba meringkas artikel bahasa Inggris menggunakan demo LexRank. Lihat seberapa hasilnya.
Hipotesa:
Ada kemungkinan antara satu sumber berita dengan sumber berita yang lain bentuk penulisan berbeda, maksudnya ada yang cukup mudah diringkas, ada yang sulit. Yang cukup mudah (artinya pembuatan artikel baik), misalkan dengan kalimat-kalimat awal sudah bisa dibuat ringkasannya.
Pertanyaan:
apakah perbedaan LexRank dengan TextRank? (metoda: cara graph bagaimana, single document – multi-document, etc). Masing-masing diterbitkan tahun berapa? Apakah yang satu memperbaiki yang lain?
Pertanyaan:Document similarity mengapa bisa digunakan untuk peringkasan?Pikirkan berbagai jenis similarity. Apa perbedaan LexRank dengan TextRank dalam hal similarity?Bagaimana kalau menggunakan similarity sederhana saja? Bagaimana hasil peringkasannya?
Buatlah contoh yang sederhana dan ekstrim untuk menggambarkan ide dibalik mengapa graph-based / similarity ini bisa digunakan untuk peringkasan.
Hasil ringkasan terdiri dari kalimat-kalimat(1) yang banyak mirip dengan kalimat-kalimat lain(2) yang banyak mirip dengan kalimat-kalimat itu [yaitu kalimat-kalimat (2)] Ini adalah undirected graph. Berbeda dengan PageRank yang directed graph. Penghitungan undirected graph lebih sederhana dari pada directed graph.
Graph-based ATS hanya meninjau dari sudut pandang similarity saja, tidak ada pertimbangan lain, seperti misalkan posisi kalimat dalam dokumen. Juga adanya struktur yang mungkin bisa diambil, misalkan: subjudul (dalam isi artikel), adanya yang dibold, untuk kategori internasional bisa saja kota (yang disebut pada awal berita)
Mungkin juga ada noise:
· Kalimat noise
· Dokumen noise (untuk multi-dokumen)
= = =
Buatlah tulisan pendek khusus membahas jenis-jenis peringkasan: abstraktif-ekstraktif, macam-macam tujuan peringkasan. Berilah contoh-contoh untuk itu.
= = =
Graph-based ATS pada dasarnya merupakan order-based (?) / rank based. Sebagai alternative lain ATS adalah centroid based. Cari tulisan-tulisan yang menerangkan tentang centroid based ini.
Menurut dugaan saya, centroid based itu adalah sbb:
Dipilih term-term yang penting. Kumpulan term-term yang penting ini adalah centroid. Jadi centroid ini merupakan “pseudo sentence”. Di sini hanya ada satu pseudo-sentence sebagai centroid. Kalimat-kalimat yang lain dicari jaraknya dari centroid, yang lebih dekat dengan ventroid dianggap lebih penting.
Bagaimana cara menentukan penting tidaknya sebuah artikel. Salah satu cara sederhana adalah dengan TF dan posisi kalimat/term.
Buatlah contoh: ada sebuah artikel kemudian bagaimana proses peringkasannya. Bagaimana hasil peringkasanannya.
== =
Untuk multi-document mengapa tidak dibedakan bahwa antar beberapa kalimat ada dalam dokumen yang sama atau tidak? Secara intuitif bagaimana?
Multi-docement yang seperti apa? Dilakukan clustering dulu.. Multi-document artinya dalam kumpulan document itu menggambarkan/berisi even/kejadian/peristiwa yang sama misalkan untuk kategori internasional dikumpulkan dahulu peristiwa yang sama/serupa, misalkan tentang krisis keuangan atau lebih sempit lagi tentang pertemuan G20.
Kalau kita diberi kumpulan dokumen yang masih banyak misalkan semua berita dalam kategori internasional, kemudian kita langsung diminta untuk meringkas, bagaimana? Mengelompokkan artikel itu dapat dianggap sebagai salah satu proses peringkasan! Karena dalam keseluruhan artikel dalam kategori internasional itu kalau diringkas yang perkejadian. Untuk kita bisa mencoba mengembangkan bagaimana pengelompokan itu digunakan untuk peringkasan. Baik untuk single document maupun multi-document. Dokumen (atau kumpulan dokumen) dikelompok-kelompokan dulu (dibagi-bagi dulu dalam sub-..). Lakukan pe-ranking-an atas kelompok-kelompok itu. Dipilih hanya kelompok-kelompok yang penting saja. Kemudian baru dari setiap kelompok yang penting dicari kalimat-kalimat yang dianggap penting.
Untuk artikel berita, sering ada “sub-judul” (?) di dalam tulisan. Itu dapat dianggap sebagai kelompok. (Itu artinya penulis sudah membuatkan kelompok secara logika). Jadi dipisahkan (merupakan kelompok yang berbeda). Berilah contoh.
= = =
Waktu awal-awal diskusi dengan Nur, didiskusikan juga artikel yang seingat saya graph-based juga. Coba cari dan baca kembali.
= = =
Cari di internet, apa saja metoda ATS yang graph based. Apakah semua graph-based merupakan rank based? Cari dalam daftar referensi dalam tulisan timestamp-based. Jangan lupa dilihat tahun pembuatan, dan kalau bisa hubungan antara satu metoda dengan metoda lain. Apakah sebuah metoda merupakan perbaikan/varian dari yang lain. Buat juga dalam time-frame.
= = =
Usahakan mencari corpus standar/benchmark untuk ATS ini meski dalam English.
Buat corpus bahasa Indonesia untuk benchmark ATS. Ada peringkasan yang dibuat secara manual. Peringkasan dibuat sebaik mungkin, dengan melibatkan beberapa orang.
ICISO Beijing
Important datesFull
paper submission: 30 November, 2008
Notification of acceptance: 7 January 2009
Camera-ready version: 30 January, 2009
Conference: 11-12 April, 2009
ACIT (Arab) deadline sekitar akhir Juni
http://acit2k.org/ACIT/
deadline sekitar akhir Juni
Monday, November 17, 2008
gedung dengan arsitektur tropis
PhD student positions in Helsinki on mining and learning networks
PhD student positions
at the Department of Computer Science at the University of Helsinki, Finland. The selected students will receive well-supervised PhD training in a world-class research environment on the topics of data mining and machine learning. The starting date is flexible and to be negotiated, at the earliest March 1st 2009.
Specifically, the selected students will be working on methods for learning networks and graphs from a variety of data and utilizing the found structures for visualization, explanation, and prediction. The research will be carried out in the context of the Finnish Centre of Excellence for Algorithmic Data Analysis (Algodan) and the Helsinki Institute for Information Technology (HIIT). Students will be supervised by senior members of the recently established Discovering
Network Structures (DiNS) collaboration: ......
selengkapnya baca di sini PhD student positions available
algoritma Costing dll
level imbalance: ..
minor = rev - c_retensi
mayor = c_retensi
cost retensi
evaluasi: sum rev TP - sum c_retensi TP+FP
voting menggunakan confidence (clementine)
dibandingkan dengan:
base clsssifier: C.50
base clsssifier: C.50 + balancing (ada macam-macam balancing)
revenue max: ...
revenue min: ....
revenue Costing: ....
Penggunaan Bagging apakah membantu dalam Costing?
Tren pengaruh iterasi bagging terhadap evaluasi (Recall, Precison, F, Revenue)
Pengaruh cost retensi terhadap evaluasi (Recall, Precison, F, Revenue)
Seberapa bagus (efektif -> revenue) algoritma Costing untuk
cost sensitive learning,
churn prediction
Mengapa bagus/jelek?
al. rejection sampling menghasilkan sample yang sedikit. Seberapa sedikit. (berapa %) cost-proportionate rejection sampling produces a smaller training set (by a factor of about N/Z).
Paper Roulette: we set the constant Z = maxC(i). Bagaimana cara mendapatkannya?
**sampling-based cost sensitive. Papernya algoritmanya apa saja.
pendekatan lain: ensemble
target:
* roulette (per instance) + rejection sampling
presisi berapa angka dibelakang koma untuk angka random (0-1)
rekutmen asisten lab DMC ITTelkom
Rekruitasi Asisten Data Mining Center (DMC)
Laboratorium Data Mining Center (DMC) Gd F.301, salah satu laboratorium riset Departemen Teknik Informatika membuka kesempatan kepada Mahasiswa IT Telkom yang mempunyai semangat dan komitmen tinggi untuk menjadi Asisten Laboratorium dan Asisten Riset Lab DMC.
Bagi yang berminat harap mengirimkan surat permohonan melalui e-mail :
1. Subject e-mail : Permohonan menjadi asisten DMC
2. Pengiriman ke email :
to : dmc_ittelkom@yahoo.com
cc : arifbijaksana@gmail.com
3. Isi email:
Nama, NIM,
Pernyataan akan bersungguh-sungguh mengerjakan riset, membantu kegiatan dan adminsitrasi DMC.
Pernyataan bahwa setelah selesai TA, bersedia:
- Menyampaikan hasil riset / TA (mempresentasikan dalam seminar yang diselenggarakan DMC)
- Membuat dokumentasi petunjuk instalasi dan pemakaian aplikasi yang telah dibuat
- Memberikan copy buku (hardcover) dan mengcopykan CD TA ke komputer DMC
Lampiran (dalam sebuah file zipped dengan nama file
- CV (termasuk email, no HP)
- Transkrip nilai
- Foto (free style)
- Memberikan usulan kegiatan / program kerja DMC
Catatan:
- Prioritas untuk S1 angkatan 2005 dan 2006.
- Mahasiswa harus akan / sedang mengerjakan TA seputar Data Mining
- Untuk mendapatkan judul topik TA bisa mendiskusikan via email ke dmc_ittelkom@yahoo.com
- Untuk menjadi asisten DMC, pembimbing TA/riset boleh dengan dosen siapa saja (tidak terbatas dosen MAB)
- Mahasiswa yang bisa mengajukan sebagai asisten DMC tidak terbatas mahasiswa S1 IF, namun bisa dari D3IF, S1 TI, S1 TE.
- Untuk mahasiswa yang sedang mengerjakan riset/TA di Lab DMC yang belum pernah mengirimkan surat permohonan, juga diharuskan mengirimkan permohonan seperti di atas.
Surat permohonan dikirimkan paling lambat Sabtu 29 November 2008 pk.23.59.
Topik riset DMC saat ini, terutama
- Text mining dan automatic text summarization : terutama penerapan untuk dokumen berbahasa Indonesia.
- Imbalance classification : terutama untuk penerapan pada churn prediction
- Penerapan data mining untuk IT Telkom
Kewajiban dan hak asisten DMC
Kewajiban
- Mengkoordinir dan bertanggung-jawab terhadap kegiatan-kegiatan DMC, administrasi DMC
- Mengerjakan riset DMC
- Membantu terlaksananya kegiatan-kegiatan DMC dan administrasi DMC
- Membantu terlaksananya seminar Data Mining dengan menjadi pembicara terhadap TA yang telah dilaksanakan
- Mengikuti pertemuan tim riset masing-masing (kurang lebih 2 minggu sekali)
Point untuk Asisten Riset 2, 3, 4, 5
Hak
- Menggunakan resource DMC yang ada
- Mengeluarkan ide-ide untuk perkembangan DMC
- Mendapatkan sertifikat sebagai Asisten Riset
- Mendapatkan sertifikat sebagai Asisten Laboratorium
Point untuk Asisten Riset 1,2,3
catatan: asisten lab (aslab) otomatis harus menjadi asisten riset (asris)
= = =
Lain-lain
- Bila ada hal-hal yang belum jelas, bisa ditanyakan ke email dmc_ittelkom@yahoo.com
- Info tentang DMC: http://sites.google.com/site/
dmcittelkom/ (catatan : DMC terkait erat dengan Kelompok Kajian Data Mining dan Statistika Terapan) - Masa kerja asisten adalah sejak diterima s/d lulus
= = = =
Thanks untuk Sugi dan Intan yang telah membuatkan pemgumuman ini.
ruang rapat pagi ini pk.8
pakain baru (lagi)
paper terkait cost sensitive learning
[papernya apa.... lupa...cari]
perda K3 (Kebersihan, Ketertiban, Ke..rapihan?)
Perda yang sangat baik.
Bahkan di kampus2, sekolah pun saya duga tidak jalan.
Mestinya ada upaya terpadu termasuk dari sisi pendidikan di sekolah2 dan kampus.
Mestinya ada dukungan dari semua pihak, termasuk ormas dan orpos.
Dukungan bukan hanya dukungan berupa pernyataan, namun tindakan nyata.
Untuk parpol, ini bisa misalkan tanggung jawab "dinas ..
Di Bandung parpol terbanyak kursinya PKS. (dan kebetulan beberapa teman dalah aktivis dan pengurus PKS Bandung). Bagaimana upaya PKS dalam penegakan Perda K3????
pemilahan sampah
Niat/upaya yang sangat baik, beberapa komentar dari saya:
Belajar dari kegagalan di kampus ITB, sosialisasi, penegakan aturan, pengamatan/penelitian, istiqomah/konsistensi, perencanaan yang jelas (misal setelah dipilah terus bagaimana? petugas pengambilan smapah bagaimana), jenis pemilahan sudah tepat?
beriman dan beramal shalih
Sunday, November 16, 2008
pesan kebaikan
Bila ada yang membuat desain2 yang bagus dan bisa didownload...
Pesannya misal agar menghormati penyeberang jalan dll...
kartun mulan, ada iklan sms reg model
Alamat email, telp, faxnya.....
Mestipun tidak sebagai iklan saat kartunpun iklan seperti itu tidak pantas.
Juga iklan syirik semacam primbon. Semestinya operator seluler punya tim ahli/penasehat yang antara lain yang terkait syariah. Mestinya kita desak agar bisa seperti itu. Bagaimana ormas dan orpol?
Saturday, November 15, 2008
berjalan dan bersepeda
Dan usahakan sebisa mungkin jalan atau bersepeda.
kerja di masjid bakda subuh
ide penelitian: kategorisasi email dan filter otomatis.
Lebih bagus kalau kategorinya bebas dan bisa multi label (artinya TAG) seperti di blog.
Film apakah email sesuai topik atau OOT (artinya ditolak moderator) mirip (sama?) dengan email spam filtering. Bagusnya prosesnya iteratif. Milis "moderated", sistem filtering otomatis memisah jadi OOT atau lolos, moderator nge-check (bisa keseluruhan atau sebagian email) sebenarnya OOT atau lolos. Sistem jadinya terus menerus diperbaiki.
Ide: arsip milis di-blog-kan.
UU Pornografi untuk orang tua
Beliau menyarankan agar orang tua memahami UU Pornografi. Dimana bisa mendapatkan naskah UU Pornografi?
Friday, November 14, 2008
ICMLC China
China 12 - 15 july 2009
Important Dates
Submission Due: 1 March 2009
Notification of Acceptance: 15 April 2009
Camera-Ready: 5 May 2009
MLDM´2009 Germany
July 23 – 25, 2009, Leipzig/Germany
Important Dates
Deadline for paper submission: January 6, 2009
Notification of acceptance: March 6, 2009
Final paper submission: April 27, 2009
Authors can submit their papers in long or short version
ICDM 2009 Germany
July 20 - 22, 2009, Leipzig/Germany
Deadlines
Submission of papers: 12.01.2009
Notification of acceptance: 24.03.2009
Submission of camera-ready copy: 05.05.2009
IIS 2009 Poland
International Joint Conference Intelligent Information Systems (IIS)
Poland
DEADLINES
* February 16, 2009 - paper submission deadline
* April 6, 2009 - acceptance/rejection decision due
* May 4, 2009 - submission of camera-ready papers
* June 16, 2009 - the Conference starts
Scope:
=====
Papers on these and related subjects are particularly encouraged:
- Artificial Immune Systems (AIS),
- Search Engines (SE),
- Computational Linguistics (CL),
- Knowledge Discovery (KD),
- Tools and Methods of AI (TM).
The Conference's focus will also be on the following topics:
- new computing paradigms, including, but not restricted to
biologically motivated methods, quantum computing, DNA computing,
- advanced data analysis,
- new machine learning paradigms,
UTP National Postgraduate Conference 2009
The Postgraduate Studies Office at the Universiti Teknologi PETRONAS (UTP)
Important Dates
Submission of Full Paper 1 December 2008
Notification of Acceptance 12 January 2009
Submission of Camera Ready 26 January 2009
Conference Date 25-26 March 2009
ICIS 2009 Sydney
Sydney, Australia
Important Dates
Paper submission July 31, 2009
Notification of acceptance August 31, 2009
Final paper submission and authors' registration September 30, 2009
Conference Dates November 25-27, 2009
ICDM 2009 USA
Chicago, USA
Important Dates
Paper submission June 30, 2009
Notification of acceptance July 31, 2009
Final paper submission and authors' registration August 31, 2009
Conference Dates October 28-30, 2009
ICIFE 2009 Singapore
Singapore
Important Date:
Paper submission (Full Paper) November 30, 2008
Notification of acceptance December 20, 2008
Authors' Registration January 5, 2009
Final paper submission to IEEE Computer Society January 5, 2008
Conference Dates April 17 - 20, 2009
AllConferences.Com
AllConferences.Com |
Is a directory focusing on conferences, conventions, trade shows, exhibits, workshops, events and business meetings. |
IACC’09 India
India
Full Length Paper Submission due: January 01, 2009
Acceptance and revisions due: January 15, 2009
Camera Ready paper due: January 30, 2009
Last date for Registration for authors: January 30, 2009
Last date for Registration for delegates: March 04, 2009
riset vs rapat
Dan jika waktunya bentrok, event terkait riset, seperti pertemuan research group adalah prioritas bawah setelah rapat.
Meeting on Statistics and Data Mining Tunisia
Abstract 2 Dec 2008
Paper 12 dec
Noyification 6 Feb
Meeting 5-6 March 2009
ICCSIT 2009 Beijing
ICCSIT 2009 Beijing
Important Dates
Submission Deadline 1 March 2009
Author Notification 15 April 2009
Registration 10 May 2009
Camera Ready 10 May 2009
Conference 8-11 August 2009
WASET Scientific and Technical Committee
WASET kindly invites you to join in and work on the scientific and technical committees of the conferences and journals editorial boards. Membership in the WASET scientific and technical committees can open windows of opportunity for your professional growth and development as free-of-charge. Through special scientific and technical committees and divisions, and numerous occasions for scientific and technical exchange with colleagues, WASET gives scientists the power to enhance their knowledge, skills, and professional options. |
ICCISE 2009. Penang
Penang, Malaysia
Important Dates
Paper submission November 25, 2008
Notification of acceptance November 30, 2008
Final paper submission and authors' registration December 31, 2008
Conference Dates February 25-27, 2009
ICKSE 2009
Rome, Italy
Important Dates
Paper submission December 30, 2008
Notification of acceptance January 31, 2009
Final paper submission and authors' registration February 28, 2009
Conference Dates April 28-30, 2009
ICICT 2009
Hong Kong
Important Dates
Paper submission November 30, 2008
Notification of acceptance December 31, 2008
Final paper submission and authors' registration January 31, 2009
Conference Dates March 25-27, 2009
icime 2009
(icime 2009)
Organized by the International Association of Computer Science and Information Technology
April 3-5, 2009, Kuala Lumpur, Malaysia
Important Dates
Paper submission December 20, 2008
Notification of acceptance January 10, 2009
Conference Dates April 3 - 5, 2009
case grammar
Nur Indrawati
113050086
CASE GRAMMAR
Dalam [3] disebutkan bahwa case grammar merupakan salah satu pendekatan untuk representasi semantik suatu kalimat, yang menyediakan pendekatan untuk mengkombinasikan interpretasi sintaktik dan semantik. Aturan grammar dalam case grammar ditulis untuk menggambarkan aturan sintaktik dibandingkan semantik. Namun, struktur dari aturan di sini berhubungan dengan relasisemantik.
Contohnya pada kalimat “Susan printed the file” dan kalimat “The file was printed by Susan” (Gambar 1). Pada kedua kalimat tersebut, peranan semantik dari ‘Susan’ dan ‘the file’ adalah sama, tetapi peranan sintaktiknya berlawanan.
[lengkapnya disa diambil di sini: .doc]
FrameNet
Featured Research: FrameNet
The FrameNet project is one of the longest-running projects at ICSI. Led by Professor Charles Fillmore and Dr. Collin Baker, FrameNet researchers are creating "an online lexical resource for English, based on frame semantics and supported by corpus evidence." The theories of frame semantics used in the FrameNet project originated with Professor Charles Fillmore, while at UC Berkeley, prior to his work at ICSI.
Frame semantic theory categorizes words and ideas based on frames that the words evoke. Some frames are quite simple, such as the Placing frame, which involves an object, the location where it goes, and a word that suggests the object is being put in its place - for example, put, lay, shelve, or file.
In the sample sentence below, the words highlighted in black are frame-evoking words.
- Thought evokes the Awareness/Cognition frame,
- might evokes the Likelihood frame, and
- die evokes the Death frame.
- In the Cognition frame, for example, there is the person who is thinking - I - and the thought - that I might die.
- In the Likelihood frame, I die is the thing that might happen.
- In the Death frame, I is the person who may die.
In the mapped image below, the relationship between the frame evoking words and their frame elements is shown in more detail, using the same sentence.
FrameNet annotators strive to document "the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, FrameNet annotators strive to document "the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through computer-assisted annotation of example sentences".
These fully annotated examples are displayed automatically and are being used in a variety of artificial intelligence and Natural Language Processing (NLP) applications.
When using computers to extract semantic information for NLP tasks, FrameNet's semantic mapping provides a means for the computer to extract meaning from a string of words.
Currently, the FrameNet database contains over 10,000 lexical units (word senses), of which more than 6,100 are fully annotated. More than 825 semantic frames are represented and exemplified in over 140,000 sentences.
The data is available through the FrameNet web site and is already being used by researchers around the world, including NLP researchers at ICSI. Srini Narayanan, head of the AI Group, used FrameNet to aid in semantic information detection in the ongoing question-answering project known as AQUAINT, and a new effort by Adam Janin of the Speech Group and Michael Ellsworth of the AI Group will focus on paraphrasing, using FrameNet data to provide semantic information. Last year, Thomas Schmidt, then a visiting German postdoc, created a multi-lingual dictionary of soccer terms, called Kicktionary, using a FrameNet-style semantic analysis of each term. (See www.kicktionary.de for more information.)
A significant improvement to FrameNet is the development of tools to automate much of the annotation process. This is essential to enable the widespread use of FrameNet data in NLP research, as it will allow NLP researchers to quickly annotate the text they are using in their project. FrameNet developers are working to create software that will annotate semantic frame information, as well as collaborating with scientists working on practical applications for FrameNet data.
One such collaboration is with researchers led by Nancy Ide at Vassar, who are working on development of a large corpus of American English called the American National Corpus. The corpus includes a wide variety of language use, both speech and text, covering everything from sermons to sitcoms. The FrameNet team is working on a FrameNet-style analysis of part of this corpus, to provide semantic information for use of the corpus in NLP research. Another collaboration is with a team led by Christiane Fellbaum at Princeton University. Fellbaum's team developed WordNet, an online dictionary which provides less detailed information than FrameNet but for many more words. The NSF-funded collaboration between FrameNet and WordNet will explore theoretical issues involved in aligning the two resources.
......
......
In recent years, FrameNet projects in several other languages have begun. ICSI regularly hosts visiting scientists working to create FrameNet databases in their native languages, which to date include Spanish, Japanese, and German.
Gunung Kidul, Jakarta, Tokyo, Washington
apa itu data mining?
Unt lebih jelas ada definisi2 bidang lain
Tag: pengantar data mining
satu sampah sehari
server email down!
Email merupakan alat komunikasi vital.
ide hobi: merancang tempat sampah
Barangkali ada yang tertarik meranacng dan mencoba di lingkunagnnya?
Atau sudah ada yang bisa ditiru?
Perlu kita ikut dua tiga kali dengan tukang sampah keliling mengambil sampah warga, sampai dibuang di TPA agar lebih mengatahui permaslahan yang ada.
Thursday, November 13, 2008
Alain Robert
We set ourselves limits, but we are all strong enough to aim higher, to achieve our goals.
All we have to do is find such strength within ourselves.
Know how to develop it.
Alain Robert
http://www.alainrobert.com/en/index.htm
Alain Robert, Penakluk Gedung Pencakar Langit
Kamis, 13 November 2008 | 03:00 WIB
Neli Triana
Meskipun lelah luar biasa, wajah Alain Robert tampak berseri-seri. Rabu (12/11), pukul 17.30, ia akhirnya berhasil memanjat The City Tower di Jalan Jenderal Sudirman, Jakarta Pusat, bangunan setinggi 145 meter itu. Seperti ”biasa”, Si Spiderman asal Perancis ini memanjat gedung tinggi tanpa tali atau pengaman apa pun.
Beri saya ruang. Saya merasa amat panas,” kata Robert saat disambut puluhan wartawan dan penggemarnya di pelataran depan The City Tower. Peluh tampak membasahi wajah dan bajunya.
Ia duduk di tengah-tengah kerumunan dan menjawab semua pertanyaan dengan ramah. Sambil terus mengumbar senyum walaupun napasnya sedikit tersengal, Robert langsung menyatakan terima kasihnya kepada semua penonton dan pendukung aksinya.
Sikap rendah hati memang sudah menjadi bagian dari pribadi pemanjat solo yang telah menaklukkan lebih dari 90 gedung pencakar langit di seluruh dunia itu. Tentu saja, semua itu dilakukannya tanpa peralatan pengaman.
Di tengah suasana meriah itu, tiba-tiba seorang polisi berpakaian sipil merentangkan tangan menghalau para wartawan dan membawa Robert kembali ke dalam gedung. ”Kami dari kepolisian. Alain Robert kami bawa untuk diperiksa terkait perizinan aksi panjat gedungnya,” kata polisi tersebut.
Hampir satu jam kemudian, Robert digiring keluar oleh Kepala Kepolisian Resor Metro Jakarta Pusat Komisaris Besar Ike Edwin. Menurut Ike, ada informasi dari Kepolisian Daerah Metro Jaya, Alain Robert belum mengantongi izin untuk aksinya itu. Robert pun pasrah digiring ke Markas Polres Metro Jakarta Pusat untuk dimintai keterangan.
”Tidak apa-apa, saya sudah terbiasa dengan hal-hal seperti ini. Kejadian ini tidak akan pernah bisa menghentikan aksi saya,” katanya, lagi-lagi dengan memasang senyum.
Pantang dihalangi
Alain Robert memang tidak bisa dihalangi oleh siapa pun ketika ia sedang berupaya menggapai impiannya. Usianya belum genap 10 tahun saat ia mulai mengagumi Bonatti, Rébuffat, dan Desmaison. Ketiganya adalah pemanjat tebing tingkat dunia yang terkenal sepanjang masa. Sejak itu, ia hanya punya satu cita-cita, yaitu menjadi pemanjat tebing profesional.
Saat usianya 12 tahun, ia memanjat gedung hingga ke lantai delapan tanpa peralatan pengaman untuk bisa masuk ke apartemennya. Itu dilakukan karena ia lupa membawa kunci.
Orangtua Robert akhirnya menyerah setelah sempat melarang putranya menggeluti hobi yang dianggap membahayakan jiwa tersebut. Robert kemudian mulai giat berlatih di tebing-tebing di kawasan Valence, tidak terlalu jauh dari tempat tinggalnya di Digoin - Saône-et-Loire - Bourgogne, Perancis.
Tidak butuh waktu lama sampai Robert mengukuhkan dirinya menjadi pemanjat profesional. Pemanjatan dengan segala kelengkapan peralatan dan pengaman tubuh makin tidak memicu adrenalinnya. Ia pun memutuskan menjadi pemanjat solo, yang artinya memanjat dengan tangan kosong, tidak ada seuntai tali atau sebuah alat pun untuk menolongnya.
”Dengan menjadi pemanjat solo, kalau kamu jatuh, maka kamu akan mati. Itu pilihannya,” kata Robert dalam situs web resminya, alainrobert.com 2007. Ia cukup berhasil dengan karier barunya itu, hingga dua kecelakaan beruntun menimpa tepat di usianya yang ke-20, tahun 1982.
Pada 18 Januari 1982, Robert terjatuh dari ketinggian 15 meter saat memanjat tebing terjal. Ia menderita patah tulang di kedua pergelangan tangan, hidung, dan telapak kaki. Beberapa bagian tulang lain di tubuhnya pun retak-retak.
Baru saja sembuh, ia kembali memanjat tebing. Namun, pada 29 September 1982, lagi-lagi ia jatuh bebas dari ketinggian 15 meter. Kali ini, dengan kepala lebih dulu membentur permukaan tanah. Robert tidak sadarkan diri, koma selama lima hari. Lengannya patah di beberapa bagian, juga sikunya, serta tulang panggulnya (pelvis).
Selain patah tulang di sekujur tubuh, ia menderita cerebral edema, kerusakan di otak, dan vertigo, penyakit yang memengaruhi telinga bagian dalam. Organisasi Kesehatan Nasional Perancis menyatakan, Robert kehilangan 60 persen kemampuan pendengaran normalnya.
Setelah menjalani enam operasi, nyawanya terselamatkan. Tetapi, tim dokter mengultimatum bahwa Robert tidak bisa dan tidak boleh lagi melanjutkan kegemarannya memanjat tebing.
Namun, Robert tak menyerah pada nasib. Selama masa penyembuhan, ia justru giat berlatih memanjat. Dalam kurun waktu satu tahun kemudian, dia kembali memanjat. Kali ini dengan sesuatu yang berbeda. Bukan lagi tebing batu, tetapi dinding gedung-gedung tinggi yang menjadi sasarannya.
Bagi Robert, memanjat adalah filosofi hidupnya. Ia harus menghadapi dan menguasai rasa takut. Hanya orang itu sendiri yang menentukan batasan hidupnya karena setiap orang sebenarnya berkemampuan untuk mencapai cita-citanya.
”Kapan saya akan berhenti memanjat gedung tinggi? Sebenarnya, saya sedang berpikir untuk segera pensiun,” katanya.
Namun, sedetik setelah itu Robert langsung tersenyum lebar. Matanya berkedip nakal, menandakan ia tak serius dengan ucapannya.
Wednesday, November 12, 2008
sopir angkot
anggaran, pengadaan
Kita gunakan seefektif mungkin. Dengan harga yang wajar. Fungsional
Pengadaan satu jenis barang mungkin senilai dengan bertahun-tahun gaji pegawai cleaning service, tukang kebun! Padahal mereka adalah kepala keluarga.
berapa harga kambing 1.000 tahun yang lalu?
satu sampai dua dinar.
cat:
dinar adalah uang logam/koin emas, dirham adalah uang perak.
info tersebut saya dapat dari buku karangan Zaim Saidi, bahwa harga kambing zaman Rasulullah sama seperti sekarang.
Dari tulisan orang yang sama, di koran saya juga tahu bahwa ONH jika dengan dinar malah cenderung terus turun, sementara kalau pakai rupiah semakin tinggi biayanya.
Ini grafik harga emas terhadap US$
meniru (baca: jangan kalah) dg semangat orang mlm
Semua muslim wajib menyampaikan (dakwah), menyampaikan kebenaran. Sudah sepatutnya kita jangan kalah semangat dibanding kalau menjalankan MLM.
Misalkan kita membantu mengurus masjid, ikut mengelola sampah di RW dll. Dan ini anggap saja sebagi hobi.
blog dan web page
hobi
Membaca, sepak bola, nonton film dll..
Hobi merupakan pekerjaan yang menyenangkan: pikiran. Kalau bisa juga menyehatkan. Kalau bisa juga untuk meningkatkan silaturahmi. Kalau bisa juga menambah penghasilan .. dll
Ada banyak pekerjaan yang mestinya bisa dilakukan sebagai hobi (atau diperlakukan seperti hobi), yaitu pekerjaan2 yang bermanfaat bagi masyarakat, namun bisa dibuat menyenangkan (kita nikmati), misalkan
- mengurus perpustakaan masjid
- membuat acara-acara anak-anak (event organizer amatir)
- mengelola sampah RT
- membuat situs untuk membantu pencarian anak yang hilang
- mengelola milis komunitas yang bermanfaat
- .. dll
catatan kecilnya pak Cacuk (alm)
Tuesday, November 11, 2008
optimalisasi masjid kampung dan kantor/kampus
jenis jenis cost sensitive learning
Selain black box vs transparent box bisa sudut pandang lain: relabeling, sampling, weighting. Relabeling dan sampling adalah black box, sedangan weighting adalah transparent box.
[sebutkan sumbernya]
Relabeling artinya melabel ulang kelasnya, (misal algoritma …)
Sampling: melakukan sampling sehingga distribusi antar kelas (atau instance) berubah.
Weighting artinya member bobot yang berbeda antar instance saat pembangunan model.
Pendekatan sampling merupakan yang cukup mudah dilakukan. Dan kelebihan lain bisa menggunakan classifier yang ada. Karena sampling dilakukan pada preprosesing.
Contoh yang menggunakan Sampling adalah algoritma Costing, dan cost-proportionate roulette sampling (CPRS). Pada algoritma Costing menggunakan rejection sampling, dan pada algoritma CPRS menggunakan roulette sampling.
Apa itu rejection sampling? Ini slide singkat yang dibuat Sugi. ppt
Apa itu roulette sampling? Ini banyak digunakan di algoritma genetika (GA) saat mutasi.
[buat slide roulette sampling, menyusul]
Penggunaan sampling biasanya diikuti dengan bagging (pada Costing dan CPRS)
Sampling pada cost sensitive learning ini pada prinsipnya sama dengan sampling pada imbalance problem.
Cost sensitive learning
OOT: apa ya istilah yang digunakan untuk misclassification? Miskomunikasi, istilah kebalikannya apa?
Salah satu bentuk misclassification yang banyak dipakai adalah menggunakan misclassification matrix, disingkat dengan “cost matrix”. Misclassification cost disingkat “cost”.
Dan biasanya topik cost-sensitive learning ini dikaitkan dengan topic “permasalahan klasifikasi jumlah instance antar kelas yang tidak imbang” (imbalance class problem).
[buat posting: imbalance problem vs cost sensitive learning]
OOT: bahasa Inggis yg lebih bagus/baku apa? Imbalance atau unbalance? Di data mining biasanya “imbalance”, namun ada yang mengatakan bahwa sebenarnya dari sisi bahasa yang lebih tepat adalah “unbalance”. Coba cari dengan Google “imbalance” dan “unbalance”, maka yang terakhir yang lebih banyak digunakan.
Untuk klasifikasi biner (dua kelas):
[buatlah gambar cost matrix di sini]
Di sini, ada empat jenis benar salahnya tebakan: TP, TN, FP, FN. Biasanya TP dan TN tidak ada costnya.
Sehingga hanya ada dua yang ada nilai costnya FP dan FN. Nilai FP dan FN bisa berbeda. Kedua nilai itu didapatkan memang dari permasalahan (atau dari user), kita tinggal ambil/pakai. Nilai2 itu bukan dari data, lalu kita proses sehingga menghasilkan nilai FP, FN.
Bagaimana kalau multiple-class (ada lebih dari dua nilai kelas)?
Contoh kasus yang sangat menarik adalah di kompetisi Data Mining Cup 2008. Di sini multi-class (kaau ngga salah ada lima kelas), ada imbalance, ada cost. Sayangnya kasusnya yang nggak enak: tentang lotere. Coba saja download data, keterangan permasalahannya. Beberapa mhs ITTelkom ikut kompetisi ini. Hasil mereka bisa dilihat di web site komptesisi. Cara mereka menyelesaikan permasalahan bisa didownload di sini. […………….]
O ya, bagaimana kalau multiple-class (ada lebih dari dua nilai kelas)?
Ini contoh table cost matrix dari kompetisi Data Mining Cup 2008.
[cost matrix DMCup 08]
Tampak jelas bahwa kolom dan baris matrixnya sekarang sebanyak/sebesar jumlah nilai kelasnya. Tidak ada kelas positif, kelas negative sehingga tidak ada FP dan FN. Ya bisa kita beri nama misclassification costnya misalkan kita beri nama AB, artinya kalau true class nya: A predicted: B.
Mengapa cost-sensitive penting? Lebih mendekati kebutuhan riil?
Karena evaluasi performansi klasifikasi akan lebih riil (lebih berguna bagi user) bila nilainya adalah cost (atau benefit), bukan error (atau akurasi).
Yang lebih generik lagi dibandingkan cost-matrix seperti yang di Data Mining Cup 08 adalah bila kolom dan baris matrixnya sebesar jumlah instance. Jadi ada mapping antara semua instance ke semua instance yang lain (termasuk juga ke diri sendiri). Matriksnya N x N, dimana N adalah jumlah instance. Seperti matriks-matriks sebelumnya yang dipakai adalah separo saja (matriksnya simetri).
[gambar marix NxN)
Bagaimana kalau permasalahannya seperti pada churn prediction?
Dimana nilai yang ada adalah nilai atribut (satu dimensi) bukan berupa matrix?
Mana nilai cost/benefitnya? Bagaimana kita mengubah menjadi cost matrix?
[to be continue in other posting]
contrast untuk text
(lebih lanjutnya lagi: antara beberapa? Antara dua himpunan?)
Untuk contrast mining (bukan teks) sudah cukup banyak (contoh tutorial tentang itu)
(yang sedang dicoba dikerjakan di ITTelkom)
belajar di masjid bakda subuh
Unfortunately, I havent join them yet. Most of them are "senior citizen" (retired). I have plan to bring my netbook and "do something" (write, read) there for about one hour. It could be exciting.
ide penelitian: "jebakan" situs porno
Bbrp orang surfer adalah tipe yg tersesat, atau tergoda. Mereka target sasarannya.
Situs2 yg kita buat dirancang yg menarik, menggugah, mengingatkan.
mana?
Aku malu. Mana kontribusiku?
Malu saja tidak menyelesaikan masalah!
Lihat Obama yg bersemangat, optimis.
ilmuwan indonesia
Bacalah posting-posting di blognya seputar penelitian. Menarik.
"Sayangnya" disiplin ilmunya beda dg saya. Dia Kimia, sy IF.
Dan ternyata istri mas Nur Hadi ini teman dekat istri sy.
(istri sy yg selalu mendorong, mendukung sy untuk terus belajar. Matur nuwun nggih.)
clean as you go (lagi)
Disamping "clean as you go" merupakan kebiasaan terpuji. Akhlakul karimah. Juga ini sangat penting: berapakah gaji CS (cleaning service) yg selalu kita bebani agar merapikan tempat rapat etc?
Unt mhs: rapikan kembali ruang kelas, ambil sampah.
Tanyakan kepada CS berapakah gaji mereka!
Bandingkan dg misalkan pengeluaran pulsa kita sekeluarga.
boss, kami ingin sejahtera
Untuk itu kita juga harus sadar, kebanyakan kita yang sudah berkeluarga juga punya karyawan: PRT (pembantu rumah tangga). SUDAHKAH KITA MEMPERHATIKAN KESEJAHTERAAN MEREKA? Posisi mereka sangat lemah. Tidak ada kontrak kerja, tidak ada serikat pekerja, banyak orang menganggur shg para boss (kita) bisa sewaktu2 memberhentikan mereka, tanpa jam kerja jelas (bisa 24 jam sehari), tanpa job desc yg jelas.
Monday, November 10, 2008
perjalanan dari Caringin ke Dayeuh kolot
Naik angkot, becak.
Kemiskinan, kesemrawutan yg tampak jelas.
Adakah keprihatinanku, kepedulianku?
unt PKS ttg situs web porno
Sy pernah baca kalau Depkominfo telah mem-blok situs2 porno. Namun kenyataannya bahkan situs porno populer spt playboy pun masih bisa diakses (sy coba dg Speedy). Mohon info mengapa? Bgmna sikap PKS?
Sy pernah baca di headline Republika bahwa dg UU ITE, provider internet dll harus memblok situs2 itu, jk tdk dendanya besar. Sebaiknya PKS punya tim khusus isu pemblokiran situs2 porno, terdiri dr orang2 hukum, teknis, sosial. PKS melakukan pendekatan ke ISP-ISP dll, kalau mrk tdk mau, dicari upaya hukum (misal menuntut mereka ke pengadilan). Menggalang demo KHUSUS ISU SITUS PORNO. Dan upaya2 lain. Sy sangat prihatin, bayangkan dlm 5 menit sj kita orang awam bisa temui sangat banyak FOTO dan VIDEO yg SANGAT VULGAR. Dan ada yg mengatakan sumber utama VCD porno adalah internet.