Tuesday, November 18, 2008

LexRank catatan 13 Nov 08

LexRank

Eigenvector centrality..apa itu?

Bagaimana tipe graph nya? Directed, undirected è saya duga undirected
Idf-modified cosine similarity coba terangkan --> PR UNT PEKAN DEPAN
Mengapa dimodifikasi?

LexRank untuk single doc saja atau muti-doc.
Kalau multi-doc ada noise doc bagaimana?

Demo di internet LexRank

Graph-based ATS lain apa selain LexRank dan TextRank?
Semua graph-based pada prinsipnya adalah ranking?
Seberapa bagus graph-based ATS?

Apa yang dimaksud dengan central sentence. Dan apa itu the most central central sentence.
Centrality: degree centrality, eigenvector centrality (ini lebih baik dari degree centrality)
Eigenvector centrality cukup sulit dipahami (bagi saya)
Apa itu Markov chain? Apa itu Power Method?

Coba sehari meringas satu artikel berita. Extraction. Dengan disertai alasan mengapa kalimat yang dipilih adalah itu.

Bagaimanakah system secara garis besar. (dari awal/input sampai akhir/output)
Centroid vs centrality.

GOAL Feby:
Buat tulisan dan slide selengkap dan sejelas mungkin LexRank. Dengan bahasa yang mudah. Dengan contoh-contoh.
Membuat implementasi untuk bhs Indonesia, gunakan untuk pengujian, dievaluasi.
Cari implementasi LexRank yang sudah ada, gunakan untuk uji coba. è sudah ada di MEAD.

= = = = =

Sebuah dokumen yang baik mestinya isi dokumen tercermin dalam judul dan kalimat-kalimat awal atau paragraph awal, namun kadang-kadang ada artikel berita yang memberitakan beberapa topic, dimana ada topic yang tidak tercermin pada judul maupun kalimat-kalimat awal. Berilah contoh artikel.

Kalau tidak tercermin di judul kadang topic “tambahan” di tuliskan pada subjudul. Berilah contoh artikel.

Ada juga artikel yang judulnya sama sekali tidak mencerminkan isi dokumen. Judulnya dibuat menarik perhatian. Ini misalkan cukup mudah kita jumpai ada artikel olah raga. Berilah contoh artikel. Namun kemungkinan (coba teliti) meskipun judulnya tidak mencerminkan isinya, namun pada kalimat-kalimat awal tetap sudah menceminkan isi berita.

Hipotesa:
Secara default bobot judul besar, namun jika antara judul dengan kalimat-kalimat awal “tidak sinkron” (similarity antara judul dengan kalimat2 awal kecil), maka bobot judul tidak terlalu besar. Sehingga ada kemungkinan judul tidak masuk dalam ringkasan hasil.

Pengujian:
Jika kita menggunakan metoda peringkasan yang sangat sederhana: yaitu hasil peringkasan adalah n kalimat pertama. Bagaimana hasilnya? Gunakan evaluasi standar. Metoda ini digunakan sebagai salah satu pembanding untuk metoda graph-based yang dicoba.

Pengujian:
Lakukan uji coba meringkas artikel bahasa Indonesia menggunakan Sidobi. Lihat seberapa hasilnya.
Lakukan uji coba meringkas artikel bahasa Inggris menggunakan demo LexRank. Lihat seberapa hasilnya.

Hipotesa:
Ada kemungkinan antara satu sumber berita dengan sumber berita yang lain bentuk penulisan berbeda, maksudnya ada yang cukup mudah diringkas, ada yang sulit. Yang cukup mudah (artinya pembuatan artikel baik), misalkan dengan kalimat-kalimat awal sudah bisa dibuat ringkasannya.

Pertanyaan:
apakah perbedaan LexRank dengan TextRank? (metoda: cara graph bagaimana, single document – multi-document, etc). Masing-masing diterbitkan tahun berapa? Apakah yang satu memperbaiki yang lain?

Pertanyaan:Document similarity mengapa bisa digunakan untuk peringkasan?Pikirkan berbagai jenis similarity. Apa perbedaan LexRank dengan TextRank dalam hal similarity?Bagaimana kalau menggunakan similarity sederhana saja? Bagaimana hasil peringkasannya?

Buatlah contoh yang sederhana dan ekstrim untuk menggambarkan ide dibalik mengapa graph-based / similarity ini bisa digunakan untuk peringkasan.

Hasil ringkasan terdiri dari kalimat-kalimat(1) yang banyak mirip dengan kalimat-kalimat lain(2) yang banyak mirip dengan kalimat-kalimat itu [yaitu kalimat-kalimat (2)] Ini adalah undirected graph. Berbeda dengan PageRank yang directed graph. Penghitungan undirected graph lebih sederhana dari pada directed graph.

Graph-based ATS hanya meninjau dari sudut pandang similarity saja, tidak ada pertimbangan lain, seperti misalkan posisi kalimat dalam dokumen. Juga adanya struktur yang mungkin bisa diambil, misalkan: subjudul (dalam isi artikel), adanya yang dibold, untuk kategori internasional bisa saja kota (yang disebut pada awal berita)

Mungkin juga ada noise:
· Kalimat noise
· Dokumen noise (untuk multi-dokumen)

= = =

Buatlah tulisan pendek khusus membahas jenis-jenis peringkasan: abstraktif-ekstraktif, macam-macam tujuan peringkasan. Berilah contoh-contoh untuk itu.

= = =

Graph-based ATS pada dasarnya merupakan order-based (?) / rank based. Sebagai alternative lain ATS adalah centroid based. Cari tulisan-tulisan yang menerangkan tentang centroid based ini.

Menurut dugaan saya, centroid based itu adalah sbb:
Dipilih term-term yang penting. Kumpulan term-term yang penting ini adalah centroid. Jadi centroid ini merupakan “pseudo sentence”. Di sini hanya ada satu pseudo-sentence sebagai centroid. Kalimat-kalimat yang lain dicari jaraknya dari centroid, yang lebih dekat dengan ventroid dianggap lebih penting.

Bagaimana cara menentukan penting tidaknya sebuah artikel. Salah satu cara sederhana adalah dengan TF dan posisi kalimat/term.
Buatlah contoh: ada sebuah artikel kemudian bagaimana proses peringkasannya. Bagaimana hasil peringkasanannya.

== =

Untuk multi-document mengapa tidak dibedakan bahwa antar beberapa kalimat ada dalam dokumen yang sama atau tidak? Secara intuitif bagaimana?

Multi-docement yang seperti apa? Dilakukan clustering dulu.. Multi-document artinya dalam kumpulan document itu menggambarkan/berisi even/kejadian/peristiwa yang sama misalkan untuk kategori internasional dikumpulkan dahulu peristiwa yang sama/serupa, misalkan tentang krisis keuangan atau lebih sempit lagi tentang pertemuan G20.

Kalau kita diberi kumpulan dokumen yang masih banyak misalkan semua berita dalam kategori internasional, kemudian kita langsung diminta untuk meringkas, bagaimana? Mengelompokkan artikel itu dapat dianggap sebagai salah satu proses peringkasan! Karena dalam keseluruhan artikel dalam kategori internasional itu kalau diringkas yang perkejadian. Untuk kita bisa mencoba mengembangkan bagaimana pengelompokan itu digunakan untuk peringkasan. Baik untuk single document maupun multi-document. Dokumen (atau kumpulan dokumen) dikelompok-kelompokan dulu (dibagi-bagi dulu dalam sub-..). Lakukan pe-ranking-an atas kelompok-kelompok itu. Dipilih hanya kelompok-kelompok yang penting saja. Kemudian baru dari setiap kelompok yang penting dicari kalimat-kalimat yang dianggap penting.

Untuk artikel berita, sering ada “sub-judul” (?) di dalam tulisan. Itu dapat dianggap sebagai kelompok. (Itu artinya penulis sudah membuatkan kelompok secara logika). Jadi dipisahkan (merupakan kelompok yang berbeda). Berilah contoh.

= = =

Waktu awal-awal diskusi dengan Nur, didiskusikan juga artikel yang seingat saya graph-based juga. Coba cari dan baca kembali.

= = =

Cari di internet, apa saja metoda ATS yang graph based. Apakah semua graph-based merupakan rank based? Cari dalam daftar referensi dalam tulisan timestamp-based. Jangan lupa dilihat tahun pembuatan, dan kalau bisa hubungan antara satu metoda dengan metoda lain. Apakah sebuah metoda merupakan perbaikan/varian dari yang lain. Buat juga dalam time-frame.

= = =

Usahakan mencari corpus standar/benchmark untuk ATS ini meski dalam English.

Buat corpus bahasa Indonesia untuk benchmark ATS. Ada peringkasan yang dibuat secara manual. Peringkasan dibuat sebaik mungkin, dengan melibatkan beberapa orang.