Sistem Temu-Kembali Informasi Pengantar Perkuliahan Husni Program Studi Teknik Informatika Universitas Trunojoyo Madura
Semeter Gasal 2015 - 03 Sep. 2015
Perkenalan... • Husni (UGM, ITB) – Bidang Minat Sistem Terdistribusi dan Web Data Mining (Social Network Analysis, Web Retrieval) – Lab. CC dan Lab. SisTer – Email:
[email protected] – FB: facebook.com/lunix96
• Jam Diskusi Perkuliahan: – Kamis (13.00 s.d 17.00) – Jumat (10.00 s.d 11.30)
• Web kuliah: Husni.trunojoyo.ac.id 2
Bentuk Perkuliahan • 14 kali kuliah di kelas: 14 x 3 x 50 menit • Lab: Mandiri, sesuai kebutuhan (tentatif) • Jadwal Kuliah: Kamis, 07.20 – 09.30 dan 09.30 – 11.40, ruang F403 • Tugas: Kelompok (4 s.d 5 mahasiswa): Proyek pembuatan search engine mini – Web Crawler, Preprocessing, Indexing, Searching, Ranking, Classification – Presentasi proposal pada pertemuan ke-7 – Presentasi akhir pada pertemuan ke-14
• Penilaian: UTS (closed, 40%), UAS (30%), Proyek (40%) 3
Motivasi • WWW atau Web telah menjadi sumber utama informasi bagi kebutuhan kerja maupun pengisi waktu • Kandungan raksasa WWW akan terbuang jika informasi tidak dapat ditemukan (lagi), dianalisis dan dimanfaatkan. • Setiap pengguna sebaiknya mampu dengan cepat menemukan informasi yang relevan dan komprehensif sesuai kebutuhannya • WWW telah menjadi penggerak utama dari inovasi dan sederet teknik baru telah diperkenalkan untuk menjinakkan dan memanfaatkan kandungan informasinya • Recommender systems: Tool (web, mobile, standalone) yang sangat terkenal untuk mendukung pengguna menemukan dan memilih produk, layanan dan informasi. 4
Teknik Pengelolaan Data
5
Silabus • • • • • • • • •
Konsep dasar Information Retrieval (IR) Boolean retrieval, Indexing Model ruang vektor (vector space model, VSM) Klasifikasi Teks dan Ruang Vektor Evaluasi dalam Information Retrieval Web search & crawling dan link analysis Sistem Perekomendasi (Recommender) Collaborative & Content-based filtering and Social Filtering Hybrid recommender systems, Knowledge based recommenders, Conversational recommender systems, Context-dependent recommender systems, Group recommendations
6
Apa yang harus dipelajari? • Dasar-dasar ilmiah dari bidang Pencarian & Temu-Kembali Informasi (Searching & IR) • Teknik & Tool pencarian & penemuan informasi yang dapat dimanfaatkan untuk merancang danmengimplementasikan situs web khusus (eCommerce, eGovernment) • Kelebihan & kekurangan berbagai teknik yang ada • Analisis tentang manfaat dan keterbatasan teknik dan sistem terhadap aktor yang terlibat dalam proses IR • Kemampuan untuk memutuskan kapan (untuk jenis produk atau layanan apa) suatu teknik dapat berguna atau tidak • Mengidentifikasi aplikasi baru dari teknik-teknik tersebut. 7
Bahan Bacaan • Topik-topik Information Retrieval: – C. D. Manning, P. Raghavan and H. Schutze. Introduction to Information Retrieval, Cambridge University Press, 2008. http://nlp.stanford.edu/IR-book/informationretrievalbook.html
• Penelitian mengenai Recommender Systems termasuk baru, lahir sekitar ‘95. Koleksi paper dalam bentuk review ada di: – Ricci, F.; Rokach, L.; Shapira, B.; Kantor, P.B. (Eds.), Recommender Systems Handbook. 1st Edition., 2011, 845p. 20 illus., Hardcover, ISBN: 978-0-387-85819-7. http://www.springerlink.com/content/978-0-387-85819-7
• Harus membaca paper juga, tidak hanya buku dan slide 8
Tugas dan Proyek (1) • Semua tugas dan proyek dikerjakan dalam kelompok (3 s.d 5 Mahasiswa) • (1) Tugas Pemrograman: – Preprocessing terhadap dokumen teks bahasa Indonesia: Tokenisasi, Stemming, Stopword Removal dan Indexing – Perhitungan kemiripan antar dokumen (atau dokumen dengan query) dan perankingannya (pada model ruang vektor) – Evaluasi hasil pencarian/perhitungan kemiripan: Presisi, Recall, F-Measure – Setiap anggota kelompok harus mampu menguasai 3 proses di atas secara manual (di atas kertas, boleh ber-kalkulator) 9
Tugas dan Proyek (2) • (2) Tugas membaca dan merangkum paper tentang Web Search, Information Retrieval atau Recommender System 2 tahun terakhir (2014 s.d 2015) untuk melihat trend. • Paper ini dijadikan sebagai salah satu referensi pada proyek Search Engine Mini • Dipresentasikan pada pertemuan ke-7, sebagai bagian dari proposal proyek. – Dikumpulkan: paper asli dan rangkumannya (A4, 1 spasi, Time New Roman 11 poin, 1 halaman) – Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide, mahasiswa lain boleh bertanya. 10
Tugas dan Proyek (3) • (3) Proyek Pembuatan prototipe Search Engine Mini – Proposal proyek dipresentasikan pada pertemuan ke-7. Hasil: Layak (lanjut) atau ganti proyek (cari kasus lain) – Laporan proyek (dikumpulkan): (1) latar belakang, (2) masalah yang diselesaikan, (3) solusi yang dipilih, (4) langkah-langkah dari metode/teknik dari solusi yang dipilih, (5) penjelasan kode program, (6) hasil yang diperoleh, (7) kesimpulan, (8) referensi, (9) peran dan tanggungjawab setiap anggota tim. – Panjang laporan 5 halaman A4, 1.5 spasi. – Dipresentasikan & didemokan pada pertemuan ke-14, maks. 20 menit. 11
Bagaimana Agar Lulus? • Baca dan Pahami paper/bab yang akan didiskusikan di setiap perkuliahan – slide hanya memberikan pemahaman secara garis besar • Jika ada hal yang tidak jelas selama perkuliahan, segera membuat catatan dan ajukan pertanyaan. • Tidak ber-social media selama perkuliahan • Tim segera memulai proyek, agar: – Punya waktu cukup untuk menyiapkan laporan – Mengirimkan laporan (draft) agar lekas direview – Mampu menjelaskan dengan baik aplikasi dari teknik yang dipilih (saat dipresentasikan). 12
Penilaian • Ujian Tengah Semester (UTS): 40% (kemampuan membangun inverted index, menghitung
kemiripan antar dokumen dan cara evaluasinya)
• Laporan & Presentasi Proyek Recommender System: 40% • Ujian Akhir Semester (UAS): 30% (kemampuan memahami klasifikasi dokumen dan recommender system)
• Tugas Tambahan/Bonus Nilai? TIDAK ADA 13
14
15
Search Engine
16
Arsitektur Search Engine
17
18
Area Kerja Dalam Proses IR • Web Crawling: menghimpun data dari Web • Data Extraction: mengambil informasi dan URL dari halaman web • Preprocessing: menerapkan aturan bahasa untuk menyederhanakan proses IR • Indexing: membuat index (pemetaan term ke dokumen) • Penanganan Query: mendapatkan dokumen yang relevan dengan Query (kebutuhan informasi pengguna) • Klasifikasi dan Clusterisasi • Recommendation: memberikan dokumen yang sesuai dengan kebutuhan/profil pengguna, berdasarkan kemiripan dokumen atau kemiripan pengguna • Evaluasi sistem IR: Presisi, Recall, F-Measure 19
Amazon.com
20
movielens.org
21
Lain-lain • Facebook • Youtube • igoogleportal
22
Pertanyaan
23