PENERAPAN ALGORITMA KLASIFIKASI BERBASIS ATURAN ASOSIASI UNTUK DATA METEOROLOGI ( CUACA ) Oleh : Rizky Kartika Putri 1209100001 Dosen Pembimbing : Dr. Imam Mukhlash S.Si, MT
PENDAHULUAN
2
Latar Belakang Data Mining
Untuk menemukan informasi penting dalam database
Tugas
Klasifikasi Clustering Sequence Pattern Association Rule
Mengelompokkan sebuah sampel baru pada himpunan kelas yang sebelumnya telah diketahui Pengelompokan sampel-sampel ke dalam kelompok sampel yang sama Penemuan pola keterurutan suatu event pada waktu tertentu Penemuan pola intra transactional dalam database terjadi hanya pada sebuah event
3
Latar Belakang - 2 • Kajian mengenai data mining untuk prakiraan cuaca telah banyak dilakukan dengan memanfaatkan klasifikasi dan association rule seperti yang dilakukan oleh S.Nandagopal dalam penelitiannya [10]. • Pada kajian [11] yang ditulis oleh Nofal Mustofa mengungkapkan bahwa dalam beberapa tahun terakhir, ada pendekatan baru yang mengintegrasikan association rule mining dengan klasifikasi. • Beberapa penelitian eksperimental menunjukkan bahwa klasifikasi berdasarkan association rule mining mempunyai potensi tinggi dalam membangun sistem klasifikasi yang akurat daripada metode klasifikasi tradisional seperti decision tree [11].
4
Latar Belakang - 3 • Berdasarkan kajian – kajian tersebut, maka pada Tugas Akhir ini diteliti tentang klasifikasi berdasarkan association rule menggunakan data meteorologi daerah Surabaya dengan elemen yang dibutuhkan suhu, kecepatan angin, tutupan awan, kelembaban, indeks UV dan titik embun per jam.
5
Rumusan Masalah • Bagaimana pendekatan algoritma association rule untuk membantu klasifikasi dalam data meteorologi ( cuaca ) • Bagaimana mengaplikasikan algoritma association rule untuk membantu klasifikasi dalam data meteorologi ( cuaca ).
6
Batasan Masalah • Data yang digunakan adalah data sekunder • Data yang digunakan adalah data iklim Indonesia daerah Surabaya • Algoritma yang digunakan adalah Algoritma CBA (Classification Based Association)
7
Tujuan dan Manfaat
Tujuan
Tujuan yang ingin dicapai dari penelitian tugas akhir ini adalah membangun perangkat lunak untuk data meteorologi ( cuaca ) yang memuat algoritma association rule dan klasifikasi.
Manfaat o Mendapatkan pola asosiasi yang berguna dalam data meteorologi ( cuaca ) untuk membantu didapatnya klasifikasi. o Menghasilkan perangkat lunak yang menerapkan algoritma klasifikasi berbasis aturan asosiasi untuk data meteorologi (cuaca).
8
TINJAUAN PUSTAKA
9
Data Mining • Data mining adalah kegiatan yang meliputi pengumpulan dan pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam data berukuran besar. • Data mining adalah salah satu bagian dalam bidang ilmu komputer yang perkembangannya sangat pesat. • Tujuan utama data mining adalah untuk menemukan informasi penting dalam database. • Beberapa teknik data mining telah banyak dikembangkan, seperti teknik asosiasi, klastering, sequence pattern, dan klasifikasi.
10
Klasifikasi • Klasifikasi adalah tugas mengelompokkan sebuah sampel baru pada himpunan class yang sebelumnya telah diketahui. • Klasifikasi dikenal sebagai pembelajaran supervised karena dapat mengelompokkan sampel secara langsung. • Banyak aplikasi yang menggunakan teknik klasifikasi antara lain segmentasi pelanggan, pemodelan bisnis, analisa kartu kredit dan lain-lain. 11
Aturan Asosiasi • Association rule adalah penemuan pola intra transactional dalam database yang terjadi hanya pada sebuah event. • Association rule sering disebut dengan “market basket analysis” • Association Rule dapat digunakan untuk mengidentifikasi item-item produk yang mungkin dibeli secara bersamaan dengan produk lain atau dilihat secara bersamaan pada saat mencari informasi mengenai produk tertentu.
12
Klasifikasi berdasarkan Aturan Asosiasi • Klasifikasi berdasarkan teknik association rule adalah memperluas ide dasar dari aturan asosiasi dan mengintegrasikanya dengan klasifikasi untuk menghasilkan subset dari effective rules
13
Algoritma CBA • Algoritma CBA merupakan algoritma pengklasifikasi yang sedikit lebih akurat dan efektif berdasarkan pendekatan asosiatif. • Konsep utama dari algoritma CBA terbagi dalam dua tahap, yaitu CBA-RG dan CBA-CB
14
Algoritma CBA-RG • CBA-RG menggenerate semua frequent ruleitem dengan tahap berikut :
Hitung support dari ruleitem individual dan tentukan status frequentnya. Di setiap subsequence yang mempunyai nilai support lebih besar dari minsup, pasti merupakan ruleitem yang frequent di tahap sebelumnya. Ruleitem yang frequent digunakan untuk mengenerate set possibly frequent ruleitems baru yang disebut candidate ruleitem. Support dari candidate ruleitems tersebut dicari untuk menentukan candidate ruleitem yang mempunyai nilai support lebih besar dari minsup. Akhir dari tahap, menentukan candidate ruleitem yang frequent. Dari set frequent ruleitem ini, diproduksi rules nya (CARs)
15
Algoritma CBA-CB • CBA-CB adalah sebuah classifier builder menggunakan CARs atau prCARs. Untuk memproduksi classifier yang paling baik dari set rules akan mengevaluasi semua possible subset di data training dan memilih subset dengan rule sequence yang tepat yaitu yang mempunyai error paling sedikit. • Rule yang mempunyai error paling sedikit adalah rule yang mempunyai nilai confidence paling besar. 16
Cuaca • Cuaca terdiri dari seluruh fenomena yang terjadi di atmosfer Bumi atau sebuah planet lainnya. • Cuaca biasanya merupakan sebuah aktivitas fenomena ini dalam waktu beberapa hari. • Cuaca rata-rata dengan jangka waktu yang lebih lama dikenal sebagai iklim. • Aspek cuaca ini diteliti lebih lanjut oleh ahli klimatologi, untuk tanda-tanda perubahan iklim. • Cuaca terjadi karena suhu dan kelembaban yang berbeda antara satu tempat dengan tempat lainnya. 17
METODE PENELITIAN
18
Studi Literatur
Analisis Metode dan Perancangan Perangkat Lunak
Pengujian dan Evaluasi Perangkat Lunak
Penarikan Kesimpulan
Penyusunan Laporan
19
HASIL DAN PEMBAHASAN
20
Hasil Dan Pembahasan • Data mentah yang digunakan adalah data cuaca Surabaya per jam selama bulan Februari sampai Mei 2013 diambil dari website AccuWeather sejumlah 2880 data. • Data mentah berupa data numerik untuk faktor suhu udara, kelembaban, kecepatan angin, indeks uv, tutupan awan dan juga titik embun. • Untuk kelas data yang didapat berupa data kategorial. 21
Hasil dan Pembahasan - 2 • Data mentah dilakukan proses preprocessing berupa data cleaning dan data transformation. Data cleaning dilakukan ketika terdapat missing value pada semua faktor dan hasil. • Data transformation dilakukan pada faktor dari data numerik menjadi data kategorial. • Faktor suhu, kecepatan angin, indeks uv, tutupan awan dan titik embun diubah menjadi 3 kategori, sementara faktor kelembaban diubah menjadi dua kategori. • Data hasil terbagi menjadi 14 kategori.
22
Mulai
Input Data Mentah
Preprocessing Data Hasil Preprocessing 90%
Algoritma CBA-RG
10%
Uji
Rule
Algoritma CBA-CB
Analisis Akurasi
Classifier
Selesai 23
Hasil dan Pembahasan - 4 • Data yang sudah dipreprocessing berjumlah 2672 data. • Data Preprocessing lalu diolah untuk menghasilkan rule. • Data yang digunakan untuk mencari rule sejumlah 80% dari jumlah data yakni 2138. • 20% data sejumlah 534 digunakan untuk uji coba. 24
Tabel CARs 2 Frequent Ruleitem saat minsup = 0.2 dan mincof = 0.2 Faktor
Kelas
l.kering
berawan
l.kering
gelap
u.rendah
gelap
aw.banyak
berawan
e.tinggi
berawan
e.tinggi
gelap
25
Tabel CARs 3 Frequent Ruleitem saat minsup = 0.2 dan mincof = 0.2 Faktor
Faktor
Kelas
aw.banyak
e.tinggi
berawan
e.tinggi
l.kering
berawan
e.tinggi
u.rendah
gelap
l.kering
aw.banyak
berawan
l.kering
e.tinggi
gelap
u.rendah
l.kering
gelap
26
Tabel CARs 4 Frequent Ruleitem saat minsup = 0.2 dan mincof = 0.2 Faktor
Faktor
Faktor
Kelas
aw.banyak
e.tinggi
l.kering
berawan
aw.banyak
l.kering
e.tinggi
berawan
e.tinggi
aw.banyak
l.kering
berawan
e.tinggi
l.kering
aw.banyak
berawan
e.tinggi
l.kering
u.rendah
gelap
e.tinggi
u.rendah
l.kering
gelap
l.kering
aw.banyak
e.tinggi
berawan
l.kering
e.tinggi
aw.banyak
berawan
l.kering
e.tinggi
u.rendah
gelap
l.kering
u.rendah
e.tinggi
gelap
u.rendah
e.tinggi
l.kering
gelap
u.rendah
l.kering
e.tinggi
gelap 27
Tabel Nilai Akurasi dengan data training 80% Minsup
Mincof
Jumlah Rule
Akurasi
0.2
0.1
24
50.93%
0.2
0.2
24
50.93%
0.1
0.1
115
40.82%
0.1
0.2
176
28.83%
28
Tabel Nilai Akurasi dengan data training 90% Minsup
Mincof
Jumlah Rule
Akurasi
0.2
0.1
20
50.05%
0.2
0.2
20
50.05%
0.1
0.1
114
32.20%
29
Nilai Akurasi
Grafik Nilai Akurasi 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00%
0.1 0.2
0.1
0.2
Mincof 30
Capture GUI Hasil
31
Kesimpulan • Banyak rule yang ditemukan tergantung pada nilai minsup dan mincof • Rule paling besar sampai 5 frequent • Hasil akurasi tergantung pada jumlah classifier yang ditemukan • Hasil akurasi paling besar diperoleh saat nilai minsup = 0.2 , mincof = 0.2 dan 0.1 • Hasil akurasi yang diperoleh kecil karena kategori kelas terlalu banyak • Waktu komputasi yang dibutuhkan untuk melakukan algoritma sangat lama. 32
Daftar Pustaka [1] Agrawal, R., Srikant, R. (1994). “Fast Algorithm for Mining Association Rules”, 20th Very Large Data Bases Conference, Santiago, Chile. [2] Azevedo, Paulo, J. “ A Data Structure to Represent Association Rules based Classifiers ”. Universidade do Minho Braga, Portugal [3] Baboo, Dr, S, Santhosh., Shereef, I, Kadar. (2010). “ Applicability of Data Mining Techniques for Climate Prediction – A Survey Approach “. International Journal of Computer Science and Information Security, Volume 8 Nomor 1 April 2010 pages 203-206 [4] Hsu, W., Lee, M. L., Wang, J. (2008). Temporal and Spatio-Temporal Data Mining, IGI Global., Hershey dan London [5] Inc, AccuWeather. (2013). “Cuaca Per Jam Surabaya”. http://www.accuweather.com/id/id/surabaya/203449/hourly-weatherforecast/203449 . Diakses tanggal 1 Februari 2013. [6] Iqbal, Muhammad. (2012). “ Peningkatan Efisiensi Pruning Pada Algoritma CBS Menggunakan Algoritma FEAT”. Thesis Magister Matematika, Institut Teknologi Sepuluh Nopember. [7] B. Liu, W. Hsu and Y. Ma. “ Integrating Classification and Association Rule Mining,“ KDD-98, New York, Aug 27-31.Department of Information Syste, and Computer Science National University of Singapore (1998). 33
Daftar Pustaka [8] Mitsa, T. (2010), Temporal Data Mining, A Chapman & Hall/CRC., New York. [9] Mujiasih, Subekti. (2011). “Pemanfaatan Data Mining Untuk Prakiraan Cuaca”. Jurnal Meteorologi dan Geofisika, Volume 12 Nomor 2 – September 2011 halaman 189-195. [10]Nandagopal, S at al. (2010). “ Mining of Meteorological Data Using Modified Apriori Algorithm “. European Journal of Scientific Research, Volume 47 No 2 Halaman 295-308. [11] Nofal, Mustafa., Bani-Ahmad, Sulieman. “ Classification Based On AssociationRule Mining Techniques: A General Survey And Empirical Comparative Evaluation “. Department of Information Technology, Al-Balqa Applied University, Jordan. [12]Olaiya, Folorunsho. (2012). “ Application of Data Mining Techniques in Weather Prediction and Climate Change Studies “. Jurnal Modern Education and Computer Science PRESS, Volume 1 Halaman 51-59, I.J. Information Engineering and Electronic Business. [13]Palanisamy, Senthil, K. (2006) “ Association Rule Based Classification “. Thesis Master of Science in Computer Science, Worcester Polytechnic Institute. [14]Santosa, Budi. (2007). “ Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis, Teori & Aplikasi “. Graha Ilmu, Yogyakarta. [15]Tan, N.P. Steinbach, M., Kumar, V, (2006), Introduction to Data Mining, Pearson Addison Weasly., New york. 34