PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon (0291) 686227 Abstrak : Bakteri e-coli merupakan bakteri mikroskopik yang memiliki ukuran sangat kecil dan hanya bisa dilihat dengan mikroskop. Penelitian ini menggunakan algoritma Naïve Bayes untuk mendeteksi bakteri ecoli. Penelitian ini menghasilkan nilai akurasi untuk algoritma klasifikasi Naive Bayes senilai 98.18% dan nilai Area Under Curve (AUC) untuk algoritma Naive Bayes senilai 0.871, sehingga penelitian ini dalam mendeteksi bakteri e-coli menhasilkan hasil yang akurat. Kata kunci : Bakteri e-coli, algoritma Naïve Bayes
TINJAUAN PUSTAKA
PENDAHULUAN
1.
Latar Belakang Bakteri
e-coli
mikroskopik
merupakan
yang
memiliki
Bakteri E-coli
bakteri
Bakteri
ukuran
mikroskopik
e-coli
merupakan
yang
bakteri
memiliki
ukuran
sangat kecil dan hanya bisa dilihat
sangat kecil dan hanya bisa dilihat
dengan mikroskop. Data di sini didapat
dengan mikroskop.
perkembangan bakteri yang memiliki
Dataset bakteri e-coli yang digunakan
perkembangan sangat kecil yaitu dalam
adalah UCI Dataset Repository. Atribut-
ukuran µm. Maka dari itu, perlu deteksi
atribut bakteri e-coli pada UCI Dataset
bakteri e-coli.
Repository adalah sequence name, mcg, gvh, lip, chg, aac, alm1 dan alm2.
Rumusan Masalah Penerapan algoritma Naive Bayes untuk deteksi
bakteri
menghasilkan
e-coli,
tingkat
diharapkan
akurasi
yang
tinggi.
2.
Algoritma Naïve Bayes
Algoritma naive bayes memanfaatkan teori probabilitas yang dikemukakan oleh
Thomas
Bayes
yaitu
seorang
ilmuwan dari Inggris (J. S. Badudu, Tujuan Penelitian
2001).
Menerapkan algoritma untuk
peningkatan
bakteri e-coli.
Naive Bayes
akurasi
deteksi
Thomas
Bayes
probabilitas di masa depan dengan berdasarkan
pengalaman
di
masa
sebelumnya.
Penerapan Algoritma Naïve Bayes Untuk Deteksi Bakteri E-Coli - Laily Hermawanti 17 JURNAL
memprediksi
TEKNIK - UNISFAT, Vol. 8, No. 1, September 2012 Hal 17 - 23
17 17
Berdasarkan probabilitas dan teorema
menangani missing value dengan
bayesian dengan asumsi bahwa setiap
mengabaikan
variabel bersifat bebas (independence)
pembuatan model dan klasifikasi.
dan mengasumsikan bahwa keberadaan sebuah
fitur
kaitannya
(variabel)
dengan
tidak
keberadaan
ada fitur
contoh
selama
Kokoh untuk atribut tidak relevan, jika X i adalah atribut yang tidak P X i Y
relevan,
maka
hampir
didistribusikan
menjadi
(variabel) yang lain. Naive bayes adalah model
penyederhanaan
bayes.
Naive
bayes
dari inilah
metode yang
seragam.
Peluang kelas bersyarat untuk X i
digunakan di dalam machine learning
tidak berdampak pada keseluruhan
sebagai metode untuk
perhitungan peluang posterior.
mendapatkan
hipotesis untuk suatu keputusan. Dapat dihitung dengan persamaan di bawah ini:
Atribut
yang
menurunkan bayes
dihubungkan performance
classifier
karena
Persamaan naive bayes (Oded Maimon
independen
and Lior Rokach, 2010):
menangani atribut tersebut.
Tahap-tahap Keterangan: 1
bersyarat
algoritma
Naive asumsi
tidak
naive
lagi
bayes
(Larose, 2005): = Class ke-i
Menyiapkan data training
=
Setiap data direpresentasikan sebagai
Kemungkinan
vektor
posterior X pada kondisi class = class
dapat
Kemungkinan
berdimensi-n
yaitu
X=(x1,x2,x3,......,xn) n adalah gambaran dari ukuran yang
.
dibuat di test dari n atribut yaitu Klasifikasi
naive
bayes
umumnya
memiliki karakteristik sebagai berikut: Kokoh untuh titik noise yang diisolasi seperti titik yang dirata-ratakan ketika mengestimasi peluang bersyarat data. Naive
18
JURNAL
bayes
classifier
dapat
A1,A2,A3,...........,An M adalah kumpulan kategori yaitu C1,C2,C3,........Cm. Diberikan data test X yang tidak diketahui kategorinya, maka classifier akan memprediksi bahwa X adalah
TEKNIK - UNISFAT, Vol. 8, No. 1, September 2012 Hal 17 - 23
18
milik
kategori
probability
dengan
tertinggi
posterior
berdasarkan
kondisi X.
terdapat pada RapidMiner dengan tujuan untuk
mempermudah
dalam
menganalisis performa algoritma karena
Naive bayesian classifier menandai
confusion matrix memberikan informasi
bahwa test X yang tidak diketahui tadi
dalam bentuk angka sehingga dapat
ke kategori Ci jika dan hanya jika
dihitung rasio keberhasilan klasifikasi.
P(Ci|X)>P(Cj|X) untuk 1 ≤ j ≤ m, j ≠ i
Dalam kasus dengan dua klasifikasi data
Kemudian kita perlu memaksimalkan
keluaran
(Jiawei
Han,2010)
seperti
contoh ya dan tidak, atau contoh lainnya,
P(Ci|X).
tiap kelas yang diprediksi memiliki
empat
Dimana x adalah nilai-nilai atribut
berbeda, yaitu true positive (TP) dan
kemungkinan
keluaran
yang
dalam sampel X dan probabilitas
true
P(x1|Ci), P(x2|Ci), ........., P(xn|Ci)
ketepatan
dapat diperkirakan dari data training.
keluaran bernilai positive sedangkan nilai
negative
(TN)
menunjukkan
klasifikasi.
aslinya
adalah
Jika
prediksi
positive
maka
3. Alat Ukur Evaluasi dan Validasi
disebut dengan false negative (FN).
Evaluasi model merupakan tahapan yang
Berikut ini pada tabel 3 disajikan bentuk
juga dikerjakan dalam penelitian dengan
confusion matrix seperti yang telah
tujuan
dijelaskan sebelumnya.
untuk memperoleh informasi
yang terdapat pada hasil klasifikasi terhadap
kedua
algoritma
yang
digunakan. Dalam RapidMiner hasil klasifikasiyang
diperoleh
Tabel 1. Hasil yang Diperoleh dari Dua Kelas Prediksi (Jiawei Han, 2010)
dengan
beberapa alat ukur yang tersedia di dalamnya, diantaranya adalah sebagai
Observed Class
Predicted Class Yes Yes
berikut:
Confusion matrix Dalam penelitian ini dipilih alat ukur
No
A True Positive – TP C False Positive – FP
No b False Negative – FN d True Negative – TN
evaluasi berupa confusion matrix yang
19 Penerapan Bayes Untuk Bakteri E-Coli TEKNIKNaïve - UNISFAT, Vol. 8,Deteksi No. 1, September 2012- Laily Hal 17Hermawanti - 23 JURNAL Algoritma
19 19
Beberapa kegiatan yang dapat dilakukan
telah
dengan
dihitung jumlah sensitivity, specificity,
menggunakan
klasifikasi
dalam
data
confusion
hasil matrix
diantaranya:
dimasukkan
precision
dan
digunakan
tersebut
accuracy.
untuk
untuk
Sensitivity
membandingkan
Menghitung
nilai
rata-rata
jumlah true positives terhadap jumlah
keberhasilan
klasifikasi
(overall
tupel
yang
positives
sedangkan
success rate) ke dalam kelas yang
specificity adalah perbandingan jumlah
sesuai dengan cara membagi jumlah
true negatives terhadap jumlah tupel
data
yang
yang
terklasifikasi
dengan
negatives.
Untuk
menghitung
benar, dengan seluruh data yang
digunakan persamaan di bawah ini
diklasifikasi
(Jiawei Han,2010)
Selain
itu
dilakukan
pula
penghitungan
persentase
kelas
positive (true positive dan false positive)
yang
diperoleh
dalam
klasifikasi, yang disebut dengan lift chart.
Lift chart terkait erat dengan sebuah teknik dalam mengevaluasi skema data mining yang dikenal dengan ROC
(Receiver
Characteristic)
yang
Operating berfungsi
Dimana :
mengekspresikan persentase jumlah
t_pos
proporsi positive dan negative yang
t_neg = Jumlah true negatives
diperoleh.
pos
= Jumlah tupel positif
neg
= Jumlah tupel negatif
Recall
Precision
berfungsi
menghitung persentase false positive dan
false
negative
= Jumlah true positives
f_pos = Jumlah false positives
untuk
menentukan informasi di dalamnya. Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai-nilai yang
20
JURNAL
TEKNIK - UNISFAT, Vol. 8, No. 1, September 2012 Hal 17 - 23
20
ROC
(Receiver
Operating
Tahap ini akan membahas metode
Characteristic) Curve
yang akan digunakan untuk penelitian
Kurva ROC merupakan ilustrasi grafis
nanti.
dari kemampuan diskriminan (Jiawei
dilakukan studi literatur dari buku dan
Han,2010)
jurnal, ditemukan bahwa salah satu cara
Biasanya ROC diterapkan untuk masalah klasifikasi. Apabila garis diagonal diatas, maka klasifikasi baik sedangkan garis diagonal
dibawah,
maka
klasifikasi
buruk.
Dalam
yang
penelitian,
dapat
mengklasifikasikan
setelah
membantu diagnosis
penyakit kanker payudara dari UCI Dataset
Repository
dengan
menggunakan algoritma Naïve Bayes. 4. Eksperimen
dan
Pengujian
METODE PENELITIAN
Model/Metode (Method Test and
Metode penelitian pada penelitian ini
Experimen)
adalah penelitian eksperimen dengan
Metode eksperimen dan pengujian ini
urutan sebagai berikut:
dengan algoritma Naïve Bayes.
1. Pengumpulan Data (Data Gathering)
5. Evaluasi dan Validasi Hasil (Result
Tahap ini dilakukan sebagai langkah
Evaluation)
awal
penelitian.Untuk
Tahap ini akan membahas tentang
memperoleh data yang benar-benar
hasil evaluasi dari eksperimen yang
akurat, maka penentuan jenis dan
telah
sumber
penting.
implementasi dengan menggunakan
Dataset bakteri e-coli yang digunakan
model ROC CURVE (AUC). Hasil
adalah 3 UCI Dataset Repository.
pengujian yang di dapat dari metode
dari
suatu
data
sangatlah
2. Pengolahan Awal Data (Data Pre-
dilakukan.
Pengujian
hasil
Confusion Matrix adalah akurasi.
processing) Data yang didapat diolah untuk
EVALUASI DAN VALIDASI PADA
mendapatkan atribut yang relevan dan
ALGORITMA NAÏVE BAYES
sesuai.
Penelitian ini evaluasi dan validasi hasil
3. Metode Yang Diusulkan (Proposed Model/Method)
menggunakan
confusion
matrix
(accuracy) dan ROC Curve.
21 Penerapan Bayes Untuk Bakteri E-Coli TEKNIKNaïve - UNISFAT, Vol. 8,Deteksi No. 1, September 2012- Laily Hal 17Hermawanti - 23 JURNAL Algoritma
21 21
Berdasarkan hasil perhitungan, tingkat
Confusion Matrix Evaluasi
dengan
confusion
matrix
menggunakan tabel matrix seperti di
akurasi menggunakan algoritma Naive Bayes sebesar 98.18%.
bawah ini
Tabel 2. Konversi Naive Bayes ke
(Receiver
Operating
Grafik ROC dengan nilai AUC (Area
confusion matrix
cp (Cytoplasm) im (inner membrane without signal sequence)
Kurva ROC Characteristic)
cp
im
Under Curve) dengan algoritma naive
143
4
bayes sebesar 0.548 dan nilai AUC yang
0
73
menggunakan algoritma naive bayes berbasis
AdaBoost
mencapai
angka
0.871 seperti terlihat pada gambar di bawah ini. Akurasi AUC dikatakan sempurna apabila nilai AUC mencapai
Kemudian masukkan nilai yang ada di
1.000 dan akurasinya buruk jika nilai
dalam
AUC dibawah 0.500. Nilai AUC dalam
confusion
matrix
ke
dalam
persamaan di bawah ini:
grafik ROC dengan Algoritma Naive
Accuracy = 143+73 / (143+4+0+73) =
Bayes dapat dilihat pada Gambar 2.
216 / 220 = 0.9818
Gambar Confusion Matrix algoritma Naive Bayes menggunakan RapidMiner dapat dilihat pada Gambar 1.
Gambar 2. Nilai AUC dalam grafik ROC dengan Algoritma Naive Bayes Gambar 1 : Confusion Matrix algoritma Naive Bayes menggunakan RapidMiner
22
JURNAL
TEKNIK - UNISFAT, Vol. 8, No. 1, September 2012 Hal 17 - 23
22
Analisa dan Validasi Model
optimasi yang lain pada algoritma Naïve
Penggunaan algoritma
Bayes supaya didapatkan hasil akurasi
Naive Bayes
akurasinya tinggi dalam mendeteksi bakteri e-coli. Seperti tabel di bawah ini: Tabel 3. Analisa hasil evaluasi dan Algoritma Naive
98.18%
AUC
0.871
DAFTAR PUSTAKA J. S. Badudu, Kamus Umum Bahasa Indonesia. Jakarta: Pustaka Sinar Harapan, 2001.
Bayes Accuracy
yang lebih tinggi.
Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook, Second Edition ed.,
validasi
Oded Maimon and Lior Rokach, Eds. London, New York: Springer,
Tabel 3 menunjukkan analisa evaluasi hasil naive bayes nilai akurasi sebesar 98.18% dan nilai AUC sebesar 0.871.
2010. D. T Larose, Discovering Knowledge in Data.: New Jersey: John Willey, 2005.
KESIMPULAN DAN SARAN
Jiawei Han and Micheline Kamber, Data
Kesimpulan Setelah
dilakukan
Mining Concepts And Techniques, evaluasi
dengan
algoritma Naive Bayes, hasil akurasinya
1st ed., Asma Stephan, America: Diane Cerra, 2007.
tinggi. Nilai akurasi untuk algoritma klasifikasi Naive Bayes senilai 98.18% dan nilai AUC untuk algoritma Naive Bayes senilai 0.871.
Saran Untuk menambah akurasi algoritma, akan lebih baik apabila dioptimasi dengan algoritma seperti Particle Swarm optimization (PSO), Genetic Algorithm (GA)
ataupun
algoritma-algoritma
23 Penerapan Bayes Untuk Bakteri E-Coli Laily TEKNIKNaïve - UNISFAT, Vol. 8, Deteksi No. 1, September 2012- Hal 17Hermawanti - 23 JURNAL Algoritma
2323