BOOSTING MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) BINARY RESPONSE UNTUK KLASIFIKASI KEMISKINAN DI KABUPATEN JOMBANG Anna Apriana Hidayanti Dosen Sekolah Tinggi Ilmu Ekonomi AMM Mataram Email :
[email protected]
Abstratc Poverty is one of the main problems faced by the people of Indonesia since ancient to the present so that a variety of planning, policy and program development has been and will be held on the point is to reduce the number of poor households. Family expectations, conditional cash assistance program, launched of Indonesia Government In 2007, first time in Indonesia. This Program aims to improve the quality of human beings by providing conditional cash assistance in accessing health and education services.The determination of the target family expectations, conditional cash assistance program done by BPS, for the first time used data of year 2005 owned ( based on the name and address ) subsequently in 2008 PPLS use 14 metric of poverty if household certain worthy relief. Virtue of analysis descriptive verification of data about households in the county of Jombang done by BAPEDA Jombang in 2010 that analysis needs desired or expected by majority of poverty in the county of Jombang expects direct aid, aid and assistance of venture capital, cattle the average who expects blt is worth 35,73 and as much as 28,16 % households in the county of Jombang hope for the help of livestock 17,99 hope for the help of venture capital, physical relief house at 8.28 %, aid daily needs 6.51 % and help or health education by 2,03 %.In this study of predictor variables have a lot then the MARS method can be used as tools that are expected to get the proper classification accuracy levels and to improve the accuracy of classification models and resampling methods used boosting where boosting is one method of ensemble used to improve the accuracy of classification by means of models generate a combination of a model get the best models and the variables that affect the best model with the method of binary response and MARS get accuracy classification needs help households with very poor and poor status of the method of binary response and boosting MARS. Households needs help is in the form of money and not in the form of money. Results of the research there were show by the method of MARS seven variables that affect household models are very poor ownership of residential buildings has the greatest influence on the model and the reduction of the value of the General Cross Validation (GCV), then a variable that has the most influence on models and substractiongcv to the poor is household income every month. Total accuracy classifications MARS and boosting MARS for households with the status of very poor is 70,50 % and 61,93 %, Results with total accuracy classifications MARS and boosting MARS to poor households with status is 64,30 % and 46,34 %. Kata kunci :Multivariate Adaptive Regrression Spline, Boosting, Binary Response, Poverty 1. PENDAHULUAN 1.1 Latar Belakang Kemiskinan merupakan masalah klasik yang belum tuntas terselesaikan terutama di Negara berkembang, artinya kemiskinan menjadi masalah yang dihadapi dan menjadi perhatian di setiap Negara. Persoalan kemiskinan merupakan salah satu permasalahan pokok yang dihadapi bangsa Indonesia sejak dahulu hingga sekarang, sehingga berbagai perencanaan, kebijakan, serta program pembangunan yang telah dan akan dilaksanakan pada intinya adalah untuk mengurangi jumlah rumah tangga miskin.
Jurnal Valid Vol. 12 No. 4, Oktober 2015 : 388 - 398
389
Pada tahun 2007 pemerintah Indonesia meluncurkan Program KeluargaHarapan (PKH), program bantuan dana tunai bersyarat pertama di Indonesia. Program ini bertujuan meningkatkan kualitas manusia dengan memberikan bantuan dana tunai bersyarat dalam mengakses layanan kesehatan dan pendidikan tertentu. Penetapan sasaran PKH dilakukan oleh BPS untuk pertama kalinya menggunakan data tahun 2005 yang dimiliki (berdasarkan nama dan alamat) BPS melakukan survey pendidikan dan survey pelayanan kesehatan dan pendidikan guna mengidentifikasi rumah tangga miskin serta fasilitas pendidikan dan kesehatan. Daftar tahun 2005 memuat berada pada sebaran penghasilan terendah dan digunakan sebagai daftar untuk program Bantuan Langsung Tunai (BLT) , kemudian pada tahun 2008 pendataan Program Perlindungan Sosial (PPLS) menggunakan 14 indikator kemiskinan apakah rumah tangga tertentu layak mendapatkan bantuan (Nazara, 2013). Dalam penelitian ini akan digunakan data sekunder yang diperoleh dari Badan Perencanaan Pembangunan Daerah (BAPPEDA) Kabupaten Jombang 2010. Kabupaten Jombang memiliki luas wilayah 1.159,50 Km2. Kabupaten Jombang terbagi menjadi 21 kecamatan yang terdiri dari 302 desa dan 4 Kelurahan serta 1.258 dusun. Apabila ditinjau dari komposisi jumlah desa/kelurahan maka Kecamatan Sumobito memiliki jumlah desa terbanyak yaitu 21 buah. Kabupaten Jombang berdasarkan data BPS 2011 (hasil SUSENAS Juli 2010) diketahui persentase penduduk miskin sebesar 13,845 atau sebesar 166.287 jiwa dari total jumlah penduduk Jombang 1.348.199 jiwa, dengan persentase tersebut Kabupaten Jombang masih diatas garis kemiskinan yang ditetapkan jika didasarkan pada tingkat kemiskinan Provinsi yang sebesar 15,26% dan tingkat kemiskinan nasional 13,33% (Indikator Kesejahteraan Provinsi Jawa Timur, TNP2K, 2011). Berdasarkan analisis deskriptif verifikasi data tentang RTM di Kabupaten Jombang yang dilakukan oleh BAPEDA Jombang pada tahun 2010 bahwa analisis kebutuhan yang diingingkan atau diharapkan oleh sebagian besar RTM di Kabupaten Jombang mengharapkan bantuan langsung (BLT), bantuan ternak dan bantuan modal usaha, Rata-rata yang mengharapkan BLT adalah sebesar 35,73 dansebesar 28,16% RTM di Kabupaten Jombang mengharapkan bantuan ternak, kemudian sebesar 17,99 mengharapkan bantuan modal usaha, bantuan fisik rumah sebesar 8,28%, bantuan kebutuhan sehari-hari 6,51% dan bantuan pendidikan /kesehatan sebesar 2,03%. Maka untuk mengetahui apakah tingkat keakurasian klasifikasi dari pemberian bantuan yang diharapkan penduduk miskin tersebut sudah tepat atau tidak maka dilakukan uji keakuratan klasifikasi, diketahui bahwa untuk menguji tingkat akurasi klasifikasi dapat menggunakan regresi parametric dan regresi nonparametrik , karena pada penelitian ini diasumsikan bahwa hubungan variaabel respon dan variabel prediktor memiliki hubungan yang tidak diketahui maka digunakaan regresi non parametrik dimana dalam penelitian ini memiliki variabel yang berjumlah banyak maka metode MARS dapat digunakan sebagai tools. MARS adalah salah satu model regresi nonparametrik, yaitu model yang tidak mengasumsikan bentuk hubungan fungsional antara variabel respon dan prediktor, dan mempunyai bentuk fungsional yang fleksibel, MARS baik digunakan ketika variabel prediktor yang digunakan berjumlah banyak dan data yang digunakan bersifat tidak linier (Munoz dan Felicimo, 2004 dalam Jalaluddin,2009). Pada model MARS sendiri akan dilakukan tahap pengklasifikasian untuk mengetahui ketepatan atau tingkat akurasi klasifikasi dari model MARS. Tingkat akurasi dari suatu metode klasifikasi dapat ditingkatkan dengan tujuan memberikan hasil klasifikasi yang lebih baik dan menurunkan tingkat kesalahan klasifikasi maka dilakukan metode resampling dalam penyusunan modelnya untuk menurunkan tingkat kesalahan klasifikasi. Metode resampling yang digunakan adalah boosting. Boosting berasal dari kata boost yang berarti menaikan atau menurunkan, boosting merupakan salah satu metode ensemble Boosting Multivariate Adaptive ... (Anna Apriana Hidayanti)
Jurnal Valid Vol. 12 No. 4, Oktober 2015 : 388 - 398
390
yang digunakan untuk meningkatkan akurasi dari model klasifikasi dengan cara membangkitkan kombinasi dari suatu model. Dalam penelitian, diharapkan mampu menjelaskan dan mendapatkan tingkat keakurasian klasifikasi secara lebih tepat dan spesifik untuk rumah tangga dengan status sangat miskin dan rumah tangga dengan status miskin dengan metode MARS respon biner maupun dengan metode boosting MARS. 1.2 Rumusan Masalah Berdasarkan latar belakang yang telah dikemukakan, maka permasalahan dalam penelitian ini dapat dirumuskan sebagai berikut : 1. Bagaimana mendapatkan model terbaik bantuan yang diharapkan rumah tangga miskin berdasarkan indikator-indikator kemiskinan di Kabupaten Jombang ? 2. Bagaimana perbandingan tingkat akurasi klasifikasi dari metode MARS respon biner dan Boosting MARS respon biner ? 1.3 Tujuan Penelitian Berdasarkan rumusan masalah di atas, maka tujuan yang ingin dicapai dalam penelitian ini adalah sebagai berikut : 1. Mendapatkan model terbaik bantuan yang diharapkan rumah tangga miskin berdasarkan indikator-indikator kemiskinan di Kabupaten Jombang 2. Membandingankan tingkat akurasi klasifikasi dari metode MARS respon biner dan Boosting MARS respon biner 1.4 Manfaat Penelitian Manfaat yang ingin dicapai dari hasil penelitian ini adalah sebagai berikut : 1. Memberikan kontribusi dengan pengembangan metode boosting MARS respon biner. 2. Sebagai informasi tambahan yang dapat digunakan BAPPEDA dalam pemberian bantuan terhadap rumah tangga miskin di Kabupaten Jombang II. TINJAUAN PUSTAKA 2.1 Multivariate Adaptive Regrression Spline (MARS) MARS adalah salah satu metode regresi nonparametik yang diperkenalkan oleh Friedman (1991). Model MARS digunakan untuk mengatasi kelemahan Recursive Partitioning Regression (RPR) yaitu menghasilkan model yang kontinu pada knot.RPRdigunakan untuk mengatasi kesulitan yang timbul saat penentuan knot pada regresi dummy untuk dimensi data yang rendah, penentuan knot tidak akan mengalami kesulitan, tetapi untuk data yang berdimensi tinggi terdapat kesulitan. Untuk mengatasi hal tersebut digunakan model RPR karena penentuan knot tergantung (otomatis) dari data. Tetapi model ini masih terdapat kelemahan yaitu model yang dihasilkan tidak kontinu pada knot, dan untuk mengatasinya digunakan model MARS. 2.2 Klasifikasi pada MARS Respon Biner Pada model MARS, masalah klasikasi didasarkan pada pendekatan analisis regresi logistik. Jika variabel respon terdiri dari dua nilai , maka dikatakan sebagai regresi dengan respon biner, sehingga dapat digunakan model probabilitas dengan persamaan berikut (Otok, 2010) : P(Y 1 X x ) π x
e f(x) 1 e f(x)
P(Y 0 X x ) (1 π x )
1 1 e f(x)
Boosting Multivariate Adaptive ... (Anna Apriana Hidayanti)
(2.1)
Jurnal Valid Vol. 12 No. 4, Oktober 2015 : 388 - 398 Lemma
1
:
(Otok,
2008)
Jika
e maka L :R 0,1 L x z 1 e
hubungan
z
inver
dari
dengan L dapat
391 model
logistik
dikatakan
,
sebagai
x transformasi logit, log it x ln z 1 x
Selanjutnya jika Lemma 1 terpenuhi dan z f x yaitu,
z f x yaitu ^
z f x a0 a m S km .xv k,m t Km
M
km
m 1
k 1
Variabel respon Y merupakan variabel respon biner (0 dan 1) dengan p banyaknya variabel prediktor x x1, x2 ,..., x p sehingga model MARS untuk klasifikasi dapat dinyatakan dapat ditulis dalam model : km M x a 0 a m S Km .x vk ,m t Km log itx ln m 1 k 1 1 x dan dalam bentuk matriks, (2.2) log itx Ba dengan a (a0 ,a1 ...,an ):T ; dan matriks pada persamaan (2.9) 2.3 Ketepatan Klasifikasi Untuk menghitung ketepatan klasikasi pada hasil pengelompokan digunakan Apparent Error Rate (APER). Nilai APER menyatakan reresentasi proporsi sampel yang salah diklasikasikan. Dalam penelitian kali ini digunakan respon biner sehingga penentuan kesalahan klasikasi dapat dihitung dari tabel klasikasi berikut : Tabel 2.1 Tabel Klasifikasi
Hasil Observasi y1 y2
Taksiran y1 n11 n21
y2 n12 n22
Keterangan : n11= jumlah observasi dari y1 yang tepat diklasifikasikan sebagai y1 n22 = jumlah observasi dari y2 yang tepat diklasifikasikan sebagai y2 n21 = jumlah observasi dari y2 yang salah diklasifikasikan sebagai y1 n12 = jumlah observasi dari y1 yang salah diklasifikasikan sebagai y2 n = jumlah observasi jumlah prediksi salah n21 n12 APER(%)= 100% jumlah total prediksi n
Total accuracy rate (100%)=
jumlah prediksi benar n11 n22 100% . jumlah total prediksi n
(2.3) (2.4)
2.4 Boosting Bosting merupakan salah satu metode ensamble yang digunakan dalam meningkatkan akurasi pada proses klasifikasi dan prediksi dengan cara membangkitkan kombinasi dari suatu model, Ide dasar dari bosting adalah pada bobot pada proses learning dimana setiap sampel pada proses training diatur memiliki bobot nonnegative (Okun, 2011) . Boosting Multivariate Adaptive ... (Anna Apriana Hidayanti)
Jurnal Valid Vol. 12 No. 4, Oktober 2015 : 388 - 398
392
Berikut ini adalah langkah-langkah dari algoritma Adaboost: Input: D, suatu himpunan yang terdiri dari sebanyak d class-labeled training tuple T, banyaknya classifier yang akan dibangkitkan Suatu classification learning scheme Output: Suatu model komposit M* 2.5 Kemiskinan Badan Pusat Statistik (BPS) menetapkan indikator kemiskinan di Indonesia. Indikator tersebut adalah sebagai berikut : 1) Luas lantai rumah; 2) Jenis lantai rumah; 3) Jenis dinding rumah; 4) Fasilitas tempat buang air besar; 5) Sumber air minum; 6) Penerangan yang digunakan; 7) Bahan bakar yang digunakan; 8) Frekuensi makan dalam sehari; 9) Kebiasaan membeli daging/ayam/susu; 10) Kemampuan membeli pakaian; 11) Kemampuan berobat ke puskesmas/poliklinik; 12) Lapangan pekerjaan kepala rumah tangga; 13) Pendidikan kepala rumah tangga; dan 14) Kepemilikan aset III. METODE PENELITIAN 3.1 Data dan Variabel Penelitian Data yang digunakan dalam penelitian adalah data sekunder yang diperoleh dari Badan Perencanaan Pembangunan Daerah (BAPPEDA) Kabupaten Jombang tahun 2010. Dalam penelitian sebagai unit observasi adalah unit rumah tangga dengan status sangat miskin dan miskin di Kabupaten/Kecamatan Jombang . Variabel respon (Y) merupakan variabel yang berisi kelas yang terdiri dari dua kategori ialah kategori (-1) yaitu, kebutuhan yang diperlukan rumah tangga miskin berupa uang dimana bantuan berupa uang berdasarkan jumlah rumah tangga yang mengharapkan bantuan berupa : uang, BLT, dan modal usaha dan kategori (1) yaitu, kebutuhan yang diperlukan rumah tangga miskin berupa non uang dimana bantuan berupa tidak dalam bentuk uang (non uang) : hewan ternak, alat pertanian dan bantuan kesehatan, sedangkan variabel-variabel prediktor menyangkut semua indikator yang termaksud kedalam indikator kesehatan, SDM, dan ekonomi. Variabel-variabel prediktor dijelaskan dalamTabel 3.2 3.2 Variabel Penelitian Variabel yang digunakan dalam penelitian ini terbagi menjadi 2 yaitu variabel respon (Y) dan variabel prediktor (X). Tabel 3.1 : Variabel Prediktor Penelitian Variabel X1
Definisi Operasional Status penguasaan bangunan tempat tinggal
Kategori a: milik sendiri b: kontrak/sewa c: bebas sewa d: rumah dinas
Boosting Multivariate Adaptive ... (Anna Apriana Hidayanti)
Jurnal Valid Vol. 12 No. 4, Oktober 2015 : 388 - 398
2
X2 X3
Luas kavling termasuk bangunan (m ) 2 Luas lantai (m )
X4
Jenis atap terluas
X5
Jenis dinding terluas
X6
Jenis lantai terluas
X7
Tempat buang air besar (jamban)
X8
Tempat pembuangan air tinja
X9
Sumber penerangan utama
X10
Sumber air minum
X11
Bahan bakar yang digunakan dalam memasak
X12
Tempat pengobatan
X13
Ijazah terakhir kepala keluarga
X14
Penghasilan tiap bulan
e: rumah milik orang tua/saudara f: rumah milik orang tua g: lainnya a: beton b: genteng c: kayu sirap d: seng e: asbes f: ijuk/rumbia a: tembok b: kayu c: bambu d: lainnya a: keramik/marmer/granit b: ubin/tegel/teraso c: semen/bata merah d: kayu/papan e: bambu f: tanah g: lainnya a: milik sendiri b: milik bersama c: umum d: tidak ada a: septictank b: kolam/sawah c: sungai/waduk d: lubangt anah e: tanah lapang/kebun f: lainnya a: listrik PLN meteran b: listrik PLN bukan meteran (menumpang, dsb.) c: listrik non PLN d: bukan listrik a: air dalam kemasan b: ledeng c: pompa d: sumur e: mata air f: air sungai g: lainnya a: listrik b: gas/elpiji c: minyak tanah d: arang kayu/tempurung e: kayu bakar f: lainnya a: RS/puskesmas/pustu b: praktik dokter c: praktik paramedik d: praktik pengobatan tradisional e: lainnya 1: tidak punya 2: SD/setara 3: SLTP/setara 4: SLTA/setara 5: diplomaI/II -
Boosting Multivariate Adaptive ... (Anna Apriana Hidayanti)
393
Jurnal Valid Vol. 12 No. 4, Oktober 2015 : 388 - 398 X15
Kepemilikan aset dalam rumah
X16
Konsumsi daging/susu/ayam satu kali dalam seminggu
X17
Membeli satu set pakaian baru dalam setahun
X18
Frekuensi makan dalam sehari
1. 2.