PENERAPAN METODE MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) UNTUK MENENTUKAN FAKTOR YANG MEMPENGARUHI MASA STUDI MAHASISWA FPMIPA UPI Mardiah Annur, Jarnawi Afgani Dahlan, Fitriani Agustina Departemen Pendidikan Matematika FPMIPA UPI
ABSTRAK Keterlambatan lulus dari program S1 menjadi salah satu permasalahan yang terjadi pada mahasiswa di sebagian besar perguruan tinggi, salah satunya terjadi di FPMIPA UPI. Salah satu upaya yang dapat dilakukan sebagai usaha meminimalisir banyaknya mahasiswa yang lulus terlambat adalah dengan cara menganalisis faktor yang mempengaruhi lama masa studi mahasiswa FPMIPA UPI. Multivariate Adaptive Regression Spline (MARS), suatu kombinasi antara Recursive Partitioning Regression (RPR) dan metode Spline, mampu mengolah data berdimensi tinggi dan berukuran besar, serta mampu mengolah data dengan variabel respon berbentuk kontinu ataupun biner, sesuai dengan permasalahan klasifikasi alumni FPMIPA UPI. MARS akan membangun suatu model terbaik sebagai model klasifikasi yang melibatkan beberapa fungsi basis yang memuat variabel prediktor yang berpengaruh. Berdasarkan analisis klasifikasi yang dilakukan diperoleh kesimpulan bahwa variabel prediktor yang paling berpengaruh terhadap masa studi mahasiswa FPMIPA UPI adalah jalur masuk. Sementara variabel prediktor yang berpengaruh lainnya yaitu IP semester pertama, jenis kelamin, dan program studi. Kata kunci : Masa Studi, MARS
PENDAHULUAN Latar Belakang Perguruan Tinggi, sebagai salah satu jenjang pendidikan di Indonesia, bertujuan melahirkan para sarjana yang handal dan memiliki keterampilan di bidangnya. Menurut Guillory (2008), salah satu ukuran kesuksesan pembelajaran pada tingkat pendidikan tinggi adalah tingkat ketepatan masa studi. Waktu standar yang dibutuhkan untuk menyelesaikan studi program S1 adalah selama 4 tahun atau setara dengan 8 semester. Akan tetapi, pada kenyataannya banyak mahasiswa yang mengalami kesulitan untuk menuntaskan studinya sesuai dengan standar waktu studi yang telah ditentukan. Hal ini didukung oleh data statistik yang menunjukkan bahwa, salah satunya di FPMIPA UPI, rata-rata lama studi mahasiswa program S1 untuk waktu lulus Januari 2008 sampai dengan Agustus 2013 adalah sekitar 9,4 semester yang setara dengan 4,7 tahun.
135 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Untuk mengantisipasi masalah lama masa studi mahasiswa tersebut, dapat dilakukan dengan analisis untuk mengetahui faktor-faktor yang mempengaruhi lama masa studi mahasiswa program S1 FPMIPA UPI. Penelitian sebelumnya yang dilakukan Permana (2011) menyatakan bahwa faktor-faktor yang diduga mempengaruhi lama masa studi mahasiswa adalah jenis kelamin, Indeks Prestasi (IP) semester satu, daerah asal, program studi, dan jalur masuk perguruan tinggi. Permasalahan klasifikasi alumni FPMIPA UPI berdasarkan masa studinya dipengaruhi oleh banyak variabel prediktor, melibatkan variabel respon bernilai biner, dan memiliki data sampel berukuran besar. Karakteristik permasalahan ini sesuai dengan kemampuan dari suatu metode nonparametrik, yaitu Multivariate Adaptive Regression Spline (MARS). Metode MARS dapat mengatasi permasalahan data berdimensi tinggi, yaitu data yang memiliki banyak variabel prediktor sebesar 3 ≤ n ≤ 20 dan data sampel berukuran besar yang memerlukan perhitungan rumit serta data dengan beberapa nilai input yang hilang (missing input value). Variabel respon yang diolah pada metode MARS pun dapat berbentuk kontinu ataupun biner (Kriner, 2007). Rumusan Masalah Berdasarkan latar belakang yang telah dikemukakan sebelumnya, masalah yang dirumuskan dalam penelitian ini adalah: 1. Bagaimana hasil penerapan metode MARS pada kasus klasifikasi alumni FPMIPA UPI berdasarkan masa studi? 2. Bagaimana hasil interpretasi model klasifikasi MARS untuk permasalahan masa studi alumni FPMIPA UPI? Batasan Masalah Pada penelitian ini, analisis klasifikasi menggunakan data alumni FPMIPA UPI yang lulus pada Juni 2011 sampai Juni 2013 dan progam komputer yang digunakan adalah Salford Predictive Modeler versi 7.0. Tujuan Penelitian Berdasarkan rumusan masalah di atas, maka tujuan penulisan skripsi ini adalah sebagai berikut: 1. Mengetahui hasil penerapan metode MARS pada kasus klasifikasi alumni FPMIPA UPI berdasarkan masa studi; 2. Mengetahui hasil interpretasi model klasifikasi MARS untuk permasalahan masa studi alumni FPMIPA UPI.
136 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Manfaat Penulisan Manfaat teoritis yang diharapkan dari penenlitian ini adalah diharapkan dapat menambah wawasan mengenai metode klasifikasi MARS, khususnya dalam menentukan faktor-faktor yang mempengaruhi masa studi mahasiswa. Sementara manfaat praktis dari penenlitian ini adalah dapat memahami penerapan metode MARS dalam bidang pendidikan, khususnya pengklasifikasian alumni berdasarkan masa studi serta dapat menjadi informasi strategis bagi program studi atau fakultas sehingga dapat meningkatkan upaya untuk mendorong dan mempercepat kelulusan mahasiswa. PEMBAHASAN Recursive Partitioning Regression Spline Recursive partitioning regression (RPR) merupakan suatu metode nonparametrik yang dapat dipandang sebagai suatu prosedur regresi stepwise untuk mengaproksimasi fungsi yang tidak diketahui f(x) yang berbentuk: ( )=
( )
( ) menyatakan fungsi dengan menyatakan koefisien fungsi basis ke-m, dan basis ke-m. Fungsi basis merupakan kumpulan fungsi parametrik yang terdiri dari satu atau lebih variabel. Sedangkan knot adalah nilai variabel prediktor ketika slope suatu garis regresi mengalami perubahan (Febriyanti, dkk, 2013). Adapun fungsi basis Bm pada RPR didefinisikan sebagai berikut: =
∙
( , )
−
dimana H menyatakan step function, yang didefinisikan sebagai berikut: 1, jika ≥ 0 [ ]= ; 0, lainnya dengan Km menyatakan derajat interaksi, skm menyatakan tanda pada titik knot (bernilai +1 atau –1), Xv(k,m) menyatakan variabel prediktor, dan tkm menyatakan nilai knot dari variabel prediktor Xv(k,m). Akan tetapi, RPR memiliki kelemahan yang mengurangi keefektifannya, diantaranya adalah model yang dihasilkan oleh RPR tidak kontinu pada batas regionnya (lack of continuity) dan juga model RPR tidak mampu mengidentifikasi fungsi f(x) berbentuk linear atau aditif dan RPR cenderung sulit diinterpretasi apabila variabel prediktor terlalu banyak (Friedman, 1991).
137 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Regresi Spline Spline merupakan suatu pendekatan yang digunakan untuk mengatasi permasalahan yang ditimbulkan oleh data yang berpola naik atau turun secara tajam. Spline berupa fungsi piecewise (potongan) polinomial yang memiliki sifat tersegmen dan kontinu, dimana fungsi spline univariat berderjat q didefinisikan sebagai berikut: ( )=
dengan K knot, yaitu didefinisikan sebagai:
,
, ...,
+
−
,
. Adapun, truncated power basis ( −
)
( − ) ; − >0 0 ; − ≤ 0. Sehingga bentuk umum fungsi spline berderajat q dengan p variabel prediktor adalah: ( −
( )=
) =
+
+
−
+ ⋯+ ( )=
dengan
+
+
+
−
− (
+
+
−
) ,
( − ) ; − >0 0 ; − ≤ 0. Regresi spline merupakan salah satu metode regresi nonparametrik dimana bentuk kurva regresinya berupa fungsi spline. Secara umum, model regresi spline univariat dapat dituliskan sebagai berikut (Oktaviana & Budiantara, 2011): (
−
=
) =
+
+
( −
) +
dimana q ≥ 1 serta dan bernilai real, untuk = 1,2, … , = 1, … , , dan = 1, 2, … , , serta adalah error random independen dengan mean nol dan varians . Sedangkan untuk model regresi spline secara umum dengan p variabel prediktor adalah:
138 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
=
+
(
+ + ⋯+
=
+
) +
− +
−
(
+
)
−
(
+
−
)
+
+ .
Multivariate Adaptive Regression Spline (MARS) Multivariate Adaptive Regression Spline (MARS), yang diperkenalkan pertama kali oleh Friedman (1991), merupakan suatu pendekatan regresi nonparametrik yang dihasilkan dari kombinasi kompleks antara RPR dan pendekatan spline. Model MARS ini secara umum didefinisikan sebagai berikut: ( )=
+
[
∙
( , )
−
]
(1)
] +
(2)
dengan a0 menyatakan konstanta, am koefisien fungsi basis ke-m, M menyatakan maksimum banyaknya fungsi basis nonconstant, menyatakan tanda pada titik knot (bernilai +1 atau –1). Selanjutnya, berdasarkan fungsi regresi nonparametrik, model MARS dinyatakan dalam persamaan berikut: =
+
[
∙
( , )
−
dengan adalah variabel respon dan merupakan error acak yang bersifat independen, memiliki mean sama dengan nol, dan varians . Model MARS untuk variabel respon bernilai biner diadaptasi dengan pendekatan regresi logistik dan didefinisikan sebagai berikut (Friedman, 1991): ( ) log = ( ), (3) 1− ( ) dimana menyatakan probabilitas bagi variabel respon Y bernilai terbesar (Y = 1) dan ( ) menyatakan model MARS dalam persamaan (3) Dengan demikian, model MARS untuk variabel respon biner adalah: log
( ) = 1− ( )
+
[
∙
( , )
−
139 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
] .
(4)
Algoritma MARS 1. Forward Stepwise Forward stepwise bertujuan untuk memperoleh fungsi dengan jumlah fungsi basis maksimum. Langkah-langkah forward stepwise pada metode MARS adalah sebagai berikut (Zhang & Singer, 2010): 1. Memisalkan B0 = 1, yang merupakan fungsi basis kontan, sebagai fungsi basis awal; 2. Menentukan pasangan fungsi basis B1 = ( − ) dan B2 = ( − ) sebagai kombinasi variabel prediktor dan knot untuk selanjutnya ditambahkan pada model. Pada langkah 2 ini akan menghasilkan suatu kandidat model MARS yang memiliki nilai average sum of square residual (ASR) minimum, dimana ASR didefinisikan sebagai berikut: =
3.
4.
2.
1
−
( )
.
(5)
dengan N menyatakan ukuran sampel dan ( ) menyatakan nilai taksiran variabel respon pada M fungsi basis di xi. Langkah selanjutnya adalah memperluas model MARS dengan cara menambahkan perkalian fungsi basis yang dimiliki dengan masingmasing fungsi basis baru kedalam model yang sudah ada sehingga akan menghasilkan beberapa kemungkinan kandidat model. Oleh karena itu, akan dipilih pasangan hasilkali yang menghasilkan model dengan nilai ASR terkecil; Mengulangi langkah (3) hingga banyaknya fungsi basis dalam model lebih atau sama dengan maksimum banyaknya fungsi basis yang telah ditetapkan.
Backward Stepwise Algoritma MARS Backward stepwise bertujuan untuk memperoleh model yang sesederhana mungkin (prinsip parsemoni). Proses ini dimulai pada model yang diperoleh pada forward stepwise yang memiliki M fungsi basis dengan langkah-langkah sebagai berikut (Zhang & Singer, 2010): 1. Menghapus salah satu fungsi basis nonconstant yang memiliki kontribusi terkecil, yaitu fungsi basis yang jika dihilangkan dari model sebelumnya akan menyebabkan terjadinya kenaikan ASR terkecil; 2. Mengulangi langkah 1, sampai model hanya mengandung fungsi basis konstan.
140 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Selanjutnya, berdasarkan sekuens model yang ada, proses selanjutnya yaitu memilih model MARS terbaik dengan kriteria Generalized Cross Validation (GCV). Penaksiran Parameter Model MARS Model MARS dengan variabel respon biner yang didefinisikan pada persamaan (4) dapat dinyatakan kembali sebagai berikut: ( )=
dimana
=
dan
+ [
(6) ∙
( , )
−
] ,
merupakan fungsi basis ke-m yang bergantung pada . Parameter model dalam persamaan (6) adalah koefisien-koefisein fungsi basis , ,…, yang akan diestimasi secara numerik dengan cara memaksimumkan likelihood dari data menggunakan maximum likelihood estimator (MLE) (Friedman, 1991). Misalkan terdapat n obsrevasi yang saling bebas dan merupakan variabel respon biner untuk observasi ke- i, i = 1, 2, ..., n, maka fungsi densitas bersyarat dari diberikan nilai , , … , , yaitu : ( ) ( | ) = [ ( )] [1 − ( )] (1 − ( )) (7) = 1− ( ) dengan diketahui bahwa ) exp( + ∑ ( )= ( | )= (8) ) 1 + exp( + ∑ dan 1− ( ) 1 = (9) ) 1 + exp( + ∑ maka diperoleh fungsi likelihood ( ) sebagai berikut: ( )=
exp
+
1 + exp(
1 +∑
)
(10)
Selanjutnya, akan ditentukan bentuk logaritma natural dari fungsi likelihood pada persamaan (10) yang dikenal sebagai fungsi log-likelihood, yaitu:
141 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
ln ( ) =
+
− ln 1 + exp
+
.
Estimator maksimum likelihood dari parameter , ,…, diperoleh dari turunan parsial pertama fungsi log-likelihood terhadap parameter , , … , dan menyamakannya dengan nol yang disebut sebagai persamaan likelihood. Berdasarkan penurunan terhadap masing-masing parameter, diperoleh sebanyak M + 1 persamaan likelihood yang tidak linear dalam , , … , . Oleh karena itu, untuk menentukan atau memperoleh , , … , dipergunakan metode numerik. Metode numerik yang digunakan adalah metode Newton-Raphson. Pemilihan Model MARS Terbaik Model MARS terbaik adalah model yang memiliki nilai Generalized Cross Validation (GCV) minimum. Adapun GCV dirumuskan sebagai berikut (Friedman, 1991): 1 ∑ − ( ) ( )= (11) ̅( ) 1− dimana ̅ ( ) dirumuskan:
̅( ) = ( ) + ∙ (12) dengan ( ) = ( ) + 1, dan B menyatakan matriks M fungsi basis nonconstan berukuran M × N, serta d menyatakan nilai ketika setiap fungsi basis optimal, dimana 2 ≤ d ≤ 4 adalah rentang nilai terbaik bagi d. Pengujian Signifikansi Model MARS Pengujian signifikansi model MARS dilakukan untuk mengevaluasi kecocokan model (pengujian secara simultan) dan juga menguji signifikansi parameter (pengujian secara parsial) (Wicaksono, Wilandari, dan Suparti, 2014). Adapun prosedur pengujian signifikansi model MARS secara simultan adalah sebagai berikut : 1. Menentukan hipotesis pengujian signifikansi model MARS secara simultan, yaitu: H0: = =⋯= = 0 (model tidak signifikan); H1: paling sedikit terdapat satu ≠ 0, j = 1, 2, ..., M (model signifikan); 2. Menentukan statistik uji yang digunakan dirumuskan sebagai berikut :
142 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
=
3.
(
∑
∑
− )
( − ) − −1 dimana menyatakan ukuran sampel dan ( , ) diperoleh dari tabel F dengan taraf signifikansi serta = dan = − − 1; Dengan mengambil taraf signifikansi α, kriteria pengujian model MARS adalah: Tolak jika > ( , ) atau jika p-value (Sig.) < α;
Terima pada keadaan sebaliknya. Sedangkan prosedur pengujian signifikansi secara parsial adalah sebagai berikut : 1. Menentukan hipotesis pengujian signifikansi secara parsial, yaitu: H0: = 0 (koefisien tidak berpengaruh terhadap model); H1: ≠ 0, untuk setiap j, j = 1, 2, ..., M (koefisien berpengaruh terhadap model); 2. Menentukan statistik uji berdasarkan rumusan berikut (Neter, dkk, 1983):
dengan
adalah standar error dari =
∑
=
,
yang dirumuskan sebagai berikut :
( − ) − −
dimana adalah elemen-elemen pada ( ) (Agwil, dkk, 2012). Sedangkan, nilai 3.
diagonal utama matriks ( , ) diperoleh dari tabel t
dengan taraf signifikansi dan derajat kebebasan = ; Dengan mengambil taraf signifikansi α, kriteria uji signifikansi parsial adalah: • Tolak jika > ( , ) atau jika p-value (Sig.) < α;
• Terima pada keadaan sebaliknya. Klasifikasi pada MARS Model klasifikasi metode MARS di atas merupakan model dengan variabel respon biner Y (0 atau 1) yang mewakili dua kelas dan p variabel prediktor = , ,…, , yang didefinisikan dalam persamaan (4). Analisis klasifikasi metode MARS melakukan prediksi nilai Y yaitu = ( ) dengan menggunakan model MARS sebagai model klasifikasi. Penentuan klasifikasi dilakukan dengan menggunakan titik potong (cut off) sebesar 0,5 dengan 143 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
ketentuan, apabila estimasi peluang melebihi 0,5; maka hasil prediksi adalah masuk ke kelas 1 (Y = 1), dan apabila estimasi peluang kurang dari atau sama dengan 0,5; maka hasil prediksi termasuk ke kelas 0 (Y = 0) (Meluarini, Safitri, dan Hoyyi, 2014). STUDI KASUS Sumber Data Data penelitian meliputi data lama masa studi beserta lima faktor yang mempengaruhinya, yaitu jenis kelamin, program studi, jalur masuk, Indeks Prestasi (IP) semester pertama, dan daerah asal untuk alumni FPMIPA UPI yang lulus pada rentang waktu Juni 2011 sampai Juni 2013 yang diperoleh dari Biro Administrasi Akademik dan Kemahasiswaan (BAAK) UPI. Variabel Penelitian Tabel 1. Variabel Penelitian Variabel Respon Kode
Variabel
Definisi Operasional
Skala Pengukuran
Y
Lama Masa Studi
• Y = 1: Alumni yang lulus ≤ 8 semester (lulus tepat waktu) • Y = 0: Alumni yang lulus > 8 semester (lulus terlambat)
Nominal
Variabel Prediktor G
Jenis Kelamin
P
Program Studi
JM
Jalur Masuk
IP
IP Semester Pertama
D
Daerah Asal
• G = 1: Alumni berjenis kelamin laki-laki • G = 2: Alumni berjenis kelamin perempuan • P = 1: Alumni berasal dari program studi kependidikan • P = 2: Alumni berasal dari program studi nonkependidikan • J = 1: Alumni diterima melalui jalur reguler PMDK • J = 2: Alumni diterima melalui jalur reguler SBMPTN • J = 3: Alumni diterima melalui jalur reguler UM UPI • J = 4: Alumni diterima melalui jalur Nonreguler Indeks Prestasi semester pertama adalah IP yang diperoleh mahasiswa setelah menyelesaikan semester pertama • D = 1: Alumni berasal dari provinsi Jawa Barat • D = 2: Alumni berasal dari Pulau Jawa selain Jawa Barat • D = 3: Alumni berasal dari luar Pulau Jawa
144 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Nominal Nominal
Nominal
Interval
Nominal
Analisis Deskriptif Berikut ini adalah pie chart data masa studi dan diagram batang variabel prediktor jenis kelamin, program studi, daerah asal, dan jalur masuk serta tabel 2 sebagai tabulasi data variabel prediktor IP semester pertama untuk data sampel penelitian yang berukuran 970.
Gambar 1. Pie Chart dan Diagram Batang Data Masa Studi Almuni FPMIPA UPI Berdasarkan gambar 1 diperoleh informasi bahwa alumni FPMIPA UPI yang lulus pada rentang waktu Juni 2011 sampai dengan Juni 2013 mayoritas 145 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
menempuh program S1 lebih dari waktu standar 8 semester. Selain itu, sebagian besar alumni FPMIPA UPI merupakan lulusan dari program studi pendidikan. Hal ini dikarenakan, pada FPMIPA UPI, kuota yang disediakan bagi program studi kependidikan lebih banyak daripada program studi nonkependidikan. Untuk jenis kelamin, mayoritas alumni FPMIPA UPI berjenis kelamin perempuan. Sementara untuk jalur masuk, sebagian alumni FPMIPA UPI diterima melalui jalur reguler SBMPTN. Sementara untuk alumni yang lulus tepat waktu, sebagian besar diterima melalui jalur PMDK atau yang kini dikenal dengan nama SNMPTN, yaitu sebanyak 157 lulusan dan untuk alumni yang lulus terlambat sebagian besar diterima melalui jalur ujian tertulis yaitu SBMPTN, yaitu sebanyak 385 lulusan. Alumni FPMIPA UPI sebagian besar berasal dari kota atau kabupaten di provinsi Jawa Barat, yaitu sebanyak 758 lulusan. Sementara untuk daerah di Pulau Jawa selain Provinsi Jawa Barat dan daerah di luar Pulau Jawa berturut-turut ada sebanyak 103 dan 100 lulusan. Tabel 2. Statistik IP Semester Pertama Alumni FPMIPA UPI Statistik N
Valid Missing
Mean Median Mode
IP Semester Pertama 970 0 2,70 2,75 2,80
Variance 0,33 Minimum 0,00 Maximum 4,00 Berdasarkann Tabel 2 diperoleh infromasi bahwa keseluruhan data sampel valid tanpa data yang hilang (missing value) mempunyai rata-rata sebesar 2,70 dengan 50% alumni FPMIPA UPI mempunyai IP semester pertama di atas 2,75 dan 50% sisanya mempunyai IP semester pertama di bawah 2,75. Mayoritas alumni FPMIPA UPI mempunyai IP semester pertama sebesar 2,80. Varians data IP semester pertama yang menunjukkan sebaran data, adalah sebesar 0,33 dengan ketentuan nilai skala IP dalam rentang 0,00 – 4,00.
146 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Analisis Uji Independesi Analisis uji independensi bertujuan untuk mengetahui ada atau tidaknya hubungan antara variabel respon lama masa studi dengan setiap variabel prediktor yang mempunyai skala pengukuran nominal, yaitu variabel gender, program studi, jalur masuk, dan daerah asal. Teknik uji independensi yang digunakan adalah uji independensi nonparametrik Chi-Square. Berikut ini tahap-tahap analisis uji independensi Chi-Square. Perumusan hipotesis: H0: tidak ada hubungan antara variabel masa studi dan variabel prediktor; H1: terdapat hubungan antara variabel masa studi dan variabel prediktor. Statistik uji yang digunakan dalam uji independensi Chi-Square dirumuskan sebagai berikut: (
=
−
)
,
dengan merupakan statistik berdistribusi Chi-Square dengan derajat kebebasan = ( − 1)( − 1). Kriteria Pengujian Taraf signifikansi yang digunakan dalam penelitian ini sebesar 5% dan statistik ( , ;( )( ) kriteria pengujian adalah:
Tolak H0, apabila
≥
( ,
;(
)(
))
atau apabila nilai p-value (Sig.) <
0,05; dan Terima H0 pada keadaan lainnya. Hasil uji independensi Chi-Square: Tabel 3. Hasil Uji Independensi Chi-Square Variabel Variabel PKeputusam Respon Prediktor value Jenis Kelamin 37,881 0,000 Tolak Ho Program Studi 36,124 0,000 Tolak Ho Masa Studi Jalur Masuk 96,913 0,000 Tolak Ho Daerah Asal 0,383 0,826 Terima Ho Berdasarkan tabel 3, dapat disimpulkan bahwa terdapat hubungan antara variabel respon masa studi dengan masing-masing variabel prediktor jenis kelamin, program studi, dan jalur masuk yang signifikan secara statistik. Sedangkan untuk variabel prediktor daerah asal tidak terdapat hubungan yang signifikan secara statistik dengan variabel respon masa studi.
147 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Analisis Klasifikasi Metode MARS Pada pengklasifikasian ini, akan digunakan perbandingan antara data training dan data testing yaitu sebesar 50:50. Hal ini berarti model klasifikasi akan dibangun dari data training yang berukuran 50% dari data sampel dan pengujian model klasifikasi menggunakan data testing sebesar 50% dari data sampel. 1. Pemodelan MARS Pemodelan MARS secara trial and error akan dilakukan dengan mengkombinasikan maksimum banyaknya fungsi basis (max BF), Maximum Interaction (MI), dan Minimum Observation (MO). Adapun aturan untuk pengkombinasian adalah sebagai berikut: 1. Menentukan kemungkinan maksimum banyaknya fungsi basis, yaitu 2 sampai 4 kali jumlah variabel prediktor yang digunakan. Pada penelitian ini maksimum banyaknya fungsi basis adalah 8, 12, dan 16; 2. Menentukan banyak maksimum interaksi (MI), yaitu 1, 2, dan 3; 3. Menentukan minimal jumlah pengamatan setiap knot (MO), yaitu 0, 1, 2 dan 3 (Friedman, 1991). Pemodelan dilakukan dengan bantuan software Salford Predictive Modeler (SPM) versi 7.0 dan menghasilkan 36 model. Model MARS terbaik untuk masalah klasifikasi alumni berdasarkan masa studinya dibangun atas kombinasi max BF = 16, MI = 3, dan MO = 1, dengan nilai GCV model sebesar 0,16372, yang mempunyai bentuk persamaan sebagai berikut: ( ) = 0,249007 − 0,181434 ∗ 1 + 0,411599 ∗ 3 – 0,155581 ∗ 5 + 0,217328 ∗ 7 (13) (2, 4) ; (1, 3) ; dengan: 1= 2= 3 = max(0, − 2,39); 5=( (1)); dan 7=( (1)) ∗ 2. Variabel prediktor yang berpengaruh pada model MARS yaitu variabel jalur masuk (J), IP semester pertama (IP), kelamin (G), dan program studi (P). Tingkat kepentingan dari masing-masing variabel prediktor yang berpengaruh tersaji pada tabel 4 berikut ini. Tabel 4. Skor Variable Importance Model MARS Terbaik Skor Relative Variable Importance Variabel (%) J 100,00 IP 98,55 G 34,02 P 32,03
148 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Berdasarkan tabel 4 diperoleh informasi bahwa variabel yang mempunyai pengaruh paling dominan terhadap masa studi mahasiswa adalah variabel jalur masuk yang ditunjukkan dengan skor variable improtance-nya sebesar 100%. Selain itu, variabel prediktor IP semester pertama, jenis kelamin, dan program studi juga berpengaruh terhadap masa studi dengan skor variable importance berturut sebesar 98,55%; 34,02%; dan 32,03%. 2.
Pengujian Signifikansi Model MARS Terbaik 2.1 Pengujian Signifikansi Model MARS Rumusan hipotesis pengujian signifikansi model MARS secara simultan, yaitu: H0: = =⋯= = 0 (model tidak signifikan); H1: paling sedikit terdapat satu ≠ 0, j = 1, 2, ..., M (model signifikan);
•
•
Statistik uji
yang digunakan, yaitu:
=
∑
∑
(
)
,
dalam hal ini akan dihitung menggunakan software SPM v.7.0. Dengan mengambil taraf signifikansi α = 0,05, kriteria pengujian model MARS adalah: • Tolak jika > ( , ) atau jika p-value (Sig.) < 0,05; • Terima pada kondisi sebaliknya. Keputusan: berdasarkan Tabel 5, diperoleh sebesar 52,60160 dengan p-value sebesar 0,00000. Karena p-value < 0,05, maka ditolak pada taraf signifikansi 0,05. Kesimpulan: model MARS yang dimiliki adalah model yang signifikan. Tabel 5. Output Pemodelan Data Menggunakan Metode MARS ============================== MARS Regression: Training Data ============================== W: 492.00 R-SQUARED: 0.30170 MEAN DEP VAR: 0.33740 ADJ R-SQUARED: 0.29596 UNCENTERED R-SQUARED = R-0 SQUARED: 0.53730 Parameter Estimate S.E. T-Ratio P-Value ----------------------------------------------------------------Constant | 0.24901 0.04962 5.01790 0.00000
149 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Basis Function 1| -0.18143 0.05209 -3.48312 0.00054 Basis Function 3| 0.41160 0.04404 9.34599 0.00000 Basis Function 5| -0.15558 0.03825 -4.06704 0.00006 Basis Function 7| 0.21733 0.05528 3.93107 0.00010 ----------------------------------------------------------------F-STATISTIC= 52.60160 S.E. OF REGRESSION = 0.39713 P-VALUE = 0.00000 RESIDUAL SUM OF SQUARES = 76.80750 [MDF,NDF] = [ 4, 487 ] REGRESSION SUM OF SQUARES = 33.18437 ----------------------------------------------------------------2.2 Pengujian Koefisien Regresi Model MARS Hipotesis pengujian signifikansi secara parsial, yaitu: H0: = 0 (koefisien tidak berpengaruh terhadap model); H1: ≠ 0, untuk setiap j, j = 1, 2, ..., M (koefisien berpengaruh terhadap model);
Menentukan statistik uji
Mengambil taraf signifikansi α = 0,05, kriteria pengujian model MARS adalah: • Tolak jika > ( , ) atau jika p-value (Sig.) < 0,05;
3.
berdasarkan rumusan:
=
,
• Terima pada keadaan sebaliknya. Keputusan: karena seluruh estimator parameter, yaitu , , , , dan masing-masing mempunyai nilai p-value < 0,05 (Tabel 5) maka untuk seluruh estimator parameter, ditolak pada taraf signifikansi 0,05. Kesimpulan: konstanta dan koefisien fungsi basis 1, 3, 5, dan 7 mempunyai pengaruh yang signifikan terhadap model.
Interpretasi Model MARS Terbaik Berikut ini adalah interpretasi untuk model MARS terbaik pada persamaan (13).
150 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
1, jika = 2 atau 4 , dengan koefisien –0,181434, 0, jika = 1 atau 3 memiliki arti bahwa untuk setiap kali kondisi koefisien BF1 bermakna (BF1 bernilai 1) dipenuhi, hal tersebut akan menurunkan kemungkinan mahasiswa lulus tepat waktu sebesar 0,181434. ( − 2,39), jika > 2,39 ii 3 = max(0, − 2,39) = , dengan 0, jika ≤ 2,39 koefisien 0,411599, memiliki arti bahwa untuk setiap kali kondisi koefisien BF3 bermakna (BF3 > 2,39) dipenuhi, untuk dua mahasiswa yang mempunyai IP semester pertama berbeda sebesar satu satuan, maka mahasiswa yang memiliki IP semester pertama lebih besar akan memiliki kemungkinan lulus tepat waktu lebih tinggi sebesar 0,411599. 1, jika = 1 iii 5=( (1)) = , dengan koefisien –0,155581, 0, jika = 2 memiliki arti bahwa untuk setiap kali kondisi BF5 bermakna dipenuhi, hal tersebut akan menurunkan kemungkinan mahasiswa lulus tepat waktu sebesar 0,155581. 1, jika = 1, = 1, 3 iv 7=( (1)) ∗ 2 = , dengan koefisien 0, jika dan lainnya 0,217328, memiliki arti bahwa untuk setiap kali kondisi koefisien BF7 bermakna dipenuhi, hal tersebut akan meningkatkan kemungkinan mahasiswa lulus tepat waktu sebesar 0,217328. Setiap interpretasi yang diberikan di atas diberikan dengan memandang fungsi basis lain yang terlibat di dalam model bersifat konstan.
i
1=
(2, 4) =
4.
Hasil Klasifikasi Metode MARS Berikut ini adalah hasil klasifikasi yang diperoleh dengan software SPM versi 7.0. Tabel 6. Hasil Klasifikasi Lama Masa Studi Mahasiswa FPMIPA UPI Kelas Prediktif Total Kelas Aktual Kelas 0 Kelas 1 Aktual (Lulus Terlambat) (Lulus Tepat Waktu) Kelas 0 297 29 326 (Lulus Terlambat) Kelas 1 82 84 166 (Lulus Tepat Waktu) 379 113 492 Total Prediksi
151 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Statistik uji yang digunakan untuk mengevaluasi hasil klasifikasi adalah statistik APER dan Press’s Q. Adapun nilai APER untuk hasil klasifikasi di atas adalah: APER =
=
× 100% = 22,5610%
Nilai APER sebesar 22,5610% menunjukkan persentase objek yang salah dikaslifikasikan (missclassification). Karena nilai statistik APER masih di bawah 50% maka ketepatan hasil klasifikasi masih dapat diterima dan digunakan untuk mengklasifikasikan mahasiswa FPMIPA UPI yang baru termasuk pada kelompok tertentu (Wuensch, 2009). Adapun untuk statistik Press’s Q, diperoleh nilai sebagai berikut: [ − ( )] [492 − (381 × 2)] = = = 148,1707. ( − 1) 492 × (2 − 1) Nilai statistik Press’s Q tersebut dibandingkan dengan nilai kritis distribusi ChiSquare dengan derajat bebas 1 dan taraf signifikansi α = 0.05, yaitu ( ; . ) = 3,84146. Karena nilai statistik Press’s Q lebih besar daripada nilai kritis ChiSquare, maka diperoleh kesimpulan bahwa pengklasifikasian ini stabil dan konsisten secara statistik. KESIMPULAN DAN SARAN Kesimpulan 1. Analisis klasifikasi masa studi mahasiswa FPMIPA UPI menggunakan metode MARS menyatakan bahwa empat variabel prediktor yang berpengaruh terhadap masa studi mahasiswa FPMIPA UPI, yaitu jalur masuk, IP semester pertama, jenis kelamin, dan program studi, dimana variabel prediktor yang paling berpengaruh adalah jalur masuk. Disamping itu, model klasifikasi almuni FPMIPA UPI berdasarkan lama masa studi tersebut dapat digunakan untuk mengklasifikasikan mahasiswa FPMIPA UPI baru dengan hasil klasifikasi bersifat stabil; 2. Model klasifikasi MARS terbaik untuk data masa studi alumni FPMIPA UPI dihasilkan dari kombinasi max BF = 16, MI = 3, dan MO = 1, dengan persamaan sebagai berikut: ( ) = 0,249007 − 0,181434 ∗ 1 + 0,411599 ∗ 3 – 0,155581 ∗ 5 + 0,217328 ∗
7
152 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
dimana: 5=(
(2, 4) ; (1, 3) ; 1= 2= (1)); dan 7=( (1)) ∗ 2.
3 = max(0,
− 2,39);
Secara umum, model MARS di atas memberikan gambaran bahwa: i. Kemungkinan lulus tepat waktu bagi mahasiswa yang diterima melalui jalur SBMPTN atau jalur Nonreguler cenderung lebih rendah daripada mahasiswa yang diterima melalui jalur masuk PMDK atau UM UPI; ii. Kemungkinan lulus tepat waktu cenderung lebih tinggi bagi mahasiswa yang memperoleh IP semester pertama lebih dari 2,39, dimana apabila terdapat dua mahasiswa yang mempunyai IP semester pertama lebih dari 2,39 dan keduanya berbeda sebesar satu satuan, maka mahasiswa yang memiliki IP semester pertama lebih besar akan memiliki kemungkinan lulus tepat waktu lebih tinggi sebesar 0,411599; iii. Kemungkinan lulus tepat waktu bagi mahasiswa laki-laki cenderung lebih rendah daripada mahasiswa perempuan; iv. Sedangkan kemungkinan lulus tepat waktu bagi mahasiswa program studi kependidikan yang diterima melalui jalur PMDK atau UM UPI akan mempunyai nilai yang lebih tinggi daripada mahasiswa dari kondisi lainnya; dimana interpretasi pada masing-masing poin (poin i sampai dengan poin iv) memandang faktor lainnya dalam keadaan konstan. Saran Untuk pengelola fakultas, model klasifikasi MARS untuk mahasiswa FPMIPA UPI beradasarkan lama masa studinya dapat menjadi masukan positif dalam mempertimbangkan kebijakan yang bertujuan meminimalisir jumlah mahasiswa yang lulus terlambat. Sedangkan untuk penelitian lebih lanjut, dapat melakukan penelitian serupa dengan melibatkan variabel prediktor lain seperti nilai Ujian Nasional SMA, kondisi ekonomi keluarga, skor IQ, dan lain sebagainya. Selain itu, penelitian serupa dapat dilakukan untuk ruang lingkup yang lebih luas, misalnya menganalisis klasifikasi alumni untuk lingkungan se-universitas sehingga akan menghasilkan suatu keputusan yang lebih umum dan mencakup ranah yang lebih luas. Serta, dapat dilakukan penelitian mengenai perbandingan klasifikasi menggunakan metode MARS dengan metode klasifikasi lainnya sehingga dapat diketahui metode manakah yang menghasilkan pengklasifikasian lebih baik.
153 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
REFERENSI Agwil, W., Rahmi, I.,& Yozza, H. (2012). Prediksi Luas Area Kebakaran Hutan Berdasarkan Data Meteorologi dengan Menggunakan Pendekatan Multivariate Adaptive Regression Spline (MARS). (Tugas Akhir). Universitas Andalas, Padang. Febriyanti A., dkk. (2012). Penerapan Metode Multivariate Adaptive Regression Spline (MARS) untuk Mengidentifikasi Komponen yang Berpengaruh terhadap Peringkat Akreditas Sekolah (Kasus SMA/MA di Provinsi Sumatera Barat). Jurnal Matematika UNAND, 2(2), hlm. 44-53. Friedman, J. H. (1991). Multivariate Adaptive Regression Spline. The Annals of Statistics, 19(1), hlm. 1-67.Guillory, C. W. (2008). A Multilevel Discrete Time Hazard Model of Retention Data in Higher Education. (Disertasi). Louisiana State University, Lousiana. Kriner, M. (2007). Survival Analysis with Multivariate Adaptive Regression Spline. (Disertasi). Universitas Munchen, Munich. Merluarini, B., Safitri, D., & Hoyyi, A. (2014). Perbandingan Analisis Klasifikasi Menggunakan Metode K-Nearest Neighbor (K-NN) dan Multivariate Adaptive Regression Spline (MARS) pada Data Akreditasi Sekolah Dasar Negeri di Kota Semarang. Jurnal Gaussian, 3(3), hlm. 313-322. Neter, J., William, W. & Michael, H. K. (1983). Applied Linear Regression Models. Homewood : Richard D. Irwin, Inc. Oktaviana, D. & Budiantara, I. N. (2011). Regresi Spline Birespon untuk Memodelkan Kadar Gula Darah Penderita Diabetes Melitus. [Online]. Diakses dari http://digilib.its.ac.id/public/ITS-paper-19523-1307100068Paper.pdf. [16 Januari 2015]. Permana, H. (2011). Klasifikasi dengan Metode CHAID (Chi-Squared Automatic Interaction Detection) dan Penerapannya pada Klasifikasi Alumni FMIPA UNY. (Skripsi). Universitas Negeri Yogyakarta, Yogyakarta. Wicaksono, W., Wilandari, Y., & Suparti. (2014). Pemodelan Multivariate Adaptive Regression Splines (MARS) pada Faktor-faktor Resiko Angka
154 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5
Kesakitan Diare (Studi Kasus: Angka Kesakitan Diare di Jawa Tengah, Jawa Timur, dan Daerah Istimewa Yogyakarta Tahun 2011). Jurnal Gaussian, 3(3), hlm. 253-262. Wuensch, K. (2009). Binary Logistic with PASW/SPSS. [Online]. Diakses dari http://core.ecu.edu/psyc/wuenschk/MV/Multreg/Logistic-SPSS.doc. [15 Juni 2015]. Zhang, H. & Singer, B. H. (2010). Recursive Partitioning and Applications 2nd Edition. New York: Springer.
155 | E u r e k a M a t i k a , V o l . 3 , N o . 1 , 2 0 1 5