PREDIKSI STRUKTUR SEKUNDER PROTEIN DENGAN METODE SUPPORT VECTOR MACHINE
IWAN KURNIAWAN
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Prediksi Struktur Sekunder Protein dengan Metode Support Vector Machine adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2016 Iwan Kurniawan NIM G64120119
ABSTRAK IWAN KURNIAWAN. Prediksi Struktur Sekunder Protein dengan Metode Support Vector Machine. Dibimbing oleh TOTO HARYANTO. Protein merupakan salah satu dari biomolekul raksasa yang berperan sebagai elemen penyusun utama makhluk hidup yang dibentuk dari asam amino. Secara hierarki, protein terbagi menjadi empat tingkat: struktur primer, struktur sekunder, struktur tersier, dan struktur kuartener. Struktur sekunder protein adalah struktur yang dibentuk oleh rangkaian asam amino yang akan membentuk struktur tiga dimensi serta memiliki informasi mengenai struktur tersier dan fungsi protein. Penelitian ini menggunakan data yang berjumlah 277 389 residu protein dari data kategori enzim. Ekstraksi ciri yang digunakan yaitu position specific scoring matrix (PSSM) profile dan fitur kimiafisik. Penelitian ini melakukan prediksi struktur sekunder protein menggunakan metode support vector machine melalui pengenalan pola sekuens asam amino. Hasil penelitian menunjukkan bahwa Q3 score terbaik diperoleh sebesar 93.16% oleh dataset yang memiliki 260 fitur dengan kernel radial. Penambahan fitur kimiafisik tidak memberikan pengaruh yang signifikan terhadap akurasi prediksi model. Kata kunci: protein, prediksi, struktur sekunder, support vector machine.
ABSTRACT IWAN KURNIAWAN. Protein Secondary Structure Prediction using Support Vector Machine. Supervised by TOTO HARYANTO. Protein is one of the giant biomolecules that act as the main component of the organism. Protein is formed from building blocks called amino acids. Hierarchically, the structure of protein divided into four levels: primary, secondary, tertiary, and quaternary structure. Protein secondary structure is a structure formed by amino acid sequences that would form three-dimensional structures and have information about the tertiary structure and function of proteins. This study used 277 389 protein residue data from enzyme categories. Position specific scoring matrix (PSSM) profile and physicochemical feature are used for feature extraction. This study used support vector machine to predict the protein secondary structure by recognizing patterns of amino acid sequences. The Q3 results showed that the best scores obtained are 93.16% from the dataset that has 260 features with radial kernel. Physicochemical feature additions did not give significant influence on the accuracy of the model predictions. Keywords: protein, prediction, secondary structure, support vector machine.
PREDIKSI STRUKTUR SEKUNDER PROTEIN DENGAN METODE SUPPORT VECTOR MACHINE
IWAN KURNIAWAN
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATUKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016
Penguji: 1 2
Lailan Sahrina Hasibuan, SKom MKom Muhammad Asyhar Agmalaro, SSi MKom
Judul Skripsi : Prediksi Struktur Sekunder Protein dengan Metode Support Vector Machine. Nama : Iwan Kurniawan NIM : G64120119
Disetujui oleh
Toto Haryanto, SKom MSi Pembimbing
Tanggal Lulus:
PRAKATA
Puji syukur penulis ucapkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Bidang yang dipilih dan dikaji dalam ini adalah bidang Bioinformatika dan Data Mining dengan masalah mengenai prediksi struktur sekunder protein dengan metode Support Vector Machine. Penulis mengucapkan terima kasih sebesar-besarnya kepada Bapak Toto Haryanto, SKom MSi selaku pembimbing yang selalu memberikan masukan, koreksi, dan pengawasan dalam penelitian ini. Tidak lupa penulis menyampaikan terima kasih kepada kedua orang tua tercinta (Bapak Adiwirman dan Ibu Fahruziana) yang selalu mendukung, menyemangati, dan mendoakan penulis dalam mengerjakan penelitian ini. Penulis juga mengucapkan terima kasih kepada: 1 Ibu Lailan Sahrina Hasibuan, SKom MKom dan Bapak Muhammad Asyhar Agmalaro, SSi MKom selaku penguji yang memberikan saran dan koreksi. 2 Bapak Dr Ir Agus Buono, MSi MKom selaku Ketua Departemen Ilmu Komputer. 3 Seluruh dosen, staf tata usaha, dan staf pegawai Departemen Ilmu Komputer IPB. 4 Seluruh teman-teman Program S1 Ilmu Komputer IPB, terutama Egi, Moh, Joe, Aiman, Dimas, Widi, Ilham, Samad, Gema, Cynthia, Kiki dan temanteman lain yang senantiasa menemani dalam 3 tahun terakhir. Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2016 Iwan Kurniawan
DAFTAR ISI DAFTAR TABEL
vii
DAFTAR GAMBAR
vii
DAFTAR LAMPIRAN
vii
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
3
Ruang Lingkup Penelitian
3
TINJAUAN PUSTAKA
3
Protein
3
Struktur Hierarki Protein
3
Position Specific Scoring Matrix (PSSM) Profile
5
Support Vector Machine (SVM)
5
METODE
7
Studi Pustaka
8
Pengambilan Data Struktur Sekunder Protein
8
Ekstraksi Ciri PSSM
8
Ekstraksi Fitur Kimiafisik dan Posisi Atom Protein
9
Metode Klasifikasi Support Vector Machine (SVM)
9
Pengujian dan Evaluasi
10
Lingkungan Pengembangan
10
HASIL DAN PEMBAHASAN
11
Praproses
11
Ekstraksi Ciri Kimiafisik
12
Klasifikasi Support Vector Machine
12
Perbandingan dengan Penelitian Sebelumnya
15
SIMPULAN DAN SARAN
15
Simpulan
15
Saran
16
DAFTAR PUSTAKA
16
LAMPIRAN
17
RIWAYAT HIDUP
21
DAFTAR TABEL 1 2 3 4
Persamaan kernel pada SVM Pengelompokkan data sekunder protein Spesifikasi model dataset Perbandingan Hasil Q3 Score Penelitian Setiap Model Dataset
6 8 9 15
DAFTAR GAMBAR 1 Ilustrasi struktur sekunder protein 2 Contoh calon hyperplane dan pemisahan dua kelas berbeda dengan hyperplane optimal pada ruang berdimensi dua (James et al. 2013) 3 Diagram alur metode penelitian 4 Ilustrasi pengambilan data file DSSP 5 Ilustrasi matriks PSSM profile 6 Diagram Q3 Score 7 Diagram akurasi Model I 8 Diagram akurasi Model II 9 Diagram akurasi Model III 10 Distribusi data pada dataset
4 5 7 11 11 13 13 14 14 14
DAFTAR LAMPIRAN 1 Nilai conformation parameters pada dataset (Huang dan Chen 2013) 2 Nilai net charges, hydrophobic, dan side chain mass (Huang dan Chen 2013) 3 Hasil Pengujian Model Dataset I SVM dan Kernel 4 Hasil Pengujian Model Dataset II SVM dan Kernel 5 Hasil Pengujian Model Dataset III SVM dan Kernel 6 Nilai bobot interaksi antar asam amino pada PSSM profile
17 17 18 18 19 20
PENDAHULUAN Latar Belakang Protein merupakan bagian dari biomolekul raksasa yang berfungsi sebagai elemen penyusun utama makhluk hidup. Protein terbentuk dari urutan asam amino yang saling berikatan dengan ikatan peptida melalui rantai karbon sehinga membentuk struktur yang kompleks. Proses pembuatan protein melibatkan proses translasi dan transkripsi. Proses transkripsi merupakan penulisan kode genetik deoxyribonucleic acid (DNA) ke dalam messenger ribonucleic acid (mRNA) dengan mengkodekan setiap basa nitrogen DNA ke dalam bentuk basa nitrogen RNA. Proses translasi menerjemahkan setiap basa nitrogen pada mRNA menjadi menjadi urutan asam amino (Polanski dan Kimmel 2007). Secara hierarki protein terbagi menjadi 3 tingkat yaitu, struktur primer, struktur sekunder, dan struktur tersier. Struktur primer adalah urutan asam amino yang membentuk rantai polipeptida. Struktur sekunder adalah sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi alphahelix (H), beta-sheet (B), maupun coil (C) yang merupakan hasil dari sekuens asam amino yang berikatan dengan ikatan peptida (Polanski dan Kimmel 2007). Struktur tersier adalah gabungan dari struktur sekunder setelah terjadi pelipatan (folding). Peranan dari protein dapat diketahui jika sudah membentuk struktur tersier dalam bentuk 3D. Namun struktur tersier dapat ditentukan apabila struktur sebelumnya sudah diketahui (Haryanto 2015). Secara konvensional, struktur protein dapat diketahui dengan kristalografi sinar-X dan spestroskopi Nuclear Magnetic Resonance (NMR). Teknik ini digunakan untuk menemukan struktur primer maupun struktur baru protein dan berperan untuk validasi struktur protein. Tetapi kedua teknik tersebut memakan waktu yang lama dan biaya yang relatif mahal. Dengan demikian, pendekatan berbasis komputasi banyak digunakan untuk melakukan prediksi struktur sekunder protein. Prediksi struktur sekunder protein dilakukan untuk menemukan struktur 3D protein berdasarkan struktur primer protein. Ada 2 metode prediksi struktur sekunder protein, yaitu metode pemodelan komparatif dan pemodelan de novo atau ab initio. Pemodelan protein komparatif memprediksi struktur protein berdasarkan struktur protein lain yang telah diketahui, sedangkan metode ab initio atau de novo menentukan struktur protein dari sekuens primernya tanpa membandingkan dengan struktur protein lain (Martin 2005). Dasar dari sistem klasifikasi struktur sekunder protein adalah mengenal pola sekuens asam amino pada protein. Banyak penelitian terkait yang telah dilakukan untuk melakukan prediksi struktur sekunder protein ini guna mendapatkan akurasi terbaik dari penelitian-penelitian sebelumnya. Huang dan Chen (2013) melakukan prediksi struktur sekunder protein dengan menggunakan metode Support Vector Machine dengan Position Specific Scoring Matrix (PSSM) dan 4 ekstraksi ciri yang terdiri atas conformation parameters, net charges, hydrophobic, dan side chain mass. Penelitian ini menghasilkan akurasi dengan nilai Q3 Score sebesar 75.92%. Penelitian selanjutnya dilakukan oleh Ar (2015) yaitu dengan memprediksi struktur sekunder protein menggunakan metode Jaringan Saraf Tiruan (JST) dan tambahan enam parameter kimiafisik. Pada penelitian tersebut, prediksi dengan
2 tambahan fitur kimiafisik dibandingkan dengan prediksi tanpa ditambah fitur kimiafisik. Nilai Q3 Score untuk prediksi dengan fitur kimiafisik sebesar 62.75% sedangkan prediksi dengan tambahan fitur kimia fisik menghasilkan Q3 Score sebesar 62.9%. Penelitian terkait selanjutnya telah dilakukan oleh Nandapuspita (2015) dengan memprediksi struktur sekunder protein menggunakan Jaringan Saraf Tiruan dan enam fitur kimiafisik melalui proses pembuatan matriks PSSM. Hasil Q3 Score yang didapat untuk penelitian ini sebesar 99.94%. Support Vector Machine (SVM) diperkenalkan oleh Boser, Guyon, dan Vapnik. Metode ini pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep dasar SVM merupakan kombinasi harmonis dari teori-teori komputasi yang sudah ada seperti margin hyperplane dan kernel. SVM melakukan suatu teknik untuk menemukan fungsi pemisah yang bisa memisahkan dua set data dari dua kelas yang berbeda. Metode ini merupakan metode learning machine yang bekerja atas prinsip Structural Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah kelas pada ruang input. Pada dasarnya SVM bekerja dengan prinsip linear classifier, kemudian dikembangkan untuk dapat bekerja pada kasus nonlinear dengan menggunakan konsep kernel pada ruang kerja berdimensi tinggi (Vapnik 1998). Penelitian ini melakukan prediksi struktur sekunder protein berbasis SVM. Dalam proses prediksi fitur yang digunakan adalah PSSM profile dan fitur kimiafisik.
Perumusan Masalah Berdasarkan permasalahan yang telah diuraikan dalam latar belakang, perumusan masalah penelitian ini adalah bagaimana melakukan prediksi struktur sekunder protein menggunakan metode SVM serta menganalisis pengaruh penggunaan PSSM profile dan fitur kimiafisik terhadap akurasi model berbasis SVM.
Tujuan Penelitian Tujuan dari penelitian ini adalah: 1 Membangun model berbasis SVM dengan fitur PSSM profile dan fitur kimiafisik untuk prediksi struktur sekunder protein. 2 Menganalisis pengaruh penggunaan fitur PSSM profile dan fitur kimiafisik terhadap akurasi prediksi struktur sekunder protein.
3 Manfaat Penelitian Penelitian ini diharapkan dapat menghasilkan model yang baik untuk memprediksi struktur sekunder protein sehingga dapat digunakan untuk melakukan prediksi struktur 3D protein agar dapat mengenali struktur lanjut dan fungsi dari protein tersebut.
Ruang Lingkup Penelitian Ruang lingkup pada penelitian ini antara lain: 1 Data yang digunakan adalah data Define Secondary Structure of Protein (DSSP) yang bersumber dari Protein Data Bank (PDB). 2 Data latih yang digunakan sebagai input adalah sekuens asam amino dengan sliding windows yang optimal. Sliding windows tersebut sebanyak 13. 3 Distribusi data pada data DSSP untuk input tidak seimbang.
TINJAUAN PUSTAKA Protein Protein berasal dari kata proteios yang memiliki arti “tempat pertama”. Protein meliputi lebih dari 50% bobot kering sebagian besar sel dan molekul sangat berguna sebagai alat bantu dalam hampir setiap hal yang dilakukan oleh organisme. Protein digunakan untuk dukungan struktural, penyimpanan, transpor subtansi lain, pengiriman sinyal dari suatu bagian organisme ke bagian lain, pergerakan, dan pertahanan melawan substansi asing. Selain itu, protein juga berperan sebagi enzim yang berfungsi untuk mengatur metabolisme dengan secara selektif mempercepat reaksi kimiawi dalam sel. Manusia memiliki puluhan ribu protein yang berbeda dengan struktur dan fungsi yang spesifik. Protein merupakan molekul yang dikenal mempunyai struktur yang paling rumit. Sesuai dengan fungsinya yang beragam, molekul protein juga sangat beragam strukturnya. Setiap jenis protein memiliki bentuk tiga dimensi atau konformasi yang unik. Meskipun protein beragam, semua molekul protein merupakan polimer yang dibangun dari kumpulan 20 asam amino yang sama. Polimer asam amino disebut polipeptida. Suatu protein terdiri atas satu atau lebih polipeptida yang terlipat dan terbelit membentuk suatu kesesuaian yang spesifik (Campbell et al. 2000). Dalam penelitian ini protein merupakan objek yang akan diteliti struktur primernya dan diprediksi struktur sekundernya.
Struktur Hierarki Protein Struktur protein terdiri dari struktur primer, struktur sekunder, struktur tersier, dan struktur kuartener. Struktur primer merupakan sekuens dari asam amino yang
4 terikat dengan ikatan kovalen ataupun ikatan peptida. Ikatan tersebut terbentuk saat proses translasi DNA. Struktur primer protein ditentukan oleh gen yang sesuai dengan protein tersebut. Struktur sekunder merupakan sekuens asam amino yang berhubungan dengan ikatan hidrogen. Jenis struktur sekunder terbagi menjadi tiga kelas yaitu alpha-helix (H), beta-sheet (E), dan coil (C). Alpha-helix merupakan struktur periodik dimana backbone coils protein berbentuk seperti sekrup dan sisi rantai potongan asam amino keluar dari helix yang dibentuk dari asam amino tunggal. Beta-sheet merupakan struktur yang terbentuk oleh sepasang asam amino yang sisi rantainya diperluas. Coil merupakan struktur lain yang memiliki pengaruh penting terhadap bentuk formasi dan kestabilan bentuk protein (Polanski dan Kimmel 2007). Ilustrasi struktur sekunder protein dapat dilihat pada Gambar 1.
Gambar 1 Ilustrasi struktur sekunder protein Struktur tersier merupakan struktur tiga dimensi dari molekul protein tunggal dan terbentuk dari gabungan struktur sekunder yang mengalami pelipatan (folding) membentuk struktur yang kompleks. Struktur tersier juga merupakan struktur spasial ikatan polipeptida yang terbentuk oleh koordinat dari bagian seluruh pusat atom pada protein (Polanski dan Kimmel 2007). Struktur kuartener merupakan struktur yang ditentukan dari bentuk komponen polipeptida dan interaksi kimia yang terjadi antar rantai polipeptida (Polanski dan Kimmel 2007). Struktur ini juga berisi beberapa protein yang sudah melipat dan tersusun.
5 Position Specific Scoring Matrix (PSSM) Profile PSSM profile adalah hasil generate dari program Position Specific IterativeBasic Local Alignment Search Tool (PSI-BLAST) dengan output matriks PSSM. Program ini dapat menemukan banyak persamaan dari sequence protein dan kesamaan fungsi struktur dari sequence protein. PSSM untuk setiap sequence memiliki jumlah elemen 20 x L dengan L adalah panjang dari target sequence (Huang dan Chen 2013).
Support Vector Machine (SVM) Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai rangkaian harmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu metode pattern recognition, usia SVM terbilang masih relatif muda. Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada ruang input. Hyperplane adalah suatu sub ruang vektor berdimensi yang membagi ruang vektor tersebut ke dalam dua bagian, yang masing-masing berkorespondensi pada kelas yang berbeda (Cristianini 2000).
Gambar 2 Contoh calon hyperplane dan pemisahan dua kelas berbeda dengan hyperplane optimal pada ruang berdimensi dua (James et al. 2013) Misalkan terdapat suatu ruang berdimensi dua lalu terdapat berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada Gambar 2 bagian kiri. Hyperplane terbaik antara kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut, lalu mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan objek pengamatan (pattern) terdekat dari masingmasing class. Pattern yang paling dekat ini disebut sebagai support vector. Garis solid pada Gambar 2 bagian kanan menunjukkan hyperplane yang terbaik, yaitu
6 yang terletak tepat pada tengah-tengah kedua class, Usaha untuk mencari lokasi hyperplane ini merupakan inti dari proses pembelajaran pada SVM. Secara matematis, garis hyperplane dalam dimensi p dirumuskan dalam persamaan 1 dengan:
0 1 X 1 2 X 2 ... p X p 0
(1)
dengan X adalah suatu titik yang berada pada ruang dimensi-p dirumuskan dengan X ( X 1 , X 2 ,..., X p ) T . Jika dalam persamaan tersebut terdapat nilai X yang tidak memenuhi persamaan 1, maka ada pertidaksamaan 2 dan 3 yang dinyatakan dengan:
0 1 X 1 2 X 2 ... p X p 0
(2)
0 1 X 1 2 X 2 ... p X p 0
(3)
Persamaan 2 dan 3 menunjukkan daerah yang berada di sisi lain dari garis hyperplane sehingga dapat disimpulkan bahwa hyperplane akan membagi dua suatu ruang berdimensi-p menjadi dua bagian yang terpisah. Jika ada titik baru, maka akan dihitung dengan menggunakan persamaan 1. Jika tidak memenuhi persamaan tersebut, maka titik tersebut akan masuk ke salah satu daerah kelas yang telah didefinisikan oleh persamaan 2 dan 3. Dalam klasifikasi SVM terdapat kasus yang mana suatu kumpulan data memiliki hubungan nonlinier sehingga kelas yang ada tidak dapat dipisahkan langsung dengan hyperplane secara linier. Kasus ini dapat diselesaikan dengan memperbesar ruang fitur atau dimensi data dengan suatu persamaan kuadratik atau kubik untuk mengakomodasi sifat nonlinier antar kelas. Akan tetapi, memperbesar dimensi dengan persamaan kuadratik atau kubik memiliki pekerjaan komputasi yang rumit (James et al. 2013) sehingga dibuat suatu fungsi yang akan membandingkan kemiripan dua data observasi yang disebut kernel. Kernel yang populer digunakan adalah kernel radial dan kernel polinomial. Persamaan kernel pada SVM dapat dilihat pada Tabel 1. Tabel 1 Persamaan kernel pada SVM Kernel Linier
Persamaan 𝑝
𝐾(𝑥𝑖 , 𝑥𝑖 ′ ) = ∑ 𝑥𝑖𝑗 𝑥𝑖 ′ 𝑗 𝑗=1 𝑝
Radial
𝐾(𝑥𝑖 , 𝑥𝑖 ′ ) = 𝑒𝑥𝑝 (−𝛾 ∑ (𝑥𝑖𝑗 − 𝑥𝑖 ′ 𝑗 )2) 𝑗=1 𝑝
Polinomial
𝐾(𝑥𝑖 , 𝑥𝑖 ′ ) = (1 + ∑ 𝑥𝑖𝑗 𝑥𝑖′ 𝑗 )𝑑 𝑗=1
7
METODE Tahapan penelitian yang dilakukan meliputi studi pustaka, pengambilan data struktur sekunder protein, ekstraksi fitur PSSM, ekstraksi fitur kimiafisik, model SVM, pengujian dan evaluasi. Diagram alur metode penelitian dapat dilihat pada Gambar 3.
Gambar 3 Diagram alur metode penelitian
8 Studi Pustaka Hal yang dilakukan pada tahapan ini adalah mempelajari penelitian-penelitian yang terkait dengan prediksi struktur sekunder protein dan metode klasifikasi SVM. Dari penelitian yang telah dilakukan, pemodelan dengan klasifikasi SVM dapat diterapkan dan digunakan untuk memprediksi struktur sekunder protein dengan penambahan fitur kimiafisik untuk meningkatkan akurasi klasifikasi.
Pengambilan Data Struktur Sekunder Protein Proses pengambilan data ini diawali dengan pengambilan data sekuens protein sekunder melalui PDB di website http://www.rcsb.org/ untuk mendapatkan PDB id yang menandakan id struktur yang berbeda. Selanjutnya dilakukan proses generate file Dictionary Secondary Structure Protein (DSSP). DSSP merupakan database assignment struktur sekunder protein. Tools yang digunakan untuk melakukan generate file DSSP adalah XSSP yang ada di website http:// www.cmbi.ru.nl/xssp. Pada penelitian ini, segmen kelas yang ada pada DSSP direduksi menjadi tiga kelas, yaitu alpha-helix (H), beta-sheet (B) dan coil (C) (Aydin et al. 2006). Segmen hasil reduksi adalah {I,H,G}→ alpha-helix (H), {E,B} → beta-sheet (B), segmen lainnya menjadi coil (C). Data ini telah diakuisisi oleh Nandapuspita (2015) dan digunakan kembali dalam penelitian ini. Untuk pembagian data dapat dilihat pada Tabel 2. Tabel 2 Pengelompokkan data sekunder protein DSSP 8-Class 3-Class α-Helix (H), 3/10 helix (G)
Helix (H)
β-Helix (E), β-Bridge (B)
Strand (E)
Π-Helix (I), Turn (T), Bend (S), Coil (C)
Coil (C)
Ekstraksi Ciri PSSM Dalam melakukan prediksi struktur sekunder protein dibutuhkan fitur-fitur untuk membantu mendefinisikan struktur sekunder. Data dari 20 asam amino akan digunakan sebagai penentu pola masukan klasifikasi yang digunakan. Data yang telah diambil yang diolah dari data file DSSP akan dibentuk menjadi PSSM profile. Pembuatan PSSM profile dilakukan dengan memasukkan data asam amino file DSSP dan dilakukan proses generate dengan tools pada web http://www.cbs.dtu.dk /biotools/Seq2Logo. Untuk mengambil fitur-fitur pada PSSM profile, digunakan sliding windows untuk proses pengenalan pola. Penggunaan sliding windows akan mendapatkan lebih banyak informasi dari residu protein dengan jumlah windows yang optimal sebanyak 13 (Huang dan Chen 2013). Ekstraksi ciri PSSM profile telah dilakukan oleh Nandapuspita (2015) kemudian digunakan kembali dalam penelitian ini.
9 Ekstraksi Fitur Kimiafisik dan Posisi Atom Protein Untuk meningkatkan akurasi, fitur kimiafisik dari masing-masing asam amino akan ditambahkan kedalam proses klasifikasi. Fitur kimiafisik yang akan menjadi penciri dalam penelitian ini antara lain: conformation parameter, net charge, hydrophobic dan side chain mass (Huang dan Chen 2013). Nilai conformation parameter menunjukkan peluang setiap residu asam amino terhadap struktur sekunder H, E, dan C. Fitur net charge diperoleh berdasarkan tabel indeks asam amino (Amino Acid Index). Hydrophobic dan side chain mass digunakan sebagai fitur di dalam prediksi struktur sekunder protein karena terkait dengan proses folding. Posisi atom merupakan salah satu konten yang terdapat di dalam file berekstensi dssp. Posisi atom menunjukkan koordinat tiga dimensi x, y, dan z dari atom atom setiap asam amino (Haryanto 2015). Ekstraksi fitur kimiafisik telah dilakukan oleh Huang dan Chen (2013) kemudian digunakan kembali pada penelitian ini.
Metode Klasifikasi Support Vector Machine (SVM) Metode yang digunakan dalam penelitian ini adalah Support Vector Machine. Pada tahap ini, dataset yang telah ditambahkan PSSM profile dan fitur kimiafisik akan dilatih menjadi model. Kernel yang digunakan untuk melatih dataset tersebut adalah kernel linier, kernel radial, dan kernel polinomial dengan derajat 2, 3, dan 4. Sebelum pelatihan model, dilakukan pencarian parameter optimum terlebih dahulu agar error dalam pelatihan model dapat diperkecil. Pada penelitian ini dibangun tiga buah model dataset yang bertujuan untuk membandingkan hasil akurasi antara tiga model tersebut. Model pertama (Model I) dibangun dengan data yang telah dilakukan ekstraksi ciri PSSM tanpa penambahan fitur kimiafisik lalu dilakukan proses sliding windows. Model kedua (Model II) dibangun dengan data yang telah dilakukan ekstraksi ciri PSSM lalu dilakukan proses sliding windows. Kemudian ditambahkan enam buah fitur kimiafisik. Model ketiga (Model III) dibangun dengan data telah dilakukan ekstraksi ciri PSSM lalu ditambah enam fitur kimiafisik. Kemudian dilakukan proses sliding windows. Perbedaan antara ketiga model tersebut adalah jumlah fitur yang ada di setiap model yang menjadi dimensi dari ruang vektor SVM. Model I tanpa penambahan fitur kimiafisik sedangkan Model II dan III terdapat penambahan fitur kimiafisik dengan perbedaan posisi penempatan fitur kimiafisik pada pengolahan data. Spesifikasi model yang digunakan dapat dilihat pada Tabel 3. Tabel 3 Spesifikasi model dataset Karakteristik Model I Model II Model III Jumlah Fitur
260
266
338
Fitur Kimiafisik
Tidak Ada
Ada
Ada
10 Sebelum dilakukan proses klasifikasi, dilakukan pembagian data pada dataset dibagi menjadi dua bagian data yaitu data latih sebanyak 75% dari dataset dan data uji sebanyak 25% dari dataset.
Pengujian dan Evaluasi Pengujian dilakukan untuk menguji model yang dihasilkan oleh pemodelan SVM. Penilaian akurasi akan menggunakan Q3 Score yang mengandung informasi data kelas dan hasil prediksi. Persamaan nilai akurasi menggunakan persamaan 4 (Mandle et al. 2012) dengan i adalah jenis kelas struktur sekunder protein, yaitu alphahelix (H), beta-sheet (B), dan coil (C). Persamaan 5 adalah persamaan Q3 score (Huang dan Chen 2013) yang merupakan nilai akurasi rata-rata dari seluruh kelas. Pada persamaan Q3 Score, 𝑁𝐻 adalah akurasi untuk alphahelix (H), 𝑁𝐵 adalah akurasi untuk beta-sheet (B), 𝑁𝐶 adalah akurasi untuk coil (C), dan 𝑁𝑡𝑜𝑡𝑎𝑙 adalah jumlah kelas pada data uji. n
Akurasi
kelas
i yang benar 100%
i 1 n
jumlah
(4)
total kelas i
i 1
Q3 Score
N H N B NC Ntotal
(5)
Lingkungan Pengembangan Penelitian ini dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut: 1 Perangkat keras yang digunakan berupa laptop dengan spesifikasi: Intel® Core™ i7 CPU @2.4 GHz RAM 8 GB Harddisk Internal 1 TB 2 Perangkat lunak yang digunakan: Sistem Operasi Windows 10 64-bit R-Studio versi 0.99.891 dan R versi 3.2.3 (2015-12-10) Library R e1071
11
HASIL DAN PEMBAHASAN Praproses Pada tahap ini dilakukan proses pengambilan data, ekstraksi ciri PSSM, dan proses sliding windows. Adapun rincian dari proses tersebut adalah sebagai berikut: Pengambilan data Pada tahap ini, data sekuens protein diambil dari file yang berekstensi .dssp. Di dalam file tersebut terdapat 19 kolom data dan hanya diambil dua kolom yaitu kolom Amino Acid (AA) dan Structure. Kelas struktur sekunder yang ada pada kolom Structure akan direduksi dari 8 kelas menjadi 3 kelas. Ilustrasi pengambilan kolom data dapat dilihat pada Gambar 4 dan reduksi kelas dilakukan berdasarkan Tabel 2.
Gambar 4 Ilustrasi pengambilan data file DSSP Ekstraksi Ciri Setelah mendapatkan sekuens protein dari tahap pengambilan data, sekuens tersebut dimasukkan sebagai input dalam website http://www.cbs.dtu.dk/biotools/ Seq2Logo/ untuk dilakukan proses pembangkitan ciri asam amino. Proses ini merupakan pencarian nilai perubahan residu asam amino terhadap residu asam amino yang lain. Pola menarik yang terdapat pada nilai perubahan tersebut adalah nilai asam amino menjadi paling tinggi apabila bertemu dengan jenis asam amino itu sendiri. Setelah sekuens protein dimasukkan, maka dihasilkan matriks PSSM berukuran jumlah input × 20 (jenis asam amino). Bentuk matriks PSSM dapat dilihat pada Gambar 5.
Gambar 5 Ilustrasi matriks PSSM profile Sliding Windows Proses ini merupakan proses ekstraksi ciri dari matriks PSSM yang ditambahkan kolom kelas struktur sekunder protein yang berasal dari tabel pengambilan data. Proses ini menggunakan sliding windows yang berjumlah 13 merujuk pada penelitian yang dilakukan oleh Huang dan Chen (2013). Windows
12 yang ada pada sliding windows akan mengambil data atau sekuens protein sebanyak 13 baris dengan baris ke-7 sebagai point of interest. Data pada kolom kelas struktur sekunder yang ada pada baris point of interest akan menjadi kelas dari 13 sekuens protein. Hasil proses ini menjadi data masukan atau dataset yang digunakan untuk keperluan proses pelatihan dan pengujian.
Ekstraksi Ciri Kimiafisik Pada tahap ini dilakukan perhitungan nilai parameter conformation parameter, net charge, hydrophobic, dan side chain mass. Conformation parameter adalah komposisi jumlah sekuens asam amino dari kelas struktur sekunder tertentu yang ada pada dataset. Net charges merupakan parameter kimiafisik yang hanya dimiliki oleh lima asam amino yaitu arginine (R), aspartic acid (D), glutamine acid (E), histidine (H), dan lysine (K). Hal ini berkaitan dengan bentuk formasi yang akan dibentuk berdasarkan muatan listrik pada lima asam amino tersebut (Huang dan Chen 2013). Nilai muatan listrik yang tersedia adalah +1 dan -1 selainnya bernilai 0. Hydrophobic merupakan sifat yang mempengaruhi stabilitas dari struktur sekunder protein. Semakin positif nilai sifat ini maka sifat hidrofobiknya semakin kuat. Side chain mass adalah suatu nilai yang dihitung berdasarkan massa dari ikatan kimia suatu asam amino yang mempengaruhi proses folding struktur protein. Pada penelitian ini, nilai parameter conformation parameter, net charge, hydrophobic, dan side chain mass merujuk pada penelitian Huang dan Chen (2013).
Klasifikasi Support Vector Machine Pada tahap ini dilakukan pencarian parameter optimum, pelatihan model SVM, dan pengujian model SVM. Pencarian parameter optimum dilakukan untuk pelatihan dengan kernel radial dan polinomial. Package yang digunakan dalam penelitian ini adalah package e1071 dengan fungsi svm(), predict(), dan tune.svm(). Pencarian Parameter Optimum Pada tahap ini dilakukan pengambilan sampel data untuk mencari parameter C dan γ yang optimal. Parameter C dan γ digunakan dalam klasifikasi SVM dengan kernel radial dan polinomial. Data yang digunakan berjumlah 9000 data dari dataset dan dilakukan proses tuning dengan metode grid search. Fungsi yang digunakan adalah tune.svm() dari package R e1071. Parameter C dan γ ditentukan dengan kombinasi matriks 5 × 4. Kombinasi matriks terbentuk dari [2-2, 2-1, 20, 21, 22] dan [2-6, 2-5, 2-4, 2-3]. Parameter optimum yang diperoleh yaitu C = 21 dan γ = 2-6. Pelatihan Model SVM Pada tahap ini dilakukan pelatihan model SVM dengan data latih yang telah dibagi dari dataset dengan parameter optimum yang diperoleh dari pencarian parameter. Pelatihan dilakukan pada setiap model dengan kernel linier, kernel radial, dan kernel polinomial berderajat 2, 3, dan 4. Model yang dihasilkan sebanyak 15 buah. Pelatihan model SVM menggunakan fungsi svm() dari package R e1071.
13 Pengujian Model SVM Pada tahap ini dilakukan pengujian terhadap model-model yang telah dilatih dengan dataset dan kernel yang berbeda. Pengujian dilakukan dengan fungsi predict() dari package R e1071. Hasil pengujian berupa nilai Q3 Score dapat dilihat pada Gambar 6. 100
93.16 93.33
93.02 93.21
92.14 93.31 87.51
87.06
87.37
Q3 Score (%)
80
60
40
20
0 I
II
III
Model
Linier
Radial
Polinomial (d=4)
Gambar 6 Diagram Q3 Score Pada diagram di atas, terlihat bahwa nilai Q3 Score tertinggi dimiliki oleh model I dengan kernel polinomial berderajat 4. Model I memiliki 260 fitur PSSM profile tanpa fitur kimiafisik. Nilai yang diperoleh sebesar 93.33%. Nilai Q3 Score terendah dimiliki oleh Model II dengan kernel linier. Model II memiliki 266 fitur (260 fitur PSSM profile dan enam fitur kimiafisik). Nilai yang diperoleh model ini sebesar 87.06%. Nilai Q3 Score terbesar didapatkan oleh model dataset yang diolah dengan kernel polinomial berderajat 4. Akurasi masing-masing model dalam memprediksi kelas struktur sekunder protein dapat dilihat pada Gambar 7, 8, dan 9.
Model I Akurasi
100.00% 95.00% 90.00%
C
85.00%
E
80.00% Linier
Radial
Polinomial (d=4)
Kernel
Gambar 7 Diagram akurasi Model I
H
14
Model II 100.00%
Akurasi
95.00% 90.00%
C
85.00%
E
80.00%
Linier
Radial
H
Polinomial (d=4)
Kernel
Gambar 8 Diagram akurasi Model II
Model III 100.00%
Akurasi
95.00% 90.00%
C
85.00%
E
80.00% Linier
Radial
H
Polinomial (d=4)
Kernel
Gambar 9 Diagram akurasi Model III Berdasarkan diagram tersebut dapat dilihat bahwa kemampuan model dalam melakukan prediksi untuk kelas beta-sheet (E) memiliki akurasi yang paling rendah. Hal ini disebabkan oleh kurangnya jumlah data kelas beta-sheet (E) dibandingkan dengan data kelas lain yang ada pada dataset. Perbandingan proporsi data kelas struktur sekunder pada dataset yang digunakan dapat dilihat pada Gambar 10.
Alpha-Helix (H) 37.51%
Coil (C) 41.24%
Beta-Sheet (E) 21.25%
Gambar 10 Distribusi data pada dataset
15 Berdasarkan Gambar 10, distribusi data pada dataset tidak seimbang karena data antar kelas tidak memiliki proporsi yang sama. Data struktur sekunder betasheet (E) memiliki proporsi terkecil diantara dua kelas lainnya. Menurut Batuwita dan Palade (2012) kemampuan prediksi model SVM akan menurun terutama pada kelas minoritas jika distribusi data pada data latih tidak seimbang. Perbandingan dengan Penelitian Sebelumnya Penelitian ini merupakan pengembangan dari penelitian sebelumnya yang sudah dilakukan Ar (2015) dan Nandapuspita (2015). Penelitian Ar (2015) menggunakan matriks penciri Rost Sander dan hanya menambahkan enam fitur kimiafisik. Matriks Rost Sander merupakan matriks yang nilai interaksi antar asam amino hanya 1 dan 0. Jika suatu asam amino bertemu dengan asam amino yang sama maka akan bernilai 1, selain kondisi tersebut nilai yang dihasilkan adalah 0. Pada penelitian Nandapuspita (2015), metode yang digunakan yaitu Jaringan Saraf Tiruan dengan matriks PSSM dan penambahan enam fitur kimiafisik. Hasil perbandingan nilai Q3 Score penelitian dapat dilihat pada Tabel 4. Tabel 4 Perbandingan Hasil Q3 Score Penelitian Setiap Model Dataset Penelitian Model I Model II Model III Ar (2015) 84.20% 85.20% Nandapuspita (2015) 99.94% 97.81% 91.91% Penelitian Saat Ini 93.33% 93.21% 93.31% Berdasarkan tabel diatas, penggunaan matriks PSSM pada penelitian ini memberikan hasil akurasi yang lebih baik dibandingkan matriks Rost Sander tetapi penambahan fitur kimiafisik pada penelitian ini tidak memberikan pengaruh yang signifikan terhadap nilai Q3 Score setiap model dataset.
SIMPULAN DAN SARAN Simpulan Berdasarkan hasil penelitian yang telah dilakukan dapat disimpulkan bahwa klasifikasi dengan metode Support Vector Machine dapat diimplementasikan dalam melakukan prediksi struktur sekunder protein. Selanjutnya, dilakukan evaluasi terhadap model yang dihasilkan dengan menghitung nilai Q3 Score. Penambahan fitur kimiafisik tidak memberikan pengaruh yang signifikan terhadap nilai akurasi. Hasil akurasi juga dipengaruhi oleh kernel yang digunakan ketika melatih data latih setiap model. Hasil yang terbaik didapatkan oleh model yang berasal dari dataset Model I dengan menggunakan kernel polinomial berderajat 4.
16 Saran Untuk penelitian selanjutnya dapat dilakukan penyeimbangan distribusi data pada dataset dan percobaan jumlah sliding windows yang berbeda serta pencarian parameter yang digunakan kernel SVM dengan range yang lebih besar.
DAFTAR PUSTAKA Ar R. 2015. Pemodelan Jaringan Saraf Tiruan untuk Prediksi Struktur Sekunder Protein [skripsi]. Bogor (ID): Institut Pertanian Bogor Aydin Z, Altunbasak Y, Borodovsky M. 2006. Protein secondary structure prediction for a single-sequence using hidden semi-Markov models, BMC Bioinformatics [Internet]. [diunduh 2015 Desember 28];7:178. Tersedia: http:// www.biomedcentral.com/1471-2105/7/178. Batuwita R, Palade V. 2012. Imbalanced Learning: Foundations, Algorithms, and Applications. New Jersey (US) : John Wiley & Sons. Campbell, Neil A, Jane BR, Lawrence G. Mitchell.2000. Biologi Ed-5 Jilid I. Jakarta (ID) : Erlangga. Cristianini N., Taylor J.S. 2000. An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods. Inggris (UK) : Cambridge Press University. Haryanto T. 2011. Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein [tesis]. Bogor (ID): Institut Pertanian Bogor. Haryanto T, Ardi BS. 2015. Penggunaan Fitur Kimiafisik Dan Posisi Atom Untuk Prediksi Struktur Sekunder Protein. Jurnal Edukasi dan Penelitian Informatika (JEPIN). 1(2). Huang YF and Chen SY. 2013. Extracting physicochemical features to predict protein secondary structure. The Scientific World Journal. 2013:1-8. doi : 10.1155/2013/347106 James G, Witten D, Hastie T, Tibshirani R. 2013. An Introduction to Statistical Learning with Applications in R. New York (US) : Springer. Martin J, Gibrat JF, Rodolphe J. 2005. Hidden markov model for protein secondary structure. Oxford University Press. 14(9): 755-763. Mandle KA, Jain P, Shrivastava SK. 2012. Protein Structure Prediction using Support Vector Machine. International Jurnal on Soft Computing. doi : 10.5121/ijsc.2012.3106 Nandapuspita D. 2015. Prediksi Struktur Sekunder Protein Menggunakan Jaringan Saraf Tiruan dengan Penciri Position Specific Scoring Matrix dan Parameter Kimiafisik [skripsi]. Bogor (ID) : Institut Pertanian Bogor. Polanski A dan Kimmel M.2007. Bioinformatics. Jerman (DE) : Springer Science. Vapnik V. N.1999. The Nature of Statistical Learning Theory. New York (US): Springer.
17
LAMPIRAN Lampiran 1 Nilai conformation parameters pada dataset (Huang dan Chen 2013) Asam Amino H E C A 0.53 0.16 0.31 R 0.45 0.18 0.37 N 0.30 0.13 0.57 D 0.32 0.12 0.56 C 0.32 0.30 0.38 E 0.51 0.15 0.34 Q 0.49 0.17 0.34 G 0.19 0.16 0.65 H 0.36 0.23 0.41 I 0.41 0.36 0.23 L 0.48 0.24 0.28 K 0.43 0.16 0.41 M 0.42 0.22 0.36 F 0.39 0.29 0.32 P 0.20 0.08 0.72 S 0.30 0.18 0.52 T 0.30 0.24 0.46 W 0.43 0.29 0.28 Y 0.38 0.30 0.32 V 0.32 0.43 0.25 Lampiran 2 Nilai net charges, hydrophobic, dan side chain mass (Huang dan Chen 2013) Asam Amino Net Charges Hydrophobic Side Chain Mass A 0 1.8 15.0347 R +1 -4.5 100.1431 N 0 -3.5 58.0597 D -1 -3.5 59.0445 C 0 2.5 47.0947 E -1 -3.5 73.0713 Q 0 -3.5 72.0865 G 0 -0.4 1.0079 H +1 -3.2 81.0969 I 0 4.5 57.1151 L 0 3.8 57.1151 K +1 -3.9 72.1297 M 0 1.9 75.1483 F 0 2.8 91.1323 P 0 -1.6 41.0725 S 0 -0.8 31.0341 T 0 -0.7 45.0609 W 0 -0.9 130.1689
18 Asam Amino Y V
Net Charges 0 0
Hydrophobic -1.3 4.2
Side Chain Mass 107.1317 43.0883
Lampiran 3 Hasil Pengujian Model Dataset I SVM dan Kernel Model
Kernel
Confusion Matrix
Linier
25797 935 1933 27094 531 1040 25284 1267 2114 26508 830 1327 26815 639 1211
Radial
I (260 fitur)
Polinomial (d=2) Polinomial (d=3) Polinomial (d=4)
1750 12024 943 1050 13371 296 1539 12576 602 855 13550 312 892 13507 318
Kelas 2076 410 23479 1444 83 24438 2334 542 23089 1302 242 24421 1254 131 24580
Akurasi (%)
C E H C E H C E H C E H C E H
89.99 81.70 90.43 94.52 90.85 94.12 88.21 85.45 88.92 92.48 92.07 94.05 93.55 91.78 94.67
Q3 Score (%) 87.37
93.16
87.53
92.87
93.33
Lampiran 4 Hasil Pengujian Model Dataset II SVM dan Kernel Model
Kernel
Confusion Matrix
Linier
25750 992 1954 27074 548 1040 25287 1264 2145 26490 855 1351 26822 646 1228
Radial
II (266 fitur)
Polinomial (d=2) Polinomial (d=3) Polinomial (d=4)
1848 12002 972 1111 13424 296 1554 12603 665 878 13634 310 909 13580 333
Kelas 2057 401 23371 1416 93 24438 2305 535 22989 1282 225 24322 1267 141 24421
C E H C E H C E H C E H C E H
Akurasi (%) 89.73 80.97 90.48 94.35 90.57 94.16 88.12 85.03 89.00 92.31 91.98 94.17 93.47 91.62 94.55
Q3 Score (%) 87.06
93.02
87.38
92.82
93.21
19 Lampiran 5 Hasil Pengujian Model Dataset III SVM dan Kernel Model
III (380 fitur)
Kernel
Confusion Matrix
Linier
25727
Radial
Polinomial (d=2) Polinomial (d=3) Polinomial (d=4)
Kelas
920 1853 27198 432 870
1790 12000 919 1476 12916 317
2014 419 23705 1750 34 24354
25408 1193 1899 26432 816 1252 26706 661 1133
1479 12691 539 899 13434 376 945 13411 353
2128 461 23549 1256 221 24661 1161 130 24847
C E H C E H C E H C E H C E H
Akurasi (%) 90.27 81.58 90.69 95.43 87.81 93.17 89.15 86.28 90.09 92.74 91.33 94.35 93.71 91.18 95.06
Q3 Score (%) 87.51
92.14
88.51
92.87
93.31
20
Lampiran 6 Nilai bobot interaksi antar asam amino pada PSSM profile AA A R N D C Q E G H I L K L F P S T W Y V
A 3.883 -1.52 -1.645 -1.763 -0.433 -0.868 -0.905 0.104 -1.693 -1.362 -1.526 -0.812 -1.066 -2.32 -0.822 1.082 -0.098 -2.635 -1.798 -0.219
R -1.469 5.483 -0.4 -1.574 -3.324 1.022 -0.107 -2.343 -0.343 -3.086 -2.172 2.108 -1.369 -2.882 -1.999 -0.727 -1.078 -2.368 -1.763 -2.472
N -1.648 -0.448 5.612 1.213 -2.95 -0.078 -0.324 -0.426 0.474 -3.248 -3.348 -0.254 -2.345 -2.846 -1.919 0.511 -0.124 -3.152 -2.111 -2.915
D -1.673 -1.549 1.296 5.811 -3.404 -0.342 1.532 -1.308 -0.947 -3.166 -3.606 -0.708 -2.799 -3.3 -1.549 -0.234 1 -3.606 -3.008 -3.15
C 0.694 -2.245 -1.832 -2.358 9.664 -1.897 -2.397 -1.306 -2.32 -0.136 -0.136 -1.963 -0.154 -1.36 -1.443 0.087 0.136 -2.32 -1.737 0.354
Q -1.306 0.532 -0.512 -0.858 -3.444 4.831 1.361 -2.181 -0.151 -3.195 -2.626 0.821 -1.037 -3.85 -1.919 -0.555 -1.089 -2.81 -1.769 -2.573
E -1.284 -0.546 -0.711 1.065 -3.91 1.406 4.46 -2.608 -0.486 -3.672 -3.291 0.328 -2.339 -3.468 -1.608 -0.541 -1.363 -2.954 -2.349 -2.879
G 0.388 -2.114 -0.14 -1.109 -2.149 -1.465 -1.935 5.796 -1.683 -3.465 -3.368 -1.328 -2.569 -2.86 -1.838 -0.092 -1.314 -2.351 -2.918 -2.941
H -1.197 0.113 0.983 -0.522 -2.936 0.784 0.407 -1.462 7.972 -2.697 -2.299 -0.229 -0.954 -0.814 -1.593 -0.446 -1.399 -1.12 2.119 -2.9
I -0.816 -2.597 -2.698 -2.711 -0.717 -2.226 -2.75 -3.201 -2.647 4.483 2.019 -2.109 1.618 0.291 -2.303 -1.897 -0.21 -1.839 -0.789 3.044
L -1.307 -2.013 -3.137 -3.477 -1.047 -1.976 -2.688 -3.446 -2.581 1.691 4.014 -2.226 2.149 0.579 -2.736 -2.314 -1.043 -1.636 -0.896 0.96
K -0.834 2.033 -0.281 -0.815 -3.099 1.236 0.691 -1.636 -0.751 -2.664 -2.464 4.453 -1.438 -3.29 -1.05 -0.271 -0.776 -2.776 -1.859 -2.374
M -0.859 -1.209 -2.147 -2.683 -1.064 -0.389 -1.739 -2.652 -1.247 1.286 2.147 -1.209 5.537 0.216 -2.389 -1.172 -0.517 -1.266 -0.668 0.846
F -1.834 -2.458 -2.36 -2.905 -2.013 -2.944 -2.593 -2.664 -0.838 0.232 0.847 -2.791 0.482 6.492 -3.321 -1.929 -1.566 1.143 3.363 -0.384
P -1.461 -2.69 -2.573 -2.275 -3.192 -2.137 -1.867 -2.765 -2.735 -3.49 -3.59 -1.673 -3.228 -4.434 6.648 -1.461 -1.673 -5.394 -3.319 -3.157
S 0.469 -1.392 -0.104 -0.938 -1.656 -0.74 -0.777 -0.988 -1.565 -3.062 -3.144 -0.867 -2.002 -3.016 -1.437 3.212 0.719 -3.34 -2.423 -2.27
T -0.408 -1.439 -0.437 -1.398 -1.302 -0.961 -1.286 -1.905 -2.212 -1.06 -1.566 -1.068 -1.031 -2.356 -1.334 1.025 4.201 -2.68 -2.075 -0.437
W -2.426 -2.22 -2.952 -3.517 -3.22 -2.17 -2.373 -2.426 -1.44 -2.17 -1.636 -2.535 -1.292 0.866 -4.535 -2.535 -2.17 10.596 2.323 -2.373
Y -1.741 -1.758 -2.054 -3.029 -2.782 -1.271 -1.893 -3.134 1.681 -1.271 -1.042 -1.774 -0.818 2.945 -2.621 -1.741 -1.692 2.184 6.624 -1.271
V 0.153 -2.147 -2.546 -2.85 -0.395 -1.773 -2.12 -2.85 -3.021 2.875 1.12 -1.984 1.004 -0.493 -2.147 -1.278 0.244 -2.213 -0.965 4.086
21
RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tanggal 3 Juli 1994. Penulis adalah putera pertama dari dua bersaudara dari pasangan Bapak Adiwirman Izhar dan Ibu Fahruziana Zahari. Penulis menempuh pendidikan sekolah menengah di SMAN 1 Bengkalis dan SMAN 1 Pekanbaru dan lulus pada tahun 2012. Pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur Beasiswa Utusan Daerah dan menempuh Program Sarjana di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Pada tahun 2014 penulis pernah aktif menjadi ketua acara Workshop IT yang diselenggarakan oleh Himpunan Mahasiswa Ilmu Komputer (Himalkom) dan menjabat menjadi anggota Divisi Edukasi di Himalkom. Pada bulan Juli-Agustus tahun 2015, penulis melaksanakan Praktik Kerja Lapangan di Asosiasi Asuransi Jiwa Indonesia (AAJI) Jakarta dengan judul Sistem Perpustakaan AAJI E-Library.