1
BAB I PENDAHULUAN
1.1
Latar Belakang Berkembangnya teknologi dan informasi saat ini telah menghasilkan kumpulan
data diberbagai bidang ilmu pengetahuan, bisnis ataupun pemerintahan. Pada proses penyediaan informasi yang sangat besar, banyak perguruan tinggi atau organisasi telah mengimplementasikan suatu sistem informasi basis data atau yang sering disebut dengan Database Management System (DBMS) untuk menangani penumpukan data beskala besar. Dengan membuat sistem DBMS ini, perguruan tinggi atau organisasi berharap untuk mendapatkan suatu informasi yang berkualitas dari kumpulan data sehingga bisa digunakan dalam proses pengambilan keputusan. Seiring mahalnya sebuah sistem informasi yang berintegrasi dan kurangnya pengetahuan tentang pengembangan suatu sistem informasi manajemen DBMS menyebabkan banyaknya perguruan tinggi atau organisasi membeli sistem informasi DBMS secara terpisah. Dari pengembangan sistem yang terpisah, maka mengakibatkan multi sistem informasi serta perbedaaan sumber data penyimpanan. Dari perbedaan ini akan
memunculkan
adanya
potensi
ketidakseragaman
pada
format
data.
Ketidakseragaman format data dari penerapan sistem basis data DBMS yang berbedabeda dapat menimbulkan fenomena yang sering dikenal dengan spider web. Pada spider web ini, penerapan database yang berbeda-beda dapat menyebabkan permasalahan lack of credibility, problem with productivity dan inability to transform data into information (Inmon, 2005). 1
2
Saat ini semua Perguruan Tinggi, baik Perguruan Tinggi Negeri (PTN) maupun Perguruan Tinggi Swasta (PTS) dituntut untuk memiliki keunggulan bersaing dengan memanfaatkan semua sumber daya yang dimiliki. Selain sumber daya sarana, prasarana dan manusia, sistem informasi adalah salah satu sumber daya yang dapat digunakan untuk meningkatkan keunggulan pada lembaga pendidikan. Hambatan pada sistem informasi juga sering ditemui adalah bahwa sistem informasi yang ada belum terintegrasi secara melengkapi satu dengan yang lainnya, karena media penyimpanan datanya (database) berdiri sendiri tiap sistem informasi. Menurut Sutabri (2012), sistem informasi dapat diartikan sebagai suatu kumpulan atau himpunan dari unsur, komponen, atau variabel yang terorganisir, saling berinteraksi, saling bergantung satu sama lain, dan terpadu. Sehingga jika setiap sistem informasi mengelola sumber data dengan jumlah sangat besar dan setiap waktu akan terus bertambah, serta sistem informasi tidak saling berintegrasi dengan sistem yang lain, maka hal ini akan mengakibatkan data yang diolah tidak menghasilkan informasi yang lengkap. Tujuan dari sistem informasi adalah menghasilkan informasi (information) dari bentuk data yang diolah menjadi bentuk yang berguna bagi para pemakainya (Jogiyanto, 2010). Adanya beragam sistem informasi, maka perlu dikembangkan konsep data warehouse untuk menampung semua data dari sistem informasi berbeda tersebuat supaya saling berintegarasi menjadi satu. Data warehouse merupakan metode dalam perancangan database untuk menunjang Decission Support System (DSS) dan Executive Information System (EIS). Data warehouse pada dunia pendidikan, khususnya perguruan tinggi dibidang akademik sangat bagus dikembangkan, karena penumpukan dan pengolahan data tiap tahunnya meningkat, contohnya adalah data akademik, pegawai dan mahasiswa. Salah satu penumpukan data yang dipaparkan adalah data penerimaan mahasiswa baru pada obyek
3
penelitian yang dilakukan pada Universitas Warmadewa. Dari kumpulan data penerimaan mahasiswa baru, kebutuhan informasi yang harus diberikan meliputi berapa jumlah calon mahasiswa baru yang mendaftar, yang diterima dan yang sudah melakukan registrasi ulang untuk tiap jurusan per periode. Jurusan mana yang mengalami penurunan jumlah calon mahasiswa yang mendaftar, diterima dan yang melakukan registrasi, sehingga dapat dicari penyebabnya dan dicarikan solusi untuk mengatasinya. Ini merupakan sebagain kecil contoh dari permasalahan yang ditemukan dibidang akademik Universitas Warmadewa khususnya pada informasi penerimaan mahasiswa baru. Dari masalah yang dipaparkan maka pembangunan data warehouse merupakan salah satu cara terbaik untuk mengekstrak informasi penting dari data yang tersebar di beberapa database sistem informasi tersebut. Data yang sudah terintegrasi menjadi satu kumpulan (data warehouse) selanjutnya dapat dimanfaatkan untuk kegiatan pemberian informasi yang dapat ditinjau dari berbagai aspek dimensi yang dapat diatur tingkatan rinciannya (dashboard). Data warehouse pada umumnya atau sering disebut dengan data warehouse tradisional mengelola model data terintegrasi serta juga dapat mengolah data transaksional yang heterogen maupun yang homogen. Untuk membangun suatu data warehouse tradisional ada beberapa tahapan yang harus diperhatikan, salah satu bagian dari data warehouse tradisional yang mempunyai peranan penting dalam menghasilkan suatu analisa data yang akurat adalah proses Extract Transform Loading (ETL). Menurut Rainardi (2008), ETL adalah suatu proses mengambil dan mengirim data dari data sumber ke data warehouse. ETL juga merupakan sekumpulan proses untuk mengambil dan memproses data dari satu atau banyak sumber menjadi sumber baru. Namun proses ETL ini tidaklah sesederhana itu, sebab sumber data yang diolah ETL
4
bisa dari beragam sumber data, tidak hanya dari database Online Transaction Processing (OLTP) saja, tetapi bisa juga dari website, file teks, spreadsheet, email dan lainnya (Mulyana, 2014). Dari proses ETL inilah yang akan menghasilkan sebuah informasi yang terpusat dan terintegrasi dari penggabungan data dari berbagai sumber database OLTP. Pada proses transform (bagian dari proses ETL) ini data warehouse tradisional
mengalami
kelemahan
pada
teknik
pemodelan
data
yang
tidak
menggambarkan secara detail sumber data yang diolah yang mengakibatkan kualitas data yang dihasilkan untuk ditampung kedalam data warehouse menjadi tidak spesifik, sehingga proses query tidak relevan untuk menghasilkan laporan Online Analitical Processing (OLAP) yang mendukung proses pengambilan keputusan (Pardillo, J., dan Mazon, J.N., 2011). Data warehouse tradisional pada umumnya digambarkan dengan model dimensional star schema. Untuk menghasilkan laporan OLAP dan data mart, pada data warehouse tradisional harus melalui beberapa proses tahapan lagi seperti landing zone, staging area, integrated store dan analytic layer didalam penyimpanan data warehouse, padahal sebelum data di load ke dalam data warehouse sudah melalui proses ETL untuk mendapatkan data yang berkualitas. Jadi pada data warehouse tradisional mengalami kesulitan pada proses integrasi data (Kimball dan Caserta, 2011). Pada data warehouse tradisional untuk proses pencarian informasi sebagian besar masih menggunakan query dengan pemilihan parameter yang mengakibatkan proses query berfokus pada parameter yang dipilih. Dari permasalahan yang terjadi, maka untuk membangun sistem data warehouse generasi berikutnya adalah dengan merancang semantic data warehouse yang memiliki kelebihan pada manajeman kualitas data, performance dalam mengolah laporan OLAP pada kumpulan data skala besar, serta efektifitas pada proses query untuk menghasilkan
5
informasi yang lebih relevan tanpa menggunakan pemilihan parameter, melainkan proses query dengan menggunakan bahasa alami (natural language). Semantic data warehouse adalah tempat penyimpanan data yang cerdas yang diciptakan oleh proses ETL dengan pendekatan semantic. Model pengolahan ETL berbasis pendekatan semantic merupakan solusi untuk menanggulangi keterbatasan pada data warehouse tradisional, karena pada semantic ETL ini menerapkan metode ontology untuk menggabungkan sumber data dari berbagai sistem OLTP yang memiliki format data yang berbeda menjadi format yang seragam. Semantic ETL juga mentransformasikan sumber dari tiga database OLTP fisik dengan dengan konsep data mapping menjadi model Resource Description Framework Schema (RDFS) logic. Dari model RDFS logic ini akan ditransformasikan kembali menjadi model dimensioanal SDWH fisik dengan model desain snowflake schema yang mendukung proses relasi yang lebih detail yang menghasilkan kualitas data yang terpusat dan berintegrasi pada data warehouse. RDFS ini merupakan komponen dari ontology untuk merancang sebuah diagram yang terdiri dari tiga komponen yaitu subyek, predikat dan obyek untuk memudahkan dalam proses query data. Dari tiga komponen tersebut, RDFS ini akan membuat desain relasi antar class, sub class beserta menjelaskan properties class itu sendiri sehingga dapat terbentuk semantic data warehouse yang bertujuan untuk memudahkan proses pencarian data. Pada semantic data warehouse berbasis ontology ini menerapkan konsep aturan (rule based), dimana konsep rule based ini merupakan acuan pada model ontology. Dari semantic data warehouse ini, akan dikembangkan sebuah aplikasi OLAP untuk menghasilkan beberapa kebutuhan laporan informasi penting yang bisa digunakan untuk membantu proses pengambilan keputusan pada bidang akademik perguruan tinggi. Proses pengambilan data pada semantic data warehouse ini akan menggunakan
6
metode nine step Kimball. Metode nine step Kimball ini memiliki sembilan langkah proses pengambilan data pada semantic data warehouse menjadi informasi yang dibutuhkan untuk pihak manajemen. Aplikasi yang akan dirancang juga dilengkapi dengan proses pencarian informasi secara semantic berbasiskan rule based query supaya mendapatkan informasi yang lebih relevan dan efektif serta tidak tergantung pada proses pemilihan paremeter pencarian melainkan menggunakan kata kunci bahasa alami (natural language) Indonesia. Pencarian semantic juga akan dapat memahami kata kunci dengan format yang beragam, yaitu dengan menggunakan huruf kapital maupun non kapital, serta dapat merekonstruksi kata kunci yang hurufnya hilang. Berdasarkan latar belakang tersebut, maka diajukan penelitian semantic data warehouse yang berjudul “Desain Sistem Semantic Data Warehouse Untuk Mengolah Data Akademik dengan Menggunakan Metode Ontology dan Rule Based”. Penelitian semantic data warehouse akan memiliki manajemen kualitas data yang lebih baik dibandingkan dengan data warehouse tradisional.
1.2
Rumusan Masalah Berdasarkan latar belakang yang dikemukakan diatas, maka permasalahan yang
dikaji selanjutnya adalah: 1. Bagaimana mendesain sistem pengolahan data akademik berbasis semantic data warehouse melalui proses kerja ETL berbasis semantic dengan penerapan metode ontology dan rule based ? 2. Bagaimana merancang aplikasi OLAP dari sumber semantic data warehouse dengan penerapan metode nine step Kimball yang dapat memberikan laporan analisa data akademik yang dibutuhkan, serta merancang sistem pencarian informasi yang efektif dan relevan tanpa menggunakan pemilihan parameter
7
pencarian yang nantinya dapat digunakan menjadi acuan pendukung keputusan (decision support system)? 3. Bagaimana unjuk kerja dari sistem semantic data warehouse diuji dari segi hasil kualitas data, performance dalam mengolah laporan OLAP, serta efektifitas pada proses query ?
1.3
Tujuan Penelitian Tujuan umum penelitian ini adalah untuk merancang sebuah semantic data
warehouse untuk pengolahan data akademik. Tujuan khusus dari penelitian ini adalah: 1. Menghasilkan desain semantic data warehouse berbasis ontology dan rule based melalui proses semantic ETL dimana proses semantic ETL ini bertugas untuk mengekstrak
beberapa
database
OLTP
sistem
informasi,
melakukan
transformasi ke model RDFS logic kemudian baru ditransformasikan ke SDWH fisik dengan desain dimensioanal snowflake schema, baru proses loading data kedalam semantic data warehouse yang sudah terbentuk. 2. Menghasilkan aplikasi OLAP untuk membantu proses pembuatan laporan dan analisa data yang dibutuhkan, serta pencarian informasi dengan pendekatan semantik (semantic search) dengan penerapan rule base query. 3. Mendapatkan unjuk kerja dari semantic data warehouse yang memiliki memiliki kelebihan pada manajeman kualitas data yang seragam sehingga dapat menghasilkan laporan OLAP yang baik untuk mendukung proses pengambilan keputusan pada bidang akademik, serta performance pada proses query lebih efektif dan relevan dengan menggunakan bahasa alami (natural language) Indonesia.
8
1.4
Manfaat Penelitian Manfaat yang didapat dari penelitian semantic data warehouse ini adalah sebagai
berikut: 1. Manfaat Akademis Memberikan kemudahan dan efesiensi didalam mengolah database berskala besar khususnya dibidang akademik. Dengan pengembangan data warehouse berbasis semantic, keanekaragaman format data dari database OLTP bisa diatasi. Semantic data warehouse ini mempunyai kelebihan yaitu mampu dalam pencarian informasi data akademik secara efektif dan relevan, karena pencarian semantic dapat memahami bahasa manusia, bukan bahasa yang baku dari para penguna tetapi juga bahasa yang lebih komplek. 2. Manfaat Praktis Membangun aplikasi OLAP yang mampu memberikan laporan informasi yang dibutuhkan untuk menunjang proses pendukung keputusan (dicision support system). Disamping itu juga meningkatkan efektifitas proses pencarian informasi dengan menggunakan kata kunci bahasa alami (natural language) Indonesia.
1.5
Ruang Lingkup Penelitian Dalam penjelasan laporan ini, akan fokus dalam beberapa hal yang mana
dimaksudkan agar perancangan ini dapat dikerjakan secara lebih teratur dan terarah terhadap pokok-pokok batasan masalah yang akan dibahas. Pokok-pokok batasan masalah yang akan dibahas adalah sebagai berikut: 1. Desain sistem semantic data warehouse ini akan dirancang menggunakan bahasa pemrograman PHP Framework Codeigniter 3.0, desain skema dimensional snowflake dengan tool Microsoft Visio, proses Semantic ETL
9
dengan implementasi fungsi bahasa pemrograman PHP Framewrok Codeigniter, serta program pendukung seperti HTML, CSS, JQuery dan AJAX. 2. Metode yang digunakan untuk mendesain sistem semantic data warehouse ini adalah metode ontology, rule based dan nine step Kimball. 3. Desain pemodelan ontology dirancang dengan menggunakan tool Star UML. 4. Tahapan dari pembentukan semantic data warehouse ini melalui proses ETL dengan pendekatan teknologi semantic. 5. Sumber data yang digunakan adalah database OLTP dari tiga sistem informasi manajeman akademik, pegawai dan mahasiswa Universitas Warmadewa tahun 2012 sampai 2015. Database dari ketiga sumber data ini terbentuk dari DBMS yang sama yaitu MySQL. 6. Hasil dari penelitian ini berupa aplikasi OLAP untuk memberikan hasil laporan informasi dan analisa data akademik menjadi Dicision Support System (DSS), serta pencarian informasi yang lebih efektif dan relevan dengan kata kunci menggunakan bahasa alami (natural language) Indonesia. 7. Pengujian sistem semantic data warehouse untuk mengolah data akademik dengan metode ontology dan rule based dilakukan dengan metode black box testing dan angket kuesioner cheklist.
1.6
Keaslian Penelitian Penelitian ini dimaksudkan untuk mengimplementasikan cara kerja metode yang
digunakan dalam hal merancang semantic data warehouse untuk mengolah data akademik dengan penerapan metode ontology dan rule based. Sumber data yang akan diolah terbentuk dari DBMS yang homogen dari tiga OLTP sistem informasi yaitu MySQL. Berikut ini adalah beberapa kebaruan dalam penelitian ini adalah:
10
1.
Data warehouse biasanya terbentuk dari proses Extract Transform Loading (ETL) dari berbagai sumber data yang terstruktur maupun tidak terstruktur, sementara pada penelitian ini mencoba membuat proses ETL dengan pendekatan semantic dari tiga sumber database OLTP terstruktur dengan format data yang beragam menghasilkan semantic data warehouse dengan manajemen kualitas data yang lebih baik dari data warehouse tradisional.
2.
Pada penelitian ini semantic data warehouse dapat dikatakan sebagai media penyimpanan yang konsisten yang melayani sebagai implementasi fisik dari sebuah model data pendukung keputusan dan menyimpan informasi untuk kebutuhan enterprise dalam membuat keputusan yang bersifat strategis.
3.
Penelitian semantic data warehouse ini mempunyai salah satu kelebihan yaitu mampu dalam pencarian informasi data akademik secara efektif dan relevan karena SDWH berbasis ontology dan rule based dapat memahami kata kunci pencarian dengan kalimat atau bahasa alami tanpa harus memilih parameter pencarian. Bahasa yang digunakan tidak lagi bersifat teknis tapi sudah seperti bahasa dalam percakapan sehari-hari, sehingga dapat mempermudah interaksi dan komunikasi dengan mesin atau komputer. Pencarian semantic ini juga dapat memahami pencarian menggunakan kata kunci dengan huruf kapital maupun non kapital, serta dapat merekonstruksi huruf yang hilang pada kata kunci pencarian. Berdasarkan sejumlah penelitian sebelumnya, penelitian ini merupakan
penelitian pertama yang bertujuan merancang desain sistem semantic data warehouse untuk mengolah data akademik dengan metode ontology dan rule based. Rancangan penelitian secara umum dapat dilihat pada fishbone diagram pada Gambar 1.1.
11
Gambar 1.1 Fishbone Diagram Penelitian Dari fishbone diagram dapat dilihat bahwa sumber data akademik yang akan di olah adalah database OLTP simak, simpeg dan simsiswa melalui proses ETL berbasis semantic. Database OLTP dari tiga sistem informasi pertama akan di-extract untuk memilih kebutuhan informasi yang diperlukan dalam proses analisis. Setelah itu dilanjutkan dengan proses transform dengan melalui proses integrasi dari tiga OLTP fisik menjadi desain model RDFS logic, dimana dalam proses ini akan penerapan metode ontology berbasis rule based, tujuannya adalah untuk mendeskripsikan relasi domain informasi data yang saling terkait supaya memperoleh manajemen data yang berkualitas, jika sudah terbentuk model data RDFS logic maka akan di mapping-kan melalui proses transform kebentuk SDWH fisik dengan konsep dimensional desain Snowflake Schema. Proses selanjutnya adalah penyimpanan data (loading) kedalam semantic data warehouse yang sudah terbentuk. Data yang tersimpan dalam semantic data warehouse ini akan diproses menjadi informasi menggunakan Metode Nine Step
12
Kimball yang nantinya akan dibuatkan Aplikasi OLAP yang digunakan untuk menunjang proses pengambilan keputusan dibidang akademik. Aplikasi OLAP yang akan dirancang juga dilengkapi dengan proses pencarian informasi dengan kata kunci menggunakan bahasa alami (natural language) Indonesia, supaya mendapatkan informasi yang lebih relevan dan tidak tergantung pada proses pemilihan paremeter pencarian. Proses pencarian semantic ini bisa mengenali berbagai kata kunci yang beragam baik penggunakan kata dengan huruf kapital maupun non kapital, serta sistem yang dirancang juga dapat merekonstruksi kata kunci yang hurufnya ada hilang. Tujuan dari pencarian semantic adalah menampilkan hasil informasi pencarian yang dibutuhkan secara efektif dimana antara perangkat lunak dan user saling dapat memahami. Metode yang digunakan pada proses semantic search ini adalah dengan menerapkan query rule based dengan penyusunan 7 aturan produksi (production rule), dimana kata kunci pencarian yang di masukkan sudah melalui beberapa tahapan seperti proses tokenizing, filtering dan stemming.