SIMULASI DAN ANALISIS PENGENALAN HURUF VOKAL PADA GERAK BIBIR MENGGUNAKAN METODE ICA DAN SVM SIMULATION AND ANALYSIS VOWEL RECOGNITION ON LIPS GESTURE USING SVM AND ICA METHOD Firda Isfandary Badryani1, Dr.Ir Bambang Hidayat IPM 2, Unang Sunarya ST.,MT3 1,2,3
Prodi S1 Teknik Telekomunikasi, Fakultas Teknik Elektro, Universitas Telkom
[email protected],
[email protected] , 3
[email protected]
1
Abstrak Mendeteksi gerak bibir merupakan pekerjaan yang tidak mudah, karena mendeteksi gerak bibir dipengaruhi dari bentuk bibir dan harus mengenali kata kunci yang lebih spesifik untuk memprediksi huruf pada gerak bibir. Pembahasan mengenai deteksi pengenalan huruf vokal dengan menggunakan klasifikasi Neural Networks sebelumnya sudah dilakukan dan telah menghasilkan akurasi yang mencapai 70,5 %. Maka tugas akhir ini melakukan simulasi dan analisis pengenalan huruf vokal menggunakan metode berbeda. Tujuan dari tugas akhir ini yakni merancang suatu aplikasi deteksi gerak bibir dalam pengenalan huruf vokal menjadi teks. Proses yang dilakukan dalam perancangan program aplikasi ini diawali dengan pengambilan video pengenalan huruf vokal secara offline, kemudian dilakukan preprocessing dan ekstraksi ciri dengan Independet Component Analysis (ICA) frame per framenya, kemudian diklasifikasikan dengan Support Vector Machine (SVM). Keluaran dari sistem berupa pengenalan bentuk pengenalan huruf vokal a, i, u, e, o. Sistem yang telah dirancang mempunyai tingkat akurasi pengenalan terhadap 5 huruf vokal berdasarkan ekstraksi ciri fiturnya. Tingkat akurasi berdasarkan ciri fiturnya dibedakan berdasarkan pada jarak pengambilan video dari kamera. Tingkat akurasi terendah yakni pada huruf a sebesar 66,67 % dan akurasi tertinggi pada huruf e sebesar 100 % Kata Kunci : pengolahan video digital, Independet Component Analysis (ICA), Support Vector Machine (SVM) Abstract Detecting human movement lips is not an easy job, because detecting lip is influenced from the shape of the lips and should identify the keywords that are more specific to predict the letters on the lip movement. The discussion on the introduction of vowel detection using classification by Neural Networks had previously been done and have achieved an accuracy of 70,5%. Therefore in this thesis the author do the simulation and analysis of the introduction of vowel using different methods. The purpose of this final project is to design an application for detecting the movements of lips in terms of recognizing vowel alphabets into text. The process in designing the program of is started from the taking of video of alphabets vocally in offline mode, then the preprocessing and characteristic extraction is done with Independet Component Analysis (ICA) frame per frame. And finally classified with the support vector machine (SVM) The output of the system is the recognition vowels a, i, u, e, o. The system has been designed to have an accuracy rate of recognition of the 5 vowels based on the feature extraction. The level of accuracy is based on its distinguished characteristics of distances at capturing video from camera. The lowest amount of accuracyin vowel a is 66.67 % and the highest amount of accuracy vowel e is 100% Keywords : digital video processing, Independet Component Analysis (ICA), Support Vector Machine (SVM)
1. Pendahuluan Mendeteksi gerakan bibir manusia merupakan suatu pekerjaan sensitif terhadap konteks, karena untuk mendeteksi gerakan bibir tidak hanya mengenali bentuk mulut secara visual tetapi juga mengenali kata kunci untuk memprediksi kata dan juga untuk mengenali elemen kunci yang lebih spesifik dalam memprediksi suatu kalimat. Dalam tugas akhir ini penulis membatasi untuk mendeteksi huruf vokal saja, sehingga membaca gerak bibir merupakan pekerjaan yang sulit untuk ekstraksi fitur visual. Teknik mendeteksi gerak bibir melalui image dengan ekstraksi fitur visual memerlukan metode untuk mendeteksi pergerakan bibir pembicara melalui urutan image. Deteksi gerak bibir dalam tugas akhir ini dipengaruhi oleh variabilitas pembicara dari segi warna bibir, tinggi bibir, lebar dalam bibir, jumlah pergerakan bibir selama berbicara, serta variabilitas terhadap lingkungan seperti kondisi pencahayaan, serta jarak. Setiap metode yang digunakan untuk mendeteksi bibir saat berbicara, bibir harus sesuai dari image ke image, agar stabil dan tidak terpengaruh oleh penampilan dari gigi maupun lidah. Pada penelitian sistem yang sudah ada sebelumnya, dilakukan oleh Vahideh Sadat Sadeghi dan Khashayar Yaghmaie dengan judul “Vowel Recognition using Neural Networks” [1] mendapatkan akurasi mencapai 70,5%. Metode klasifikasi yang digunakan pada penelitian ini adalah Neural Networks Penelitian dalam tugas akhir ini memiliki kesamaan dengan penelitian tersebut yakni melakuakan simulasi dan analisis pengenalan huruf vokal pada gerak bibir, namun penelitian ini dengan menggunakan metode Independent Component Analysis (ICA) sebagai ekstraksi ciri. Perancangan deteksi pengenalan huruf vokal ini menggunakan metode Support Vector Machine (SVM) menjadi tahap pelatihan dan tahap pengujian. Tahap pelatihan bertujuan untuk mendapatkan fitur-fitur penting hasil ekstraksi ciri. Tahap pengujian bertujuan untuk mengevaluasi sistem kerja dengan pengujian. 2. Dasar Teori 2.1 Video Digital [12] Video digital adalah teknologi untuk menangkap, merekam, memproses, mentransmisikan dan menata ulang gambar bergerak. Biasanya menggunakan sinyal elektronik, atau media digital. Jenis sistem video recording yang bekerja menggunakan sistem digital dibandingkan dengan analog dalam hal representasi videonya. . Video digital pada dasarnya merupakan susunan atas serangkaian frame dengan kecepatan tertentu, tergantung pada frame rate yang diberikan (dalam frame/second) yang bekerja menggunakan sistem digital yang diperoleh dari hasil direkam, kemudian diproses, dan disimpan. Representasi visual tujuan utamanya adalah agar manusia sebagai audience yang melihat merasa berada di scene (lokasi) atau ikut berpartisipasi dalam kejadian yang ditampilkan. Oleh sebab itu, suatu gambar harus dapat menyampaikan informasi spatial dan temporal dari suatu scene Karakteristik-karakteristik yang menentukan kualitas suatu video yaitu resolusi atau dimensi, kuantisasi atau kedalamn bit dan frame rate 2.1.1
Resolusi Pixel
Resolusi pixel merupakan perhitungan jumlah pixel dalam sebuah video digital. Sebuah video dengan tinggi N pixel dan lebar M pixel, berarti memiliki 11 resolusi sebesar M x N. Resolusi pixel akan memberikan dua buah angka integer yang secara berurutan akan mewakili jumlah pixel lebar dan jumlah pixel tinggi dari video tersebut. 2.1.2
Kuantitasi Kuantisasi atau kedalaman bit menentukan jumlah bit yang digunakan untuk mempresentasikan tiap piksel pada sebuah frame dan dinyatakan dalam bit/piksel. Semakin banyak jumlah bit yang digunakan untuk mempresentasikan sebuah piksel, yang berarti semakin tinggi kedalaman pikselnya, maka semakin tinggi pula kualitasnya. Kedalam piksel paling rendah terdapat pada binary-value image yang hanya menggunakan 1 bit untuk tiap piksel, sehingga hanya ada dua kemungkinan bagi tiap piksel, yaitu 0 (hitam) atau 1 (putih).
2.1.3
Laju Frame Laju frame (frame rate) menunjukkan jumlah frame yang digambarkan tiap detik dinyatakan dalam frame/detik. Sehubung dengan laju frame ini, ada dua hal yang perlu diperhatikan, yaitu kehalusan gerakan (smooth motion) dan kilatan (flash). Kehalusan gerakan ditentukan oleh jumlah frame yang berbeda per detik. Untuk mendapatkan gerakan yang halus, video digital setidaknya harus berada pada 25 frame/detik. Kilatan ditentukan oleh jumlah berapa kali layar digambar per detik. Dengan 20 frame/detik, kilatan sudah dapat dilenyapkan.. 2.2 2.2.1
Representasi Warna Video Digital [2] Citra Berwarna
Citra berwarna, atau biasa dinamakan citra RGB, merupakan jenis citra yang menyajikan warna dalam bentuk komponen R (merah), G (hijau) dan B (biru). Setiap komponen warna menggunakan 8 bit (nilainya berkisar antara 0 sampai dengan 255). Dengan demikian, kemungkinan warna yang bisa disajikan mencapai 255 x 255 x 255 atau 16.581.375 warna. 2.2.2
Citra Berskala keabuan
Sesuai dengan nama yang melekat, citra jenis ini menanganin gradasi warna hitam dan putih, yang tentu saja menghasilan efek warna abu-abu.Pada jenis gambar ini, warna dinyatakan dengan intensitas. Dalam hal ini, intensitas berkisar antara 0 sampai dengan 255. Nilai 0 meyatakan hitam dan nilai 255 menyatakan putih 2.2.3
Black and White
Citra biner adalah citra dengan setiap piksel hanya dinyatakan dengan sebuah nilai dari dua buah kemungkinan (yaitu nilai 0 dan 1).Nilai 0 menyatakan warna hitam dan nilai 1 menyatakan warna putih. Citra jenis ini banyak dipakai dalam pemrosesan citra, misalnya untuk kepentingan memperoleh tepi bentuk suatu objek. 2.3 Independet Component Analysis (ICA) [3] Metode Independent Component Analysis (ICA) adalah teknik perhitungan statistik untuk menemukan faktor-faktor tersembunyi yang ada pada sekumpulan vaiabel acak atau sinyal-sinyal. Salah penggunaan metode Independent Component Analysis (ICA) adalah untuk memisalhkan sinyal-sinyal tercampur yang berasal dari beberapa sumber yang saling bebas statistik satu sama lain distribusi sumber tersebut bersifat non Gaussian. 2.3.1
Pre-Processing Fast ICA
Pada bagian algoritma ICA terdapat suatu tahapan yang disebut pra process. Tahapan ini ditujukan untuk meningkatkan kemampuan ICA dalam mengestimasi matriks dekomposisi sehingga kualitas outputan yang akan dihasilkan algoritma ICA dapat ditingkatkan. Secara keseluruhan pre-process dan proses ICA dibagi beberapa tahap yaitu : 1.
Remmean Remmean atau centering adalah tahapan pre-proses yang dilakukan untuk membuang mean/removing mean, m=E x . Pada tahapan ini data inputan diolah sehingga didapatkan matriks rata-rata/mean. Matriks pusat inilah yang kemudian akan diolah ke tahapan selanjutnya, sedangkan matriks rata-rata akan ditambahkan saat algoritma ICA telah selesai dilakukan
X X EX
Dimana :
(1)
X = matriks baru/mengandung mean
X = matriks lama/tanpa mean E
X = mean
Dengan melakukan proses remmean data yang akan diproses memiliki tingkat kompleksitas dan ukuran yang lebih kecil dibandingkan data awal, hal ini akan memudahkan proses komputasi yang dilakukan sehingga output yang didapat diharapkan akan memiliki kualitas yang lebih baik.
2.
Whitenv Pada tahapan ini data yang ditransformasikan sehingga didapatkan vektor data baru dengan karakteristik : antara baris yang satu dan baris yang lainnya tidak saling berkorelasi memiliki variansi yang sama kovariansi matriks = matriks identitas [ I ]
3.
PCAmat PCAmat adalah proses yang ditujukan untuk mengurangi/meminimalkan jumlah redudancy/pengulangan yang terjadi di dalam data yang diobservasi. Sehingga data yang diolah benar-benar data yang tidak mengandung pengulangan. Pembuangan data redundan oleh pcamat hanya didasarkan pada sifat korelasi antara elemen-elemen yang terdapat di dalam data tersebut
2.4 Support Vector Machine (SVM) [4] Support Vector Machine (SVM) adalah sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi-fungsi linier dalam sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori pembelajaran statistik. Proses pembelajaran pada SVM bertujuan untuk mendapatkan hipotesis berupa bidang pemisah terbaik yang tidak hanya meminimalkan empirical risk yaitu rata-rata error pada data pelatihan, tetapi juga memiliki generalisasi yang baik Generalisasi adalah kemampuan sebuah hipotesis untuk mengklasifikasikan data yang tidak terdapat dalam data pelatihan dengan benar 2.4.1 SVM pada Linearly Separable Data Linearly separable data merupakan data yang dapat dipisahkan secara linier. Misalkan {X1, …, Xn} adalah dataset dan {+1,-1} adalah label kelas dari data Xi. Pada gambar (2.2) dapat dilihat berbagai alternatif bidang pemisah yang dapat memisahkan semua data set sesuai dengan kelasnya. Namun, bidang pemisah terbaik tidak hanya dapat memisahkan data tetapi juga memiliki margin paling besar. 2.4.2 SVM pada NonLinearly Separable Data Untuk mengklasifikasikan data yang tidak dapat dipisahkan secara linier formula SVM harus dimodifikasi karena tidak akan ada solusi yang ditemukan. Oleh karena itu, kedua bidang pembatas harus diubah sehingga lebih fleksibel (untuk kondisi tertentu) dengan penambahan variabel i ( i diklasifikasikan dengan benar) menjadi xi .w b 1 i untuk kelas 1 dan
0, i : i 0
xi .w b 1 i untuk
jika
xi
kelas 2.
Pencarian bidang pemisah terbaik dengan dengan penambahan variable i sering juga disebut soft margin hyperplane. Metode lain untuk mengklasifikasikan data yang tidak dapat dipisahkan secara linier adalah dengan mentransformasikan data ke dalam dimensi ruang fitur (feature space) sehingga dapat dipisahkan secara linier pada feature space 2.4.3 Multiclass SVM Ada dua pilihan untuk mengimplementasikan multi class SVM yaitu dengan menggabungkan beberapa SVM biner atau menggabungkan semua data yang terdiri dari beberapa kelas ke dalam sebuah bentuk permasalah optimasi. Namun, pada pendekatan yang kedua permasalahan optimasi yang harus diselesaikan jauh lebih rumit. Berikut ini adalah metode yang umum digunakan untuk mengimplementasikan multi class SVM dengan pendekatan yang pertama yaitu denan metode one-againts-one (satu-lawan-satu).Dengan menggunakan metode one-againts-one (satu-lawan-satu), dibangun k(k-1)/2 buah model klasifikasi biner (k adalah jumlah kelas). Terdapat beberapa metode untuk melakukan pengujian setelah keseluruhan k(k-1)/2 model klasifikasi selesai dibangun. Salah satunya adalah metode voting.
3.Perancangan Sistem dan Simulasi 3.1 Rancangan Sistem Diagram blok dibawah ini menyatakan proses sistem secara keseluruhan : Mulai
Mulai Akuisisi Data Uji
Akuisisi Data Latih
Pre-Processing Uji
Pre-Processing Latih
Ekstraksi Ciri ICA
Ekstraksi Ciri ICA
Database Ciri Latih
Klasifikasi SVM
Ciri Latih Hasil
Selesai
Selesai
(a)
(b)
Gambar 1 (a) Diagram alir pembuatan Database ciri latih (b) Diagram alir pengujian data uji 3.1.1
Akuisisi Video
Proses akuisisi video diperlukan untuk proses pengambilan video pengenalan huruf vokal yang kemudian di proses. Video input yang diambil dari kamera Iphone 6 plus dengan format MOV 1920 x 1080 piksel disimpan ke laptop dan dilakukan konversi format video menjadi MOV 640 x 480 piksel. Dalam hal ini penulis menggunakan software Total Video Converter untuk mengkonversi video 3.1.2 Pre-Processing Video
Input Video
Ekstrasi Frame
Frame Masukan
Gambar 2 Blok Diagram Pre-processing Subsistem ini membaca file video format MOV dengan resolusi 640 x 480 piksel berjenis RGB. Setelah itu dilakukan ekstraksi frame, yaitu mengubah video ke bentuk frame agar dapat disusun sebagai citra digital yang berurutan
3.1.3 Ekstraksi Ciri dengan ICA
Gambar 3 Subsistem ekstraksi ciri dengan ICA 3.2 Tingkat akurasi Sistem Akurasi adalah ukuran ketepatan system dalam mengenali input yang diberikan sehingga menghasilkan keluaran yang benar.Tingkat keakurasi sistem dapat dicari dengan menggunakan rumus:
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =
𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑏𝑒𝑛𝑎𝑟 𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑘𝑒𝑠𝑒𝑙𝑢𝑟𝑢ℎ𝑎𝑛
× 100 %
(2)
Semakin tinggi tingkat akurasi system menunjukkan bahwa system memiliki kinerja yang baik karena mampu mengenali masukan yang diberikan kepadanya 4. SIMULASI DAN ANALISIS 4.1 Spesifikasi 4.1.1 Spesifikasi Perangkat Keras Sistem deteksi huruf vokal yan gdibuat dalam tugas akhir ini direalisasikan menggunakan perangkat keras. Berikut adalah spesifikasi detail dari perangkat keras tersebut : Laptop Processor : Intel ® Core ™ i5-3337U CPU @ 1.800GHz Memory : RAM 12 GB DDR3 Hardisk : 500 GB Perekam video Video gerak bibir diambil dengan menggunakan kamera Iphone 6 Plus dengan HD 1080 piksel (60 fps) 4.1.2 Spesifikasi Perangkat Lunak Perangkat lunak yang digunakan untuk merealisasikan sistem deteksi huruf vokal ini adalah sebagai berikut : Operating sistem Programming Tool Software Pendukung
: Microsoft Windows 10 : Matlab 8.0.4 (R2014b) : Microsoft Excel 2013 untuk mengolah data hasil
4.2 Analisa Sistem 4.2.1 Analisis Pengujian Sistem Berdasarkan Ciri Ekstraksi Fiturnya 4.2.1.1 Analisis Sistem Pada Jarak 10 cm dari Kamera Tabel 4.1 Tingkat Akurasi Ciri Ekstraksi Fitur Pada Jarak 10 cm dari kamera
HURUF Tingkat Akurasi Pada Ciri Ekstraksi Fiturnya A 66,67 % I 66,67 % U 73,33 % E 90% O 73, 33% AKURASI KESELURUHAN 74% Dari Tabel 4.1 tingkat akurasi ciri ekstraksi fitur dapat dilihat bahwa akurasi pada huruf a dan i memiliki tingkat akurasi yang sama kecil yakni 66,67 %, huruf u dan huruf o memiliki tingkat akurasi yang sama juga yakni sebesar 73,33 % dan huruf e memiliki tingkat akurasi yang cukup tinggi dari yang lain yakni 90 %. Sedangkan untuk akurasi keseluruhan huruf sebesar 74 % 4.2.1.2 Analisis Sistem Pada Jarak 15 cm dari Kamera Tabel 4.2 Tingkat Akurasi Ciri Ekstraksi Fitur Pada Jarak 15 cm dari Kamera HURUF
Tingkat Akurasi Pada Ciri Ekstraksi Fiturnya
A
66,67%
I
70%
U
80%
E
100%
O
73,33%
AKURAST KESELURUHAN 78% Dari Tabel 4.2 tingkat akurasi ciri ekstraksi fitur dapat dilihat bahwa akurasi pada huruf a memiliki tingkat akurasi yang paling kecil yakni 66,67%, untuk huruf i memiliki tingkat akurasi sebesar 70 %, huruf o memiliki tingkat akurasi sebesar 73,33 %, huruf u memiliki tingkat akurasi sebesar 80 % dan huruf e memiliki tingkat akurasi yang sempurna yakni 100 %. Sedangkan untuk akurasi keseluruhan huruf sebesar 78 %
4.2.1.3 Analisis Sistem Pada Jarak 20 cm dari Kamera Tabel 4.3 Tingkat Akurasi Ciri Ekstraksi Fitur Pada Jarak 20 cm dari Kamera HURUF Tingkat Akurasi Pada Ciri Ekstraksi Fiturnya A 70% I 90% U 70% E 73,33% O 70% AKURASI KESELURUHAN 74,67% Dari Tabel 4.3 tingkat akurasi ciri ekstraksi fitur dapat dilihat bahwa akurasi pada huruf a, u ,o memiliki tingkat akurasi yang sama yakni 70 %, untuk huruf e memilki tingkat akurasi sebesar 73,33 % dan huruf i memiliki tingkat akurasi yang cukup tinggi yakni 90 %. Sedangkan untuk akurasi keseluruhan huruf sebesar 74,67% 4.3 Kesimpulan Dari hasil analisis terhadap pengujian yang dilakukan pada sistem deteksi pengenalan huruf vokal pada gerak bibir menggunakan ICA dan SVM, diambil beberapa kesimpulan sebagai berikut: 1. Aplikasi berbasis Support Vector Machine yang difungsikan sebagai klasifikasi mampu bekerja dengan baik dan memiliki performansi yang cukup baik 2. Hasil pengujian terendah yakni pada huruf a, dengan tingkat akurasi sebesar 66,67 % 3. Hasil pengujian tertinggi yakni pada huruf e, dengan tingkat akurasi sebesar 100 % 4. Dari hasil pengujian 450 data uji, ciri yang berhasil dan tepat dikenal klasifikasinya sebanyak 340 data uji. 5. Tingkat akurasi yang memiliki hasil tertinggi yakni pada pengambilan jarak 15 cm dari kamera
6.
Waktu komputasi rata rata yang diperlukan untuk mengidentifikasi pengucapan huruf vokal pada gerak bibir yaitu 29,04 detik
5. DAFTAR PUSTAKA [1]
S. Sadeghi Vahideh, Yaghmaie Khashayar. Vowel Recognition using Neural Networks, IJCSNS International Journal of Computer Science and Network Security, VOL.6 No.12, December 2006
[2]
Susanto Adhi, Kadir Abdul, Pengolahan Citra Teori dan Aplikasinya, Yogyakarta. 2012
[3]
Oja Erkki, Hycaren Aapo, Independent Component Analysis: Algorithms and Applications, Helsinki University of Technology, Finland. 2000
[4]
Nugroho A.S, Witarto A.B, Handoko Dwi, Support Vector Machine: Teori dan Aplikasinya dalam Bioinformatika, Indonesia, 2003
[5]
J. Karande Kailash, N. Badage Rajashree. Facial Feature using Independent Component Analysis, Pattaya, Thailand.2016
[6]
Kshamaraj Gulmire, Sanjay Ganorkar, “Iris Recognition using Independent Component Analysis”, International Journal of Emerging Technology and Advanced Engineering, Vol. 2, No. 7, pp. 2250-2459, July 2012.
[7]
Ozawa Seiichi, Sakaguchi Yoshinori, Kotani Manabu. A Study of Feature Extraction Using Supervised Independent Component Anaysis, Kobe University, Japan.2001
[8]
Gheidi, Malihe and Sayadian Abolghasem. Vowel Detection and Classification using Support Vector Machines (SVMs), University of Technology Tehran, Iran. 2007
[9]
Anthony Gidudu, Gregg Hulley, Tshilidzi Marwala. Image Classification Using SVMs: One-against-One Vs One-against-All. University of the Witwatersrand, South Africa.2007
[10]
Milgram Jonathan, Cheriet Mohamed, Sabourin Robert. "One Against One" or "One Against All" : Which One is Better for Handwriting Recognition with SVMs?, International Workshop on Frontiers in Handwriting Recognition, La Baule, France. October 2006.
[11]
Chittora Ashish, Mishra Om. Face Recognition Using RBF Kernel Based Support Vector Machine, International Journal of Future Computer and Communication, Vol. 1, No, 3, October 2012
[12]
URL: https://wisuda.unud.ac.id/pdf/1104405018-3-5.BAB%20II.pdf, situs mengenai Tinjauan Pustaka Konsep Dasar Video Digital, diunduh pada tanggal 20 Juni 2016.
[13]
Wang Jun, Samal Ashok. Vowel Recognition from Articulatory Position Time-Series Data. IEEE International Conference on Signal Processing and Communications (ICSPC 2009), Omaha, Nebraska, USA, 28-30, September 2009.