KOMPRESI TEKS dengan MENGGUNAKAN ALGORITMA HUFFMAN Irwan Wardoyo1, Peri Kusdinar2, Irvan Hasbi Taufik3 Jurusan Teknik Informatika, Sekolah Tinggi Teknologi Telkom Jl. Telekomunikasi, Bandung
[email protected],
[email protected] 3
[email protected]
1
Abstrak Algoritma Huffman adalah salah satu algoritma kompresi. Algoritma huffman merupakan algoritma yang paling terkenal untuk mengompres teks. Terdapat tiga fase dalam menggunakan algoritma Huffman untuk mengompres sebuah teks, pertama adalah fase pembentukan pohon Huffman, kedua fase encoding dan ketiga fase decoding. Prinsip yang digunakan oleh algoritma Huffman adalah karakter yang sering muncul di -encoding dengan rangkaian bit yang pendek dan karakter yang jarang muncul di-encoding dengan rangkaian bit yang lebih panjang. Teknik kompresi algoritma Huffman mampu memberikan penghematan pemakaian memori sampai 30%. Algoritma Huffman mempunyai kompleksitas O(n log n) untuk himpunan dengan n karakter. Kata kunci: algoritma Huffman, pohon Huffman, encoding , decoding Abstract Huffman’s al gorithm is one of compression algorithm. Huffman’s algorithm is the most famous algorithm for compressing text. There are three phase in use Huffman’s algorithm, first is forming Huffman tree phase, second is ecoding phase, third is decoding phase. Principal which used by Huffman’s algorithm is shorter codes are assigned to the most frequently used symbols, and longer codes to the symbols which appear less frequently in the string. Huffman algorithms technique can save consuption memory until 30%. Complexity Huffman’s Algorithm is O(n log n) for assosiation which have n character Keywords : Huffman’s algorithm, Huffman tree, encoding, decoding 1. Pendahuluan Teks adalah kumpulan dari karakter -karakter atau string yang menjadi satu kesatun. Teks yang memuat banyak karakter didalamnya selalu menimbulkan masalah pada media penyimpanan dan kecepatan waktu pada saat transmisi data. Media penyimpanan yang terbatas, membuat semua orang mencoba berpikir untuk menemukan sebuah cara yang dapat digunakan untuk mengompres teks. Walaupun pada saat ini terdapat banyak algoritma untuk mengompres data termasuk teks, seperti LIFO, LZHUF, LZ77 dan variannya (LZ78, LZW, GZIP), Dynamic Markov Compression (DMC), Block -Sorting Lossless, Run -Length, Shannon-Fano, Arithmetic, PPM (Prediction by Partial Matching), Burrows-Wheeler Block Sorting, dan Half Byte. Namun penulis menggunakan algoritma Huffman, karena algoritma ini banyak digunakan dan mudah diimplementasikan dalam proses pengompresan teks. Kompresi adalah proses pengubahan sekumpulan data menjadi bentuk kode dengan tujuan untuk menghemat kebutuhan tempat penyimpanan dan waktu untuk transmisi data[1]. Dengan menggunakan algoritma Huffman, proses pengompresan teks dilakukan dengan menggunakan prinsip pengkodean, yaitu tiap karakter dikodekan
dengan rangkaian beberapa bit sehingga menghasilkan hasil yang lebih optimal. Tujuan dari penulisan makalah ini adalah untuk mengetahui keefektifan algoritma Huffman dalam kompresi teks dan memaparkan cara-cara mengompresi teks dengan menggunakan algoritma Huffman. Untuk mencapai tujuan diatas penulis melakukan serangkaian kegiatan yaitu mengumpulkan data dan referensi-referensi yang ada, serta m elakukan studi pustaka. 2. Dasar Teori 2.1 Algoritma Huffman Algoritma Huffman, yang dibuat oleh seorang mahasiswa MIT bernama David Huffman pada tahun 1952, merupakan salah satu metode paling lama dan paling terkenal dalam kompresi teks [2]. Algoritma Huffman menggunakan prinsip pengkodean yang mirip dengan kode Morse, yaitu tiap karakter (simbol) dikodekan hanya dengan rangkaian beberapa bit, dimana karakter yang sering muncul dikodekan dengan rangkaian bit yang pendek dan karakter yang jarang muncul dikodekan.dengan rangkaian bit yang lebih panjang. Berdasarkan tipe peta kode yang digunakan untuk mengubah pesan awal (isi data yang
diinputkan) menjadi sekumpulan codeword, algoritma Huffman termasuk kedalam kelas algoritma yang menggunakan metode statik . Metoda statik adalah metoda yang selalu menggunakan peta kode yang sama, metoda ini membutuhkan dua fase (two-pass): fase pertama untuk menghitung probabilitas kemunculan tiap simbol dan menentukan peta kodenya, dan fase kedua untuk mengubah pesan menjadi kumpulan kode yang akan di taransmisikan. Sedangkan berdasarkan teknik pengkodean simbol yang digunakan, algoritma Huffman menggunakan metode symbolwise. Metoda symbolwise adalah metode yang menghitung peluang kemunculan dari setiap simbol dalam satu waktu, dimana simbol yang lebih sering muncul diberi kode lebih pendek dibandingkan simbol yang jarang muncul. 2.1.1 Pembentukan Pohon Huffman Kode Huffman pada dasarnya merupakan kode prefiks (prefix code). Kode prefiks adalah himpunan yang berisi sekumpulan kode biner, dimana pada kode prefik ini tidak ada kode biner yang menjadi awal bagi kode biner yang lain. Kode prefiks biasanya direpresentasikan sebagai pohon biner yang diberikan nilai atau label. Untuk cabang kiri pada pohon biner diberi label 0, sedangkan pada cabang kanan pada pohon biner diberi label 1. Rangkaian bit yang terbentuk pada setiap lintasan dari akar ke daun merupakan kode prefiks untuk karakter yang berpadanan. Pohon biner ini biasa disebut pohon Huffman. Langkah-langkah pembentukan pohon Huffman adalah sebagai berikut [3] : 1. Baca semua karakter di dalam teks untuk menghitung frekuensi kemunculan setiap karakter. Setiap karakter penyusun teks dinyatakan sebagai pohon bersimpul tunggal. Setiap simpul di-assign dengan frekuensi kemunculan karakter tersebut. 2. Terapkan strategi algoritma greedy sebagai berikut : gabungkan dua buah pohon yang mempunyai frekuensi terkecil pada sebuah akar. Setelah digabungkan akar tersebut akan mempunyai frekuensi yang merupakan jumlah dari frekuensi dua buah pohon-pohon penyusunnya. 3. Ulangi langkah 2 sampai hanya tersisa satu buah pohon Huffman. Agar pemilihan dua pohon yang akan digabungkan berlangsung cepat, maka semua yang ada selalu terurut menaik berdasarkan frekuensi. Sebagai contoh, dalam kode ASCII string 7 huruf “ABACCDA” membutuhkan representasi 7 × 8 bit = 56 bit (7 byte), dengan rincian sebagai berikut: A = 01000001 B = 01000010 A = 01000001 C = 01000011
C = 01000011 D = 01000100 A = 01000001 Pada string di atas, frekuensi kemunculan A = 3, B = 1, C = 2, dan D = 1,
Gambar 1. Pohon H uffman untuk Karakter “ABACCDA” 2.1.2 Proses Encoding Encoding adalah cara menyusun string biner dari teks yang ada. Proses encoding untuk satu karakter dimulai dengan membuat pohon Huffman terlebih dahulu. Setelah itu, kode untuk satu karakter dibuat dengan menyusun nama string biner yang dibaca dari akar sampai ke daun pohon Huffman. Langkah-langkah untuk men-encoding suatu string biner adalah sebagai berikut 1. Tentukan karakter yang akan di-encoding 2. Mulai dari akar, baca setiap bit yang ada pada cabang yang bersesuaian sampai ketemu daun dimana karakter itu berada 3. Ulangi langkah 2 sampai seluruh karakter diencoding Sebagai contoh kita dapat melihat tabel dibawah ini, yang merupakan hasil encoding untuk pohon Huffman pada gambar 1
Karakter String Biner Huffman A 0 B 110 C 10 D 111 Tabel 1. Kode Huffman untuk Karakter “ABCD” 2.1.3 Proses Decoding Decoding merupakan kebalikan dari encoding. Decoding berarti menyusun kembali data dari string biner menjadi sebuah karakter kembali. Decoding dapat dilakukan dengan dua cara, yang pertama dengan menggunakan pohon Huffman dan yang kedua dengan menggunakan tabel kode Huffman. Langkah-langkah men -decoding suatu string biner dengan menggunakan pohon Huffman adalah sebagai berikut : 1. Baca sebuah bit dari string biner. 2. Mulai dari akar 3. Untuk setiap bit pada langkah 1, lakukan traversal pada cabang yang bersesuaian. 4. Ulangi langkah 1, 2 dan 3 sampai bertemu daun. Kodekan rangkaian bit yang telah dibaca dengan karakter di daun. 5. Ulangi dari langkah 1 sampai semua bit di dalam string habis. Sebagai contoh kita akan men-decoding string biner yang bernilai ”111”
dilakukan dengan mudah. Contoh: saat membaca kode bit pertama dalam rangkaian bit “011001010110”, yaitu bit “0”, dapat langsung disimpulkan bahwa kode bit “0” merupakan pemetaan dari simbol “A”. Kemudian baca kode bit selanjutnya, yaitu bit “1”. Tidak ada kode Huffman “1”, lalu baca kode bit selanjutnya, sehingga menjadi “11”. Tidak ada juga kode Huffman “11”, lalu baca lagi kode bit berikutnya, sehingga menjadi “110”. Rangkaian kode bit “110” adalah pemetaan dari simbol “B”. 2.1.4 Kompleksitas Algoritma Huffman Algoritma Huffman mempunyai kompleksitas waktu O(n log n), karena dalam melakukan sekali proses itersi pada saat penggabungan dua buah pohon yang mempunyai frekuensi terkecil pada sebuah akar membutuhkan waktu O(log n), dan proses itu dilakukan berkali-kali sampai hanya tersisa satu buah pohon Huffman itu berarti dilakukan sebanyak n kali[4]. 2.2 Algoritma Greedy Algoritma greedy adalah salah satu algoritma yang digunakan untuk menyelsaikan persoalan optimasi, artinya persoalan yang menuntut pencarian solusi optimum, baik masalah maksimasi (maximization ) atau minimasi (Minimization). Algoritma greedy adalah algoritma yang mecahkan masalah langkah per langkah, pada setiap langkahnya algoritma greedy melakukan [3] : 1. Mmengambil pilihan yang terbaik yang dapat diperoleh pada saat itu tanpa memperhatikan konsekuensi ke depan (prinsip “take what yo u can get now!”) 2. Berharap bahwa dengan memilih optimum lokal pada setiap langkah akan berakhir dengan optimum global. 2.2.1
Gambar 2. Proses Decoding dengan Menggunakan Pohon Huffman setelah kita telusuri dari akar, maka kita akan menemukan bahwa string yang mempunyai kode Huffman “111” adalah karakter D. Cara yang kedua adalah dengan menggunakan tabel kode Huffman. Sebagai contoh kita akan menggunakan kode Huffman pada Tabel 1 untuk merepresentasikan string “ABACCDA”. Dengan menggunakan Tabel 1 string tersebut akan direpresentasikan menjadi rangkaian bit : 0 110 0 10 10 1110. Jadi, jumlah bit yang dibutuhkan hanya 13 bit. Dari Tabel 1 tampak bahwa kode untuk sebuah simbol/karakter tidak boleh menjadi awalan dari kode simbol yang lain guna menghindari keraguan (ambiguitas) dalam proses dekompresi atau decoding. Karena tiap kode Huffman yang dihasilkan unik, maka proses decoding dapat
Hubungan Algoritma Greedy dengan Algoritma Huffman Pada awalnya David Huffman hanya menencoding karakter dengan hanya menggunakan pohon biner biasa, namun setelah itu David Huffman menemukan bahwa penggunaan algoritma greedy dapat membentuk kode prefiks yang optimal. Penggunaan algoritma greedy pada algoritma Huffman adalah pada saat pemilihan dua pohon dengan frekuensi terkecil dalam membuat pohon Huffman. Algoritma greedy ini digunakan pada pembentukan pohon Huffman agar meminimumkan total cost yang dibutuhkan. Cost yang digunakan untuk menggabungkan dua buah pohon pada akar setara dengan jumlah frekuensi dua buah pohon yang digabungkan, oleh karena itu total cost pembentukan pohon Huffman adalah jumlah total seluruh penggabungan. Penggabungan dua buah pohon dilakukan setiap langkah dan algoritma Huffman selalu memilih dua buah pohon yang mempunyai frekuensi terkecil untuk
meminimumkan total cost. Oleh karena itu algoritma Huffman adalah salah satu contoh algoritma yang menggunaan dari algoritma greddy. Sebagai contoh terdapat sebuah teks yang terdiri dari 120 karakter, yang masing-masing karakter mempunyai cost. Tujuan kita adalah menghitung total cost yang dikeluarkan untuk membentuk teks tersebut. Karakter
cost
A B C D E F G H I
10 15 5 15 20 5 15 30 5 Total
Kode Huffman 000 010 0010 011 111 00110 110 10 00111 cost
Total cost 10x3=30 15x3=45 5x5=25 15x3=45 20x3=60 5x5=25 15x3=45 30x2=60 5x5=25 360
Tabel 2. Contoh Perhitungan T otal C ost pada Suatu Teks 3. Pengujian Algoritma Huffman Pada pengujian digunakan, kita akan menencoding sebuah teks yang berisi 100.000 string, diantaranya 45.000 karakter ‘g’, 13.000 karakter ‘o’, 12.000 karakter ‘p’, 16.000 karakter ‘h’, 9.000 karakter ‘e’, dan 5.000 karakter ‘r’ dengan menggunakan 3 cara, yaitu dengan menggunakan kode ASCII , kode 3-bit dan kode Huffman. Setelah itu ketiga kode tersebut akan dibandingkan satu sama lainnya. a. Kode ASCII Karakter ASCII Biner g 103 1100111 o 111 1101111 p 112 1110000 h 104 1101000 e 101 1100101 r 114 1110010 T abel 3. Kode ASCII untuk karakter “ g,o,p,h,e,r, ” Untuk meng-encoding teks membutuhkan sebanyak § untuk karakter ‘g’ 4.5000 x 8 bit (1100111) = § untuk karakter ‘o’ 13.000 x 8bit (1101111) = § untuk karakter ‘p’ 12.000 x 8bit (1110000) = § untuk karakter ‘h’ 16.000 x 8bit (1101 000 ) = § untuk karakter ‘e’ 9.000 x 8bit (1100101) =
tersebut
kita
360.000 bit 104.000 bit 96.000 bit 128.000 bit 72.000 bit
§
untuk karakter ‘r’ 5.000 x 8bit (1110010) = jumlah =
40.000 bit 800.000 bit
b. 3-bit Kode Karakter Kode String Biner g 0 000 o 1 001 p 2 010 h 3 011 e 4 100 r 5 101 Tabel 4. 3-bit Kode untuk karakter “ g,o,p,h,e,r” Untuk meng-encoding membutuhkan sebanyak § untuk karakter ‘g’ 45.000 x 3 bit (000) § untuk karakter ‘o’ 13.000 x 3bit (001) § untuk karakter ‘p’ 12.000 x 3bit (010) § untuk karakter ‘h’ 16.000 x 3bit (011) § untuk karakter ‘e’ 9.000 x 3bit (100) § untuk karakter ‘r’ 5.000 x 3bit (101) jumlah
teks
tersebut
= 135.000 bit =
39 .000 bit
=
36 .000 bit
=
48 .000 bit
=
27 .000 bit
= =
15.000 bit 300.000 bit
c. Kode Huffman Frekuensi Peluang Karakter g 45000 3/13 o 13000 3/13 p 12000 1/13 h 16000 1/13 e 9000 1/13 r 5000 1/13 Tabel 5. Kode Huffman untuk Karakter “ g,o,p,h,e,r”, Untuk meng-encoding membutuhkan sebanyak § untuk karakter ‘g’ 45.000 x 1 bit (0) § untuk karakter ‘o’ 13.000 x 3bit (101) § untuk karakter ‘p’ 12.000 x 3bit (110) § untuk karakter ‘h’ 16.000 x 3bit (111) § untuk karakter ‘e’ 9.000 x 4bit (1101) § untuk karakter ‘r’ 5.000 x 4bit (1100) jumlah
kita
teks
tersebut
=
45 .000 bit
=
39 .000 bit
=
36 .000 bit
= =
Kode Huffman 0 101 100 111 1101 1100
48.000 bit 36.000 bit
= 20 .000 bit = 224.000 bit
kita
Dari data diatas kita dapat lihat bahwa dengan menggunakan kode ASCII untuk meng-encoding teks tersebut membutuhkan 800.000 bit, sedangkan dengan menggunakan 3-bit kode dibutuhkan 300.000 bit dan dengan menggunakan kode Huffman hanya membutuhkan 224.000. Dengan menggunakan data tersebut maka dapat kita lihat bahwa dengan menggunakan algoritma huffman dapat mengompres teks sebesar 70% dibandingkan kita menggunakan kode ASCII dan sebesar 25,3% dibandingkan kita menggunakan 3-bit kode. 4. Kesimpulan dan Saran Pengembangan 4.1 Kesimpulan 1. Algoritma Huffman adalah salah satu algoritma kompresi, yang banyak digunakan dalam kompresi teks. 2. Terdapat 3 tahapan dalam menggunakan algoritma Huffman, yaitu: § membentuk pohon Huffman § melakukan encoding dengan menggunakan pohon Huffman, dan § melakukan decoding 3. Algoritma Huffman mempunyai kompleksitas waktu O(n log n). 4. Algoritma Huffman adalah salah satu algoritma yang menggunakan prinsip algoritma greedy dalam penyusunan pohon Huffman 5. Dari hasil pengujian yang dilakukan, algoritma Huffman dapat mengompres teks sebesar 70% jika dibandingkan dengan menggunakan kode ASCII dan sebesar 25,3% jika dibandingkan dengan kita menggunakan 3-bit kode. 4.2 Saran Pengembangan Untuk dapat lebih melihat dan membuktikan keefektifan, kelebihan dan kelemahan dari algoritma Huffman, perlu diadakannya sebuah penelitian yang bertujuan membandingkan seluruh algoritma kompresi dalam mengompres berbagai data atau file.
Daftar Pustaka [1]Howe, D., “Free On-line Dictionary of Computing”, http://www.foldoc.org/, 1993. [2]Huffman Coding http://www.en.wikipedia.org/wiki/Huffman_coding [3] Rinaldi Munir, 2005, Diktat Kuliah IF2251 Strategi Algoritmik, Penerbit ITB. [4] Data Structures and Algorithms: Introduction http://ciips.ee.uwa.edu.au/~morris/Year2/PLDS2 10/introduction.html 2005 pukul 11.00 WB [5] Practical Huffman Coding http://www.compressconsult.com/huffman/ [6] Huffman algorithm, making codes from probabilities http://www.arturocampos.com