Data Warehouse & Data Mining STMIK GLOBAL
Tanpa Data Warehouse
Dengan Data Warehouse
Multiple Report tanpa/ dengan Data Warehouse
teknologi yang ada di data warehouse dan OLAP (On-Line Analytical Processing) dimanfaatkan penuh untuk melakukan data mining
Data Warehouse Definisi :
Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis guna mendukung DSS (Decision Suport System) dan EIS (Expert Information System).
Salinan dari transaksi data yang terstruktur secara spesifik pada query dan analisa.
Salinan dari transaksi data yang terstruktur spesifik untuk query dan laporan
Tujuan :
Meningkatkan kualitas dan akurasi informasi bisnis dan
mengirimkan informasi ke pemakai dalam bentuk yang
dimengerti dan dapat diakses dengan mudah.
4 Karakteristik Data Warehouse 1. Subject Oriented
Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan decision support.
Database yang semua informasi yang tersimpan di kelompokkan berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb.
Semua Informasi tersebut disimpan dalam suatu sistem data warehouse.
Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya : dalam periode waktu, info produk, info wilayah, dsb, sehingga dapat memberikan nilai sejarah sebagai bahan analisa.
2. Integrated Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama seperti lazimnya.
3. Time variant Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, Data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui.
4. Non-volatile Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat
Perbedaan Data Warehouse & Database Data Warehouse –
– – – – –
– – – – –
Tidak terikat suatu aplikasi Data terpusat Historical Denormalisasi kecil Multiple subject Sumber dari dari semua internal maupun eksternal source Fleksibel Data oriented Umurnya panjang Ukuran besar Single complex structure
•
Database – – – – – – – – – – –
Aplikasi DSS secara spesifik Tidak terpusat oleh user area Sebagian historical Denormalisasi besar Satu subject Sumber dari sebagian internal maupun eksternal source Tidak fleksibel, terbatas Project oriented Umurnya pendek Ukuran dari kecil menjadi besar Multi complex structure
Langkah penerapan Data Warehouse
Proses pada Data Warehouse
Data Warehouse & Operasional DBMS •
•
•
OLTP (on-line transaction processing) Tugas utama DBMS relasional tradisional Operasional Harian : pembelian, persediaan, perbankan, manufaktur, penggajian, pendaftaran, akuntansi, dll OLAP (on-line analytical processing) Tugas utama dari sistem data warehouse Analisis data dan pengambilan keputusan Fitur yang berbeda (OLTP vs OLAP): Orientasi User dan system orientation: customer vs. market Data contents: saat ini, detail vs. Histori, konsolidasi Database design: ER + application vs. star + subject View: saat ini, lokal vs. evolutionary, integrated Pola Akses: update vs. read-only tetapi complex queries
Data Warehouse & Operasional DBMS OLTP
OLAP
users
clerk, IT professional
knowledge worker
function
day to day operations
decision support
DB design
application-oriented
subject-oriented
data
current, up-to-date detailed, flat relational isolated repetitive
historical, summarized, multidimensional integrated, consolidated ad-hoc lots of scans
unit of work
read/write index/hash on prim. key short, simple transaction
# records accessed
tens
millions
#users
thousands
hundreds
DB size
100MB-GB
100GB-TB
metric
transaction throughput
query throughput, response
usage access
complex query
Konsep Model Data Warehouse 1. Skema bintang: Sebuah tabel fakta di tengah terhubung ke satu set tabel dimensi 2. Skema Snowflake : Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalisasi menjadi satu set tabel dimensi yang lebih kecil, membentuk bentuk mirip dengan kepingan salju 3. Fakta konstelasi: Beberapa fakta tabel dibagi menjadi dimensi tabel, dipandang sebagai kumpulan bintang, karena itu disebut Skema Galaxy atau fakta konstelasi
Example of Star Schema time
item
time_key day day_of_the_week month quarter year
Sales Fact Table time_key item_key
item_key item_name brand type supplier_type
branch_key location
branch
location_key
branch_key branch_name branch_type
units_sold dollars_sold avg_sales
Measures
location_key street city province_or_street country
Example of Snowflake Schema time time_key day day_of_the_week month quarter year
item Sales Fact Table time_key item_key
item_key item_name brand type supplier_key
supplier supplier_key supplier_type
branch_key location
branch
location_key
branch_key branch_name branch_type
units_sold dollars_sold avg_sales
Measures
location_key street city_key
city city_key city province_or_street country
Example of Fact Constellation time time_key day day_of_the_week month quarter year
item Sales Fact Table time_key
item_key item_name brand type supplier_type
item_key
location_key
branch_key branch_name branch_type
units_sold dollars_sold avg_sales
Measures
time_key item_key shipper_key from_location
branch_key branch
Shipping Fact Table
location
to_location
location_key street city province_or_street country
dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type
Data Mining Query Language, DMQL: Language Primitives
Cube Definition (Fact Table) define cube <cube_name> [
]: <measure_list> Dimension Definition ( Dimension Table ) define dimension as () Special Case (Shared Dimension Tables) First time as “cube definition” define dimension as in cube <cube_name_first_time>
Defining a Star Schema in DMQL define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week, month, quarter, year)
define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country)
Defining a Snowflake Schema in DMQL define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country))
Defining a Fact Constellation in DMQL define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales
3 Kategori Pengukuran
Distributif: jika hasil yang diperoleh dengan menerapkan fungsi untuk nilai keseluruhan n adalah sama dengan yang diperoleh dengan menerapkan fungsi pada semua data tanpa partisi. Misalnya, count (), jumlah (), min (), max ().
Aljabar: jika dapat dihitung dengan fungsi aljabar dengan argumen M (di mana M adalah bilangan bulat dibatasi), yang masing-masing diperoleh dengan menerapkan fungsi agregat distributif. Misalnya, avg (), min_N (), deviasi_standar ().
Holistik: jika tidak ada konstan terikat pada ukuran penyimpanan yang dibutuhkan untuk menggambarkan sub sebuah kumpulan Misalnya, median (), mode (), tank ().
Konsep Hirarki: Dimension (location) all
all Europe
region
country
city office
Germany
Frankfurt
...
...
...
Spain
North_America
Canada
Vancouver ... L. Chan
...
...
Mexico
Toronto
M. Wind
View of Warehouses and Hierarchies
Specification of hierarchies
Schema hierarchy day < {month < quarter; week} < year
Set_grouping hierarchy {1..10} < inexpensive
Multidimensional Data
Sales volume as a function of product, month, and region
Dimensions: Product, Location, Time Hierarchical summarization paths Industry Region
Year
Product
Category Country Quarter Product
City Office
Month
Month Week Day
Contoh Data Cube 2Qtr
3Qtr
4Qtr
sum
U.S.A Canada Mexico sum
Country
TV PC VCR sum
1Qtr
Date
Total annual sales of TV in U.S.A.
Cuboids Corresponding to the Cube all 0-D(apex) cuboid product
product,date
date
country
product,country
1-D cuboids date, country
2-D cuboids 3-D(base) cuboid product, date, country
Browsing a Data Cube
Visualization
OLAP capabilities
Interactive manipulation
A Star-Net Query Model Customer Orders
Shipping Method
Customer CONTRACTS
AIR-EXPRESS ORDER
TRUCK
PRODUCT LINE Time
Product ANNUALY QTRLY
DAILY
PRODUCT ITEM PRODUCT GROUP
CITY SALES PERSON COUNTRY DISTRICT REGION Location
Each circle is called a footprint
DIVISION Promotion
Organization