1. Terminology Populasi & Sampel
Populasi: himpunan komplit dari individual, obyek atau nilai dari suatu pengamatan
PENGUKURAN DATA
Seringkali terlalu besar untuk dikaji secara keseluruhan Mungkin nyata atau scr hipotesis saja (contoh hasil dari penelitian yg diulang sampai tak terhingga)
Sampel: Sebuah himpunan bagian dari populasi
Sampel bisa dikatakan random (tiap angota populasi memp. kesempatan yg sama untuk dipilih) atau convenience (apa yg tersedia). Random selection attempts to ensure the sample is representative of the population.
1
Peubah/Variabel
Peubah/Variabel
Peubah adl besarnya pengukuran dalam sampel. Peubah bisa diklasifikasikan sbg:
Lebih jauh Peubah dapat diklasifikasikan sbg:
Kuantitatif i.e. numerical
2
Kontinu (e.g. pH , level kolesterol) Diskret (e.g. Banyaknya bakteri dlm koloni, banyaknya antrian)
Kategori
Nominal (e.g. gender, blood group) Ordinal (ranked e.g. Ringan, sedang, atau berat). Peubah ordinal sering dicatat sbg kuantitatif. 3
Terikat/Dependent/Response. Peubah dari tujuan penelitian (e.g. Tekanan darah dlm percobaan obat anti hipertensi). Tidak dikontrol oleh peneliti. Bebas/Independent/Predictor Disebut Factor jika dikontrol oleh peneliti. Covariate jika tidak terkontrol.
Jika nilai dari peubah tidak dapat diduga maka peubah dikatakan sbg peubah acak (random variable) 4
Parameter & Statistik (Statistics)
Parameter: Besaran yg menjelaskan karakteristik populasi. Pada umumnya tidak diketahui besarnya shg harus dilakukan statistika inferensia untuk parameter. Statistik Descriptif: Besaran dan teknik yg digunakan untuk menjelaskan karakteristik sampel atau menggambarkan sampel e.g. mean, standard deviasi, box-plot
2. Mengukur Kecenderungan Nilai Tengah (Lokasi) Pengukuran lokasi mengindikasikan dimana pada garis data nilai akan ditemukan. Pengukuran yg biasa dipakai adalah: (i) Arithmetic Mean (Rataan), (ii) Median, dan (iii)Mode (Modus)
5
Contoh
Mean
6
Diberikan x1,x2,x3,…,xn adl nilai sebenarnya dari peubah acak X, dari sampel berukuran n. Arithmetic mean dari sampel didefinisikan sbg: n
1 x= ∑ xi ̄ n i= 1
Tekana darah systolic dari tujuh lelaki berumur menengah adl sbg: 151, 124, 132, 170, 146, 124 and 113. mean
7
( 151+124 +132+170 +146+124 +113 ) 7 =137.14
̄x =
8
– n ganjil
Median
Jika data sampel diurutkan dari kecil ke besar, median adl (i) (ii)
Nilai tengah jika n ganjil, atau Nilai antara antar dua nilai tengah jika n genap
113, 124, 124, 132, 146, 151, and 170. Median = 132. Mode = 124.
9
– n genap
10
Mean versus Median
Jika histogram adl miring kekanan (right-skewed), jumlah sampel yg besar akan menaikkan nilai mean.
Median tidak terpengaruh oleh besarnya sampel shg ia merupakan pengukuran yg lebih baik untuk titik pusat (sentralitas) apabila distribusi datanya miring.
Median = (274+292) 2 = 283.
Jika mean=median=mode maka data dikatakan simetri
Mode = 274.
Contoh: sampel mean = 98.28, median = 94.5, i.e. mean lebih dari median mengindetifikasikan bahwa distribusinya miring
366, 327, 274, 292, 274 dan 230. Urutkan data: 230, 274, 274, 292, 327 dan 366.
11
12
Mean vs Median
Mode mode adl nilai yang paling sering terjadi
Distribusi Bimodal
Distribusi Multimodal
Kapan Mode digunakan?
3. Mengukur Penyebaran
Mode digunakan ketika data berskala nominal
Hanya satu-satunya pengukuran pemusatan yang sesuai untuk data berskala nominal
Pengukuran penyebaran merupakan karakteristik seberapa menyebar distribusi data, i.e. Bagaimana data menyebar. Pengukuran yg biasa digunakan: 1. 2. 3.
4.
Range Variance & Standard deviation Coefficient of Variation (atau relative standard deviation) Inter-quartile range
18
Range
Sampel Varians (Variance)
Range sampel adl beda antara data terbesar dan terkecil dalam observasi Mudah dihitung;
Contoh kasus tekanan darah: min=113 dan max=170, range=57 mmHg
Berguna untuk kasus tertentu (tergantung data) Sensitif terhadap nilai ekstrim
19
Sample variance, s2, adl arithmetic mean dari beda (deviasi) terhadap sampel mean yang dikuadratkan: n
∑ ( x i −̄x ) 2
s 2 = i= 1 n−1
> 20
Contoh
Standard Deviasi (Deviation)
Sample standard deviation, s, adl akar dari varians
s=
√
n
∑ ( x i −̄x ) 2 i=1
n−1
s mempunyai pengukuran yg sama dengan peubah X.
̄x =137 . 14
21
22
Koefisien Variasi Coefficient of Variation
Contoh (contd.) 7
∑ ( x i− ̄x ) =2304 . 86 2
i=1
Coefficient of variation (CV) atau relative standard deviation (RSD) adl standar deviasi sampel yang diekspresikan sbg persentase dari mean i.e. s
CV=
√
2304 . 86 maka, s= 7 −1 =19 . 6
23
( x̄ )×100
CV tdk terpengaruh oleh perubahan perkalian skala Akibatnya, ia merupakan cara yg berguna untuk membandingkan penyebaran data pada peubah-peubah yg berbeda skala pengukurannya 24
Contoh
Inter-quartile range
CV dari tekanan darah diatas adl:
CV= 100×
(
19 . 6 137 . 1
)
Median membagi distribusi menjadi dua bagian sama besar.
Quartile pertama dan ketiga (Q1 dan Q3) didefinisikan sbg berikut:
=14 . 3 i.e., standard deviasi adl 14.3% sebesar mean.
25
Contoh
25% data berada dibawah Q1 (dan 75% diatas Q1),
25% data berada diatas Q3 (dan 75%dibwah Q3)
Inter-quartile range (IQR) adl beda antara quartile pertama dan ketiga, IQR = Q3- Q1 26
4. Box-plots
Urutan data tekanan darah:
113 124 124 132 146 151 170
Box-plot adl deskripsi distribusi secara visual yg didasarkan atas
Q1
Q3
Inter Quartile Range (IQR) adl 151-124 = 27
27
Minimum Q1 Median Q3 Maximum
Berguna untuk membandingkan data yg besar 28
Contoh
Contoh: Box-plot
Tingkat denyut nadi dari 12 individu yg dirutkan naik adl: 62, 64, 68, 70, 70, 74, 74, 76, 76, 78, 78, 80 Q1=(68+70):2 = 69, Q3=(76+78):2 = 77 IQR = (77 – 69) = 8
29
30
Contoh: Box-plots dari intensitas from 11 gene expression arrays
Outlier
14
Outlier adl kejadian dimana sebuah observasi tidak terlihat tergolong bersama data yg lain Outlier bisa terjadi karena pencatatan yg salah, alat pengukuran yg salah, atau hal lainnya Memerlukan penanganan khusus
8
10
12
AG_04659_AS.cel AG_11745_AS.cel
KB_5828_AS.cel
KB_8840_AS.cel
31
32
Outlier Boxplot
Contoh
Definisi ulang dari batas atas dan bawah dari boxplot (garis kumis (whisker)) sbg: Batas Bawah = Q1-1.5IQR, dan Batas Atas = Q3+1.5IQR
Perhatikan bahwa garis mungkin tidak mencapai batas-batas ini
outliers
Jika data point < batas bawah atau> batas atas, data point dianggap sbg outlier. 33
34