Khi-négyzet eloszlás
Statisztika II., 3. alkalom
A khi-négyzet eloszlás A khi négyzet eloszlást (Pearson) leggyakrabban kategorikus adatok elemzésére használjuk. N darab standard normális eloszlású változó négyzetes összegeként kapjuk a khi-négyzet eloszlást. 2 Jelölése: .
A khi-négyzet eloszlás Általános képlete: 2 i
(Oi Ei )2 Ei
A nominális változó K darab lehetséges értéke esetén a szabadságfok f=K-1 Illeszkedés vizsgálat (egy minta): H0: változó tapasztalati eloszlása megfelel egy feltételezett eloszlásnak. Példa (Varga, 2000) Koronás címer 280 94
Oi Ei
Kádár címer 48 94
Rákosi címer 12 94
Kossuth címer 36 94
Összesen 376 376
H0: A négy címerfajtát az emberek egyenlő mértékben kedvelik. 2 i
(O E )2 (280 94)2 ( 48 94) 2 (12 94)2 (36 94)2 497.87 E 94
f=4-1=3 A kritikus érték még 0.01-nél is csak 11.3, így 99%-os valószínűséggel, a négy címerfajtát nem egyelő mértékben kedvelik.
A khi-négyzet eloszlás Két változó kapcsolata: Kategorikus esetben a függetlenség és homogenitásvizsgálat a khi-négyzet eloszlás segítségével történik. A próba szabadságfoka f=(K-1)(G-1), ahol K és G a két változó lehetséges értékeinek száma. Függetlenségvizsgálat: H0: Az oszlopoknak megfelelő gyakoriságok függetlenek a sorok gyakoriságaitól Homogenitásvizsgálat: H0: Az oszlopoknak és soroknak megfelelő gyakoriságok függnek egymástól. Ehhez először a várt gyakoriságok kiszámítása szükséges. (Megfigyelt gyakoriságok) Y1 X1 O11 X2 O21 Össz. O+1
Y2 O12 O22 O+2
P( A B) P( A) P( B) (Várt gyakoriságok) X1 X2
Y1
Y1
E11=O1+*O+1/N E21= O2+*O+1/N
E12= O1+*O+2/N E22= O2+*O+2/N
Össz. O1+ O2+ N
A khi-négyzet eloszlás (függetlenségvizsgálat) Nyugtató hatása enyhe depresszióra (Megfigyelt gyakoriságok) Depressziós Nem depressziós Nyugtató 335 76 Placebó 302 105 Össz. 637 181
Össz. 411 407 818
H0: A gyógyulás szempontjából mindegy, hogy placebót kap a depressziós vagy nyugtatót. Nyugtató hatása enyhe depresszióra (Várt gyakoriságok) Depressziós Nem depressziós Nyugtató 637*411/818=320.1 181*411/818=90.9 Placebó 637*407/818=316.9 181*407/818=90.1
2
(335 320.1)2 (302 316.9)2 (76 90.9)2 (105 90.1)2 6.3 320.1 316.9 90.9 90.1
df=(2-1)(2-1)=1 p=0.0118
A khi-négyzet eloszlás (homogenitásvizsgálat) A homogentásvizsgálat formailag ugyanúgy történik, mint a függetlenségvizsgálat. Fontos különbség, hogy a kérdés nem az, hogy az egyik változó hatással van-e a másikra, hanem az, hogy a két változó hatással van-e egymásra. Példák: Az, hogy mennyire ért egyet a bálnák megmentéséért folytatott küzdelemmel (abszolút, inkább igen, közepesen, inkább nem, egyáltalán nem) összefügg-e azzal, hogy mennyire ért egyet az esőerők megmentésével (abszolút, inkább igen, közepesen, inkább nem, egyáltalán nem)? A tréning hangulatával való elégedettség összefügg-e a tréning hatékonyságával való elégedettséggel? A kedvenc sport és a kedvenc nyaralási helyszín összefügg-e?
Homogenitásvizsgálat versus függetlenségvizsgálat A következő mintavételi eljárásokat különböztethetjük meg: Poisson Multinomiális Prospektive Retrospektive Random kísérlet Függetlenségvizsgálat csak a Poisson és a multinomiális esetben elképzelhető, homogenitásvizsgálat minden esetben.
A khi-négyzet eloszlásból származtatható asszociációs mérőszámok A khi-négyzet próba teszteli két változó függetlenségét (vagy egyik függését a másiktól). Ha az érték nulla, függetlenek, de a kapcsolat erősségének a statisztika értéke nem jó mutatója, mert függvénye a mintanagyságnak, a szabadsági foknak, így egyéb mérőszámokat használunk az asszociáció erősségének kifejezésére. Az ideális mutató a korrelációhoz hasonlóan nulla és egy közötti értékeket vehetne fel.
2
N A (phi) együttható értéke függetlenség esetén nulla. 2x2-es kontingencia táblázat esetén maximális értéke egy, ennél nagyobb táblázat esetén értéke túllépheti az egyet.
C
2 2 N
A Pearson féle kontingencia (C) együttható értéke szintén nulla függetlenség esetén. Nulla és egy közötti balról zárt intervallumbeli értékeket vehet fel (egynél kisebb).
V
2 N (k 1)
A Cramer féle V együttható függetlenség esetén a nulla értéket veszi fel, értékei 0 és 1 közt mozognak, mindkét szélsőértéket felvehetik. k a képletben a kisebb a két változó lehetséges értékek száma közül.