Lineáris regresszió
Statisztika I., 4. alkalom
Lineáris regresszió Ha két folytonos változó lineáris kapcsolatban van egymással, akkor az egyik segítségével elıre jelezhetjük a másik értékét. Szükségünk van a függı és független változó kiválasztására, de ez nem jelent oksági kapcsolatot! Azt sem jelenti, hogy megértettük volna a kapcsolatot, de az összefüggés segítheti a megértését a kapcsolatnak és legfıképp releváns elırejelzéseink lehetnek. Példák: Évszakok váltakozása és az ókori görögök.
Képességteszt és adott pozícióban való beválás. Felvételi vizsgapontszám és egyetemi elımenetel. Adott árucikkel szembeni attitőd és vásárlási hajlandóság. Kapcsolat szubjektív erıssége és interakciók heti gyakorisága.
Ha az elırejelzés egy változó segítségével történik, akkor egyváltozós lineáris regresszió számításnak nevezzük az eljárást.
Lineáris regresszió Minél szorosabb két változó kapcsolata, annál kisebb lesz az elırejelzés hibája. Pl. Egy varrónıvel szembeni elégedettséget szeretnénk elıre jelezni egy varrási gyorsasági teszt alapján. Számos már dolgozó varrónıvel elvégezzük a tesztet, és informálódunk fınökük munkájukkal való elégedettségérıl. Pl. korrelációval megvizsgáljuk, hogy a számszerősített két változó összefügg-e egymással. Amennyiben a teszt használhatónak tőnik, regressziós egyenest illesztünk az adatokra, hogy a teszt alapján a fınök elégedettségét bármely teszt érték esetén elıre jelezhessük. 40
20
0
-20
X3
-40
-60 -30
X1
Ábra a Máth jegyzetbıl.
-20
-10
0
10
20
Lineáris regresszió A lineáris kapcsolat természetesen egy egyenessel ragadható meg a legjobban. Ezt regressziós egyenesnek nevezzük. Az általános képlete egy egyenesnek::
Y = β 0 + β1 X β0
β1
konstans, az a pont ahol az egyenes metszi az y tengelyt, az az érték, ami a legjobb becslés x=0 esetén a változó súlya, azt fejezi ki, hogy x egységnyi változása mekkora növekedést idéz elı y becslésében
A becslés csak tökéletes kapcsolat esetén lenne hibamentes (r=1 vagy r= -1). Az eljárás elnevezésének háttere: Sir Francis Galton a 19. században kutatta gyermekek genetikus meghatározottságát. Úgy fogalmazta meg eredményeit, hogy a gyermekek magassága a szülık magasságához képest regrediál az átlagosság irányába. A jelenség generalizálható teszt-reteszt szituációkra, ez is mutatja, hogy a regressziós hatás egy természetes jelenség.
Lineáris regresszió A becslés csak tökéletes kapcsolat esetén lenne hibamentes (r=1 vagy r= -1).
Y = β 0 + β1 X + ε A lehetı legkisebb hibájú becslés a cél. A hibáról feltételezzük, hogy független X-tıl és átlaga nulla. A négyzetes hiba minimalizálására épülı “legkisebb négyzetek” segítségével számolhatjuk becslését. A becslések normális eloszlásúak, így tesztelhetı, hogy nullával egyenlıek-e a populáció szintjén.
∑ ( X − X )(Y − Y ) = ∑( X − X ) i
β1
i
i
2
i
SE ( β1 ) = σ
1 ( N − 1) sx2
i
β 0 = Y − β1 X
1 X2 SE ( β 0 ) = σ + N ( N − 1) sx2
)
∑Y − Y i
σˆ =
i
N −2
i
Két változó kapcsolata Ha két változó normális eloszlású, akkor csak lineáris kapcsolat képzelhetı el közöttük, azaz, ha nincs közöttük lineáris kapcsolat, akkor függetlenek egymástól. Ha két változó normális eloszlású és korrelációjuk nulla, akkor függetlenek egymástól, ha korrelációjuk nullától különbözik, akkor lineáris kapcsolatban vannak, és ez a kapcsolat egy egyenessel megragadható. Fontos a korreláció mértéke is (r=0.01) A regressziós egyenes segítségével egyik változó értékének ismeretében a másik változó értékét elıre jelezhetjük. Meg kell határoznunk a függı és független változót, ki kell számítanunk a regressziós együtthatókat ( β 0 , és β1 ). Ha a független változó értékei köz nem szerepel egy érték, de a megfigyelt tartományban van (megfigyelt min. és max. érték között), akkor következtethetünk a függı változó értékére (interpoláció), ha a megfigyelt tartományon kívül van, akkor ezt nem tehetjük meg (extrapoláció). Ha a független változó súlya ( β1 ) a populáció szintjén különbözik nullától, akkor a független változó hatása szignifikáns.
Lineáris regresszió A lineáris regresszió terminológiája megtévesztı: -függı változó -független változó -változó hatása Csak akkor beszélhetünk oksági kapcsolatról, ha random kísérletbıl származó adatokkal dolgozunk és minden más, a vizsgált kapcsolat szempontjából releváns, tényezıt kontrollálunk. (A független változót mi manipuláljuk és a személyeket random módon soroltuk a függı változó szerinti csoportokba). Ha megfigyelésrıl van szó, számos külsı tényezı befolyással lehet mind a függı, mind a független változóra, oksági kapcsolatról megfigyelés esetén nem beszélhetünk.
Lineáris regresszió Ha a regresszió tökéletes elırejelzésre ad lehetıséget, azaz a megfigyelt értékek , pontdiagrammon ábrázolva tökéletesen illeszkednek egy egyenesre, akkor szokás függvénykapcsolatról beszélni. Pl. Eladott termék száma, eladásból származó bevétel.
Az esetek döntı többségében azonban csak úgynevezett statisztikai kapcsolatról van szó, ahol az elırejelzés nem tökéletes, az elırejelzés hibája vizuálisan a pontok távolsága az illesztett egyenestıl. Pl. az anya intelligenciájával próbáljuk bejósolni a gyermek intelligenciáját.
Lineáris regresszió Az általános képlete egy egyenesnek:
Yi = β 0 + β1 X i
β 0 az a pont ahol az egyenes metszi az y tengelyt β1 azt fejezi ki, hogy x egységnyi változása mekkora növekedést idéz elı y-ban
Yˆi = Yi X i = βˆ0 + βˆ1 X i
Yi = βˆ0 + βˆ1 X i + ε i
ε i = Yi − ( βˆ0 + βˆ1 X i ) = Yi − Yˆi A becslés csak tökéletes kapcsolat esetén lenne hibamentes (r=1 vagy r= -1). ε i a becslés hibája. A lehetı legkisebb hibájú becslés a cél. A hibáról feltételezzük, hogy független X-tıl és átlaga nulla. A négyzetes hiba minimalizálására épülı “legkisebb négyzetek”eljárás segítségével számolhatjuk β 0 és β1 becslését.
Lineáris regresszió A becslés hibája:
ε i = Yi − ( βˆ0 + βˆ1 X i ) = Yi − Yˆi A regressziós egyenes hibája, az ún. reziduális hiba vagy hibavariancia:
Res = E [(Yi − Yˆi )2 ] = E[ε i 2 ] = E [(ε i − 0)2 ] = σ ε2i
σ Y2 = σ Y2ˆ + σ ε2 i
i
i
ssY2i = ssY2ˆ + ssε2i i
R2 =
ssYˆ ssY
Az R négyzet érték, a determinációs együttható, azt mutatja meg, hogy az Y változó varianciájának mekkora részét tudjuk megragadni az y becsült értékével. Ez pontosan a korreláció négyzete lesz.