A Statisztika alapjai BME – A3c
Magyar Róbert 2016.05.12.
Mi az a Statisztika?
A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.
Gyakran hívják „statisztikának” a statisztika módszereit és a statisztikai tevékenység eredményeként keletkező adatokat is.
Matematikai értelemben: egy „minta” elemeinek (ismeretlen paramétert nem tartalmazó) függvénye.
Mondás: "amíg a valószínűségszámítás megtanít valószínűségekkel számolni, addig a statisztika megtanít valószínűséget mérni".
A statisztika eredete és története
Eredetileg államháztartástant jelentett, vagyis azon módszerek gyűjteményét és elméletét, amelyek segítségével az újkorban kialakuló modern államok számon tarthatták erőforrásaikat és a társadalmi problémákat (népesség, termelés, betegségek stb.)
Eredete: statisticum collegium („államtanács”) és az olasz statista („államférfi”, politikus) kifejezésekből származtatják.
A szó mai értelmét („az adatgyűjtés és adatfeldolgozás általános tudománya”) csak a tizenkilencedik század elején nyerte el.
A statisztika alapfogalmai
Vizsgálat tárgya: Rendszer (Populáció)
A Rendszer Objektumokból (Egyedekből) áll
Például: emberek, társadalmak, folyók, biotópok, oldatok, spektrumok…
Az Objektumoknak tulajdonságai vannak
Például: az emberek testméretei, a társadalmak lakosságszáma, nemzeti jövedelme, a folyók vízhozama adott időben, helyen, oldatok koncentrációi…
Sokaság: A rendszert alkotó objektumoknak számos tulajdonsága van, ezek összességét hívjuk (adat) sokaságnak
Minta: Általában csak arra van módunk, hogy a rendszer egy részletét, vagy egy bizonyos állapotát figyeljük meg, azaz annak leíró adataiból mintát vegyünk.
Mondás: a sokaság az összes elképzelhető minta összessége
I. Példa
Egy ország választó polgárai (rendszer) között szeretnénk egy párt szimpátiáját felmérni (következtetni a sokaságra). Ehhez egy n elemű mintát veszünk.
Kérdés: Legalább hány embert kell megkérdeznünk, hogy 90% pontossággal tudjuk megbecsülni a párt preferenciáját, 0,05 hibahatáron belül?
I. Példa
𝑃
X: a pártot támogatók száma n: a megkérdezettek száma, a minta elemszáma p: a párt valódi támogatottsága (hány százaléka a választóknak támogatja valójában a pártot)
A Nagy Számok (Bernoulli) törvénye értelmében:
𝑋 𝑝∙ 1−𝑝 0,25 − 𝑝 < 0,05 ≥ 1 − ≥1− 2 𝑛 𝑛 ∙ 0,05 𝑛 ∙ 0,052 90 100
=1−
0,25 𝑛∙0,052
n = 1000 Megjegyzés: Független a lakosság számától!
A Minta tulajdonságai
A minta vizsgálatának eredményéből következtetünk a sokaságra, a minta vétele tehát az eredmények értéke szempontjából elsőrendűen fontos. A minta legyen:
reprezentatív, összetételében képviselje helyesen a sokaságot, amelyből vették, véletlen, a mintaelemek kerüljenek egymástól függetlenül, egyenlő valószínűséggel a mintába, elégséges méretű, elegendően nagy ahhoz, hogy a minta alapján levont következtetések kellően valószínűek legyenek.
A statisztika részterületei – Leíró Statisztika
Leíró Statisztika
Célja egy már rendelkezésre álló, valóságra vonatkozó adathalmaz összefoglalása, elemzése, egyszóval az információtömörítés
Sokaság leírása egy ismérv alapján:
kvantilis értékek: k számú osztályközt akarunk képezni, akkor ehhez k–1 darab osztópontra van szükségünk. Ezeket az osztópontokat k-ad rendű kvantiliseknek nevezzük. helyzetmutatók (középértékek): medián, módusz, átlag szóródási mutatók: terjedelem, szórás, relatív szórás koncentráció elemzése: Lorenz-görbe, Herfindahl-index
A statisztika részterületei – Következtető (Matematikai) Statisztika
Következtető (Matematikai) Statisztika
Célja a megfelelő – vagyis a sokaság egészének paramétereit legjobban tükröző, reprezentáló – minta kiválasztása, a sokasági paramétereknek a minta paramétereivel történő becslése, illetve a sokasági paraméterekre vonatkozó feltételezések, hipotézisek elfogadása vagy elvetése. Foglalkozik továbbá a valóság összefüggéseinek egyszerűsített megragadására törekvő modellekkel is, mint az idősor- és regressziós modellek.
Főbb részterületei tehát a következők:
mintavétel becsléselmélet hipotézisvizsgálat idősorelemzés korreláció- és regressziószámítás
A Statisztika valószínűségelméleti fogalma Valószínűségi értelemben az n-elemű minta egymástól teljesen független valószínűségi változókat jelent, melyek eloszlása megegyezik a sokaság eloszlásával. Ha 𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta, akkor 𝜉1 , 𝜉2 , … , 𝜉𝑛 valószínűségi változók bármely függvényét statisztikának nevezzük.
Példák Statisztikára
F 𝜉1 , 𝜉2 , … , 𝜉𝑛 =
𝜉1 +𝜉2 +⋯+𝜉𝑛 𝑛
= 𝑥𝑛
Ezt a statisztikát tapasztalati átlagnak hívjuk. Rendezett minta: a minta elemeit növekvő sorrendbe állítjuk. Jelölése: F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = 𝜉1∗ , … , 𝜉𝑛∗ Rendezett mintából példa: 𝜉1∗ +𝜉𝑛∗ 𝑌= 2
Példák Statisztikára
F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = 𝒔𝟐𝒏 =
𝝃𝒊 −𝒙𝒏 𝟐 𝒏 𝒊=𝟏 𝒏
Ezt a statisztikát tapasztalati szórásnégyzetnek hívjuk.
F 𝜉1 , 𝜉2 , … , 𝜉𝑛 =
𝒔∗𝒏
=
𝑛 𝒔𝟐𝒏 𝑛−1
=
𝝃𝒊 −𝒙𝒏 𝟐 𝒏 𝒊=𝟏 𝒏−𝟏
Ezt a statisztikát korrigált tapasztalati szórásnak hívjuk.
Egy konkrét példa 𝜉 = egy adott évfolyam hallgatójának matek jegye Vegyünk egy 8 elemű mintát: 𝜉1 , 𝜉2 , … , 𝜉8 A minta egy realizációja: (2,1,4,5,4,4,2,4,)
𝜉1∗ , … , 𝜉8∗ = (1,2,2,4,4,4,4,5)
rendezett minta: mintaátlag:
𝑥𝑛 =
szórásnégyzet:
𝑠𝑛2
korrigált szórás:
=
26 8
= 3,25
𝜉𝑖 −3,25 2 8 𝑖=1 8
𝑠𝑛∗
=
8 7
= 1,6875
∙ 1,6875 = 1,48461
Paraméter becslés
𝜉𝑖 statisztikai sokaság, egy évfolyam hallgatóinak matek jegyei
Szeretnénk becslést adni ennek várhatóértékére, más szóval az évfolyam átlagra
Megj.: Pontos értéket tudnánk mondani, ha az évfolyam összes hallgatójának jegyét ismernénk, de a legtöbb esetben nem áll rendelkezésünkre az összes adat, csak egy n elemű minta, amit a becsléshez használhatunk
Állítás: a mintaátlag „jó” becslése a várhatóértéknek
Kérdés: Mit jelent az, hogy „jó” becslés?
Torzítatlan becslés
Egy 𝜉 valószínűségi változónak legyen θ egy paramétere.
Például a várható értéke…
𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta
Valószínűségi változók bármilyen függvénye tekinthető valószínűségi változónak, így: 𝑋𝑛 = 𝐹 𝜉1 , 𝜉2 , … , 𝜉𝑛 statisztika, maga is tekinthető valószínűségi változónak.
Paraméter becsléseket 𝐹 statisztikák segítségével végzünk
Azt mondjuk, hogy F 𝜉1 , 𝜉2 , … , 𝜉𝑛 statisztka torzítatlan becslése θ-nek, ha: M F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = M 𝑋𝑛 = θ
Példa Torzítatlan becslésre Egy 𝜉 valószínűségi változónak legyen 𝑚 a várhatóértéke: 𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta. Állítás: 𝑥𝑛 torzítatlan becslése 𝑚-nek, azaz: 𝑀 𝑥𝑛 = 𝑚 Bizonyítás:
𝑀
𝜉1 +𝜉2 +⋯+𝜉𝑛 𝑛
𝑛 ∙ 𝑀 𝜉1
1 𝑛
= ∙ 𝑀 𝜉1 + ⋯ + 𝑀 𝜉𝑛
1 𝑛
= ∙
= 𝑀 𝜉1 = 𝑀 𝜉 = 𝑚
Megj.: 𝜉1 , 𝜉2 , … , 𝜉𝑛 független, azonos eloszlású valószínűségi változók, várható értékük ezért megegyezik
Szórás torzítatlan becslése
Definíció: F 𝜉1 , 𝜉2 , … , 𝜉𝑛 statisztka aszimtotikusan torzítatlan becslése θ-nek, ha: lim M F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = θ 𝑛→∞
Egy 𝜉 valószínűségi változónak legyen 𝜎 2 a szórásnégyzete 𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta.
Állítás bizonyítás nélkül: 𝑠𝑛2 aszimptotikusan torzítatlan becslése 𝜎 2 -nek, azaz: lim M 𝑠𝑛2 = 𝜎 2 𝑛→∞
Állítás bizonyítás nélkül: 𝑠𝑛∗ torzítatlan becslése 𝜎-nak, azaz: M 𝑠𝑛∗ = 𝜎
Torzítatlan becslések hatásossága
Ha 𝐹1 és 𝐹2 ugyanazon mintán értelmezett statisztikák és mindkettő torzítatlan becslése a θ paraméternek, akkor azt mondjuk, hogy 𝐹1 hatásosabb 𝐹2 -nél, ha: 𝐷2 (𝐹1 ) < 𝐷2 (𝐹2 )
Ha 𝜆1 + 𝜆2 + ⋯ + 𝜆𝑛 = 1, akkor az F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = 𝜆1 ∙ 𝜉1 + 𝜆2 ∙ 𝜉2 + ⋯ + 𝜆𝑛 ∙ 𝜉𝑛 statisztikák mindegyike torzítatlan becslése a várható értéknek, közülük a tapasztalati átlag a leghatásosabb!
Ennek bizonyítása elhangzott előadáson, a levezetés megtalálható a Petz – Lángné Matematika III. jegyzetben
Centrális Határeloszlás-Tétel
𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta 𝑀(𝜉𝑖 ) = 𝑚 𝐷(𝜉𝑖 ) = 𝜎 Tétel: 𝑃 𝑎<
𝑥𝑛 −𝑚 ∙ 𝑛 𝜎
<𝑏 →Φ 𝑏 −Φ 𝑎 ,
ha 𝑛 → ∞ A tétel szerint a tapasztalati várható érték (mint valószínűségi változó), nagy mintaméret esetén megközelítőleg normális eloszlású 𝑚 várhatóértékkel és 𝜎 szórással, függetlenül attól, hogy 𝜉𝑖 milyen eloszlású 𝑛
Intervallum becslés Normális eloszlásra Adott egy Normális eloszlású statisztikai sokaság 𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta 𝑀(𝜉𝑖 ) = 𝑚 ISMERETLEN 𝐷(𝜉𝑖 ) = 𝜎 ADOTT
Szeretnénk egy olyan intervallumot meghatározni, hogy az ismeretlen 𝑚 érték 95%-os valószínűséggel beleessen, vagyis egy olyan 𝑐 számot, melyre: 𝑃 𝑥𝑛 − 𝑚 < 𝑐 = 0,95
Konfidencia intervallum
Standardizálunk, hogy Standard Normális eloszlásfüggvényt tudjunk használni: 𝑃 𝑥𝑛 − 𝑚 < 𝑐 = 0,95 𝑃 −
𝑐∙ 𝑛 𝑥𝑛 − 𝑚 ∙ 𝑛 𝑐 ∙ 𝑛 < < = 0,95 𝜎 𝜎 𝜎
𝑐∙ 𝑛 𝑐∙ 𝑛 𝑐∙ 𝑛 Φ −Φ − =2∙Φ − 1 = 0,95 𝜎 𝜎 𝜎 𝑐∙ 𝑛 Φ = 0,975 = Φ 1,96 𝜎 1,96 ∙ 𝜎 𝑐= 𝑛
Vagyis az ismeretlen 𝑚 paraméter 95%-os megbízhatósági szinten a 𝑥𝑛 −
1,96∙𝜎 , 𝑥𝑛 𝑛
+
1,96∙𝜎 𝑛
konfidencia (megbízhatósági) intervallumba esik.
Elköszönő Dia