A Statisztika alapjai

A Statisztika alapjai BME – A3c

Magyar Róbert 2016.05.12.

Mi az a Statisztika? 

A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.



Gyakran hívják „statisztikának” a statisztika módszereit és a statisztikai tevékenység eredményeként keletkező adatokat is.



Matematikai értelemben: egy „minta” elemeinek (ismeretlen paramétert nem tartalmazó) függvénye.



Mondás: "amíg a valószínűségszámítás megtanít valószínűségekkel számolni, addig a statisztika megtanít valószínűséget mérni".

A statisztika eredete és története 

Eredetileg államháztartástant jelentett, vagyis azon módszerek gyűjteményét és elméletét, amelyek segítségével az újkorban kialakuló modern államok számon tarthatták erőforrásaikat és a társadalmi problémákat (népesség, termelés, betegségek stb.)



Eredete: statisticum collegium („államtanács”) és az olasz statista („államférfi”, politikus) kifejezésekből származtatják.



A szó mai értelmét („az adatgyűjtés és adatfeldolgozás általános tudománya”) csak a tizenkilencedik század elején nyerte el.

A statisztika alapfogalmai 

Vizsgálat tárgya: Rendszer (Populáció)



A Rendszer Objektumokból (Egyedekből) áll 



Például: emberek, társadalmak, folyók, biotópok, oldatok, spektrumok…

Az Objektumoknak tulajdonságai vannak 

Például: az emberek testméretei, a társadalmak lakosságszáma, nemzeti jövedelme, a folyók vízhozama adott időben, helyen, oldatok koncentrációi…



Sokaság: A rendszert alkotó objektumoknak számos tulajdonsága van, ezek összességét hívjuk (adat) sokaságnak



Minta: Általában csak arra van módunk, hogy a rendszer egy részletét, vagy egy bizonyos állapotát figyeljük meg, azaz annak leíró adataiból mintát vegyünk. 

Mondás: a sokaság az összes elképzelhető minta összessége

I. Példa 

Egy ország választó polgárai (rendszer) között szeretnénk egy párt szimpátiáját felmérni (következtetni a sokaságra). Ehhez egy n elemű mintát veszünk.



Kérdés: Legalább hány embert kell megkérdeznünk, hogy 90% pontossággal tudjuk megbecsülni a párt preferenciáját, 0,05 hibahatáron belül?

I. Példa   



𝑃

X: a pártot támogatók száma n: a megkérdezettek száma, a minta elemszáma p: a párt valódi támogatottsága (hány százaléka a választóknak támogatja valójában a pártot)

A Nagy Számok (Bernoulli) törvénye értelmében:

𝑋 𝑝∙ 1−𝑝 0,25 − 𝑝 < 0,05 ≥ 1 − ≥1− 2 𝑛 𝑛 ∙ 0,05 𝑛 ∙ 0,052 90 100

=1−

0,25 𝑛∙0,052

n = 1000  Megjegyzés: Független a lakosság számától!

A Minta tulajdonságai 

A minta vizsgálatának eredményéből következtetünk a sokaságra, a minta vétele tehát az eredmények értéke szempontjából elsőrendűen fontos. A minta legyen: 





reprezentatív, összetételében képviselje helyesen a sokaságot, amelyből vették, véletlen, a mintaelemek kerüljenek egymástól függetlenül, egyenlő valószínűséggel a mintába, elégséges méretű, elegendően nagy ahhoz, hogy a minta alapján levont következtetések kellően valószínűek legyenek.

A statisztika részterületei – Leíró Statisztika 

Leíró Statisztika 



Célja egy már rendelkezésre álló, valóságra vonatkozó adathalmaz összefoglalása, elemzése, egyszóval az információtömörítés

Sokaság leírása egy ismérv alapján: 

  

kvantilis értékek: k számú osztályközt akarunk képezni, akkor ehhez k–1 darab osztópontra van szükségünk. Ezeket az osztópontokat k-ad rendű kvantiliseknek nevezzük. helyzetmutatók (középértékek): medián, módusz, átlag szóródási mutatók: terjedelem, szórás, relatív szórás koncentráció elemzése: Lorenz-görbe, Herfindahl-index

A statisztika részterületei – Következtető (Matematikai) Statisztika 

Következtető (Matematikai) Statisztika 



Célja a megfelelő – vagyis a sokaság egészének paramétereit legjobban tükröző, reprezentáló – minta kiválasztása, a sokasági paramétereknek a minta paramétereivel történő becslése, illetve a sokasági paraméterekre vonatkozó feltételezések, hipotézisek elfogadása vagy elvetése. Foglalkozik továbbá a valóság összefüggéseinek egyszerűsített megragadására törekvő modellekkel is, mint az idősor- és regressziós modellek.

Főbb részterületei tehát a következők:     

mintavétel becsléselmélet hipotézisvizsgálat idősorelemzés korreláció- és regressziószámítás

A Statisztika valószínűségelméleti fogalma Valószínűségi értelemben az n-elemű minta egymástól teljesen független valószínűségi változókat jelent, melyek eloszlása megegyezik a sokaság eloszlásával.  Ha 𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta, akkor 𝜉1 , 𝜉2 , … , 𝜉𝑛 valószínűségi változók bármely függvényét statisztikának nevezzük. 

Példák Statisztikára 

F 𝜉1 , 𝜉2 , … , 𝜉𝑛 =

𝜉1 +𝜉2 +⋯+𝜉𝑛 𝑛

= 𝑥𝑛

Ezt a statisztikát tapasztalati átlagnak hívjuk. Rendezett minta: a minta elemeit növekvő sorrendbe állítjuk. Jelölése: F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = 𝜉1∗ , … , 𝜉𝑛∗  Rendezett mintából példa: 𝜉1∗ +𝜉𝑛∗ 𝑌= 2 

Példák Statisztikára 

F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = 𝒔𝟐𝒏 =

𝝃𝒊 −𝒙𝒏 𝟐 𝒏 𝒊=𝟏 𝒏

Ezt a statisztikát tapasztalati szórásnégyzetnek hívjuk.



F 𝜉1 , 𝜉2 , … , 𝜉𝑛 =

𝒔∗𝒏

=

𝑛 𝒔𝟐𝒏 𝑛−1

=

𝝃𝒊 −𝒙𝒏 𝟐 𝒏 𝒊=𝟏 𝒏−𝟏

Ezt a statisztikát korrigált tapasztalati szórásnak hívjuk.

Egy konkrét példa 𝜉 = egy adott évfolyam hallgatójának matek jegye  Vegyünk egy 8 elemű mintát: 𝜉1 , 𝜉2 , … , 𝜉8  A minta egy realizációja: (2,1,4,5,4,4,2,4,) 

 





𝜉1∗ , … , 𝜉8∗ = (1,2,2,4,4,4,4,5)

rendezett minta: mintaátlag:

𝑥𝑛 =

szórásnégyzet:

𝑠𝑛2

korrigált szórás:

=

26 8

= 3,25

𝜉𝑖 −3,25 2 8 𝑖=1 8

𝑠𝑛∗

=

8 7

= 1,6875

∙ 1,6875 = 1,48461

Paraméter becslés 

𝜉𝑖 statisztikai sokaság, egy évfolyam hallgatóinak matek jegyei



Szeretnénk becslést adni ennek várhatóértékére, más szóval az évfolyam átlagra 



Megj.: Pontos értéket tudnánk mondani, ha az évfolyam összes hallgatójának jegyét ismernénk, de a legtöbb esetben nem áll rendelkezésünkre az összes adat, csak egy n elemű minta, amit a becsléshez használhatunk

Állítás: a mintaátlag „jó” becslése a várhatóértéknek 

Kérdés: Mit jelent az, hogy „jó” becslés?

Torzítatlan becslés 

Egy 𝜉 valószínűségi változónak legyen θ egy paramétere. 



Például a várható értéke…

𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta



Valószínűségi változók bármilyen függvénye tekinthető valószínűségi változónak, így: 𝑋𝑛 = 𝐹 𝜉1 , 𝜉2 , … , 𝜉𝑛 statisztika, maga is tekinthető valószínűségi változónak.



Paraméter becsléseket 𝐹 statisztikák segítségével végzünk



Azt mondjuk, hogy F 𝜉1 , 𝜉2 , … , 𝜉𝑛 statisztka torzítatlan becslése θ-nek, ha: M F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = M 𝑋𝑛 = θ

Példa Torzítatlan becslésre Egy 𝜉 valószínűségi változónak legyen 𝑚 a várhatóértéke:  𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta.  Állítás: 𝑥𝑛 torzítatlan becslése 𝑚-nek, azaz: 𝑀 𝑥𝑛 = 𝑚  Bizonyítás: 



𝑀

𝜉1 +𝜉2 +⋯+𝜉𝑛 𝑛

𝑛 ∙ 𝑀 𝜉1 

1 𝑛

= ∙ 𝑀 𝜉1 + ⋯ + 𝑀 𝜉𝑛

1 𝑛

= ∙

= 𝑀 𝜉1 = 𝑀 𝜉 = 𝑚

Megj.: 𝜉1 , 𝜉2 , … , 𝜉𝑛 független, azonos eloszlású valószínűségi változók, várható értékük ezért megegyezik

Szórás torzítatlan becslése 

Definíció: F 𝜉1 , 𝜉2 , … , 𝜉𝑛 statisztka aszimtotikusan torzítatlan becslése θ-nek, ha: lim M F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = θ 𝑛→∞

 



Egy 𝜉 valószínűségi változónak legyen 𝜎 2 a szórásnégyzete 𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta.

Állítás bizonyítás nélkül: 𝑠𝑛2 aszimptotikusan torzítatlan becslése 𝜎 2 -nek, azaz: lim M 𝑠𝑛2 = 𝜎 2 𝑛→∞



Állítás bizonyítás nélkül: 𝑠𝑛∗ torzítatlan becslése 𝜎-nak, azaz: M 𝑠𝑛∗ = 𝜎

Torzítatlan becslések hatásossága 

Ha 𝐹1 és 𝐹2 ugyanazon mintán értelmezett statisztikák és mindkettő torzítatlan becslése a θ paraméternek, akkor azt mondjuk, hogy 𝐹1 hatásosabb 𝐹2 -nél, ha: 𝐷2 (𝐹1 ) < 𝐷2 (𝐹2 )

Ha 𝜆1 + 𝜆2 + ⋯ + 𝜆𝑛 = 1, akkor az F 𝜉1 , 𝜉2 , … , 𝜉𝑛 = 𝜆1 ∙ 𝜉1 + 𝜆2 ∙ 𝜉2 + ⋯ + 𝜆𝑛 ∙ 𝜉𝑛 statisztikák mindegyike torzítatlan becslése a várható értéknek, közülük a tapasztalati átlag a leghatásosabb! 



Ennek bizonyítása elhangzott előadáson, a levezetés megtalálható a Petz – Lángné Matematika III. jegyzetben

Centrális Határeloszlás-Tétel    

𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta 𝑀(𝜉𝑖 ) = 𝑚 𝐷(𝜉𝑖 ) = 𝜎 Tétel: 𝑃 𝑎<

𝑥𝑛 −𝑚 ∙ 𝑛 𝜎

<𝑏 →Φ 𝑏 −Φ 𝑎 ,

ha 𝑛 → ∞  A tétel szerint a tapasztalati várható érték (mint valószínűségi változó), nagy mintaméret esetén megközelítőleg normális eloszlású 𝑚 várhatóértékkel és 𝜎 szórással, függetlenül attól, hogy 𝜉𝑖 milyen eloszlású 𝑛

Intervallum becslés Normális eloszlásra Adott egy Normális eloszlású statisztikai sokaság  𝜉1 , 𝜉2 , … , 𝜉𝑛 n-elemű minta  𝑀(𝜉𝑖 ) = 𝑚 ISMERETLEN  𝐷(𝜉𝑖 ) = 𝜎 ADOTT 



Szeretnénk egy olyan intervallumot meghatározni, hogy az ismeretlen 𝑚 érték 95%-os valószínűséggel beleessen, vagyis egy olyan 𝑐 számot, melyre: 𝑃 𝑥𝑛 − 𝑚 < 𝑐 = 0,95

Konfidencia intervallum 

Standardizálunk, hogy Standard Normális eloszlásfüggvényt tudjunk használni: 𝑃 𝑥𝑛 − 𝑚 < 𝑐 = 0,95 𝑃 −

𝑐∙ 𝑛 𝑥𝑛 − 𝑚 ∙ 𝑛 𝑐 ∙ 𝑛 < < = 0,95 𝜎 𝜎 𝜎

𝑐∙ 𝑛 𝑐∙ 𝑛 𝑐∙ 𝑛 Φ −Φ − =2∙Φ − 1 = 0,95 𝜎 𝜎 𝜎 𝑐∙ 𝑛 Φ = 0,975 = Φ 1,96 𝜎 1,96 ∙ 𝜎 𝑐= 𝑛 

Vagyis az ismeretlen 𝑚 paraméter 95%-os megbízhatósági szinten a 𝑥𝑛 −

1,96∙𝜎 , 𝑥𝑛 𝑛

+

1,96∙𝜎 𝑛

konfidencia (megbízhatósági) intervallumba esik.

Elköszönő Dia

A Statisztika alapjai

Recommend Documents