A matematikai statisztika alapjai (leíró statisztika) A »statisztika« szó latin eredetû, a "status"-ból származik, amelyet állapotnak és államnak is fordíthatunk; arra utal, hogy a statisztika tárgya mindig valamilyen állapot leírására szolgál. Az ebbe a körbe tartozó adatok - természetesen - kielégítik az informatika általános adatfogalmát, annál azonban kicsit szûkebbek. Ilyen értelemben azt mondjuk, hogy a statisztika által használt adatfogalom mindig valamilyen - a való világra vonatkozó - kísérlet, megfigyelés, vizsgálat eredményeként adódik, s a legtöbbször számként jelenik meg, méghozzá nem is egy számként - hanem több adatként. Ahogy matematikai statisztikai tankönyvek gyakran fogalmaznak: a statisztika a véletlen tömegjelenségekkel, ezek törvényeivel foglalkozik. Az adatok mindig rögzítettek. (Ez számítástechnikai alapkövetelmény is.) Térjünk vissza egy kicsit erre a bizonyos "való világra vonatkozó vizsgálat"-ra! Mert fontos. Ugyanis a vizsgálat jellege szerint fogjuk megkülönböztetni a statisztika adatainak két nagy fajtáját: a mérhetõ és a megállapítható adatokat.
A mérhetõ adat Amennyiben adatunk úgy keletkezik, hogy valamilyen mérés "terméke", akkor beszélhetünk mérhetõ adatról. A mérés - általánosítva - tehát nem más, mint egy hozzárendelés, ami a való világ egy bizonyos objektuma (ill. annak része), és egy szám között áll fenn. Ilyen értelemben használtuk - eddig is - pl. a mértékegységeket, mint amilyen a »nyolc rõf«, vagy a »két icce«, netán a »három lat«... (Szándékosan nem írtam SI-mértékegységeket, elsõsorban arra utalva, hogy ez a gondolkodásmód egyáltalán nem mai, sõt!) Ami a manapság használt méréseket, mérési eljárásokat illeti, az esetek legnagyobb többségében valamilyen fizikai skálán történnek. (Pl.: hosszúság, tömeg, idõ, áramerõsség, stb.) A precíz megfogalmazáshoz szükségünk is lenne bizonyos skálaelméleti ismeretekre is, ezek megtárgyalásától azonban eltekintünk. Ami korántsem azt jelenti, hogy ezek ne lennének fontosak; csupán amiatt mellõzzük megtárgyalásukat, mert nincs elég helyünk rá.
Itt azonban álljunk meg egy pillanatra! Hiszen nem lehet mindent fizikai szabatossággal megmérni, vagy mérhetõvé alakítani. Nagyon jellegzetes példa erre pl. az emberi lélektan. Bizonyára már az Olvasó is töltött ki ún. "intelligenciatesztet", és meghatározta saját értékét a lehetséges skálán. (Az "igazi" IQ-tesztek is hasonló elven mérik a ...nem is tudom, mit; hiszen errõl óriási viták folynak -, csak az a különbség, hogy az általuk használt skála többezer emberen "belõtt", úgynevezett standardizált skála.) Ennek figyelembevételével a "mérés" fogalmát általánosíthatjuk: a mérhetõ adatok tehát egy olyan skálán helyezkednek el, amelyet hasonlónak tekinthetünk valamilyen mérõmûszer skálájához. Bizonyos, számlálással nyerhetõ adatok is ide tartozhatnak: ez a módszer elég gyakori. Gondoljunk pl. arra, hogy valakinek mennyi valamije (gyermeke, könyve, pénze, stb.) van: ez valamilyen számot eredményez ugyan, de a leszámlálást mégsem nevezhetjük mérésnek... (Megeshet azonban, hogy a leszámlálást visszavezetjük mérésre - mert pl. a "hány mákszem fér egy ember markába?"-kérdésre meglehetõsen bonyodalmas és szaporátlan lenne leszámlálással megadni a választ... Ilyenkor - ha tudjuk egy mákszem tömegét - tömegméréssel és egy osztással meg tudjuk válaszolni a kérdést. Azért tudtuk a mérést használni ehhez, mert a mákszemek lehetséges száma - a "marokbõségtõl" függõen - rendkívül különbözõ lehet; valamint a szemek száma igen nagy. Mérési adatként tehát akkor kezelhetõek a számlálási adatok, ha ez a két feltétel teljesül rájuk.)
A megállapítható adat Ilyenkor az adatokat úgy nyerjük, hogy a mérés szerepét egy megállapítás veszi át. Pl. abban a mondatban, hogy "a kalcium vegyértéke kettõ", nem a »kettõ«-n van a hangsúly, hanem azon, hogy ez az elem a kétvegyértékû kategóriába esik. Még egyértelmûbb ez akkor, ha a kategória megadásában nem is szerepel számérték. Ilyen adat pl. egy kérdéses személy neme; ez csak szóban ("férfi", vagy "nõ"), ill. a biológiai szimbólumok felhasználásával adható meg. Ide tartoznak az "igen-nem"-mel megválaszolható kérdések is. Pl.:
A "volt-e már valaha náthája?"-kérdésre két válasz lehetséges: vagy "igen", vagy "nem". (Mint ezt a logikai részben már láthattuk.) Amennyiben az adatok között hierarchiát értelmezünk, akkor belátható, hogy ezek az adatok alacsonyabbrendûek, mint a mérési adatok. Ennek oka egyszerû: nyilvánvaló, hogy számokkal sokkal egyszerûbb számolni, mint megállapításokkal (kategóriákkal). Ráadásul a mérhetõ adatok mindig átalakíthatóak megállapíthatókká, viszont azonban ez nem áll fenn. Az átalakításhoz csak ilyen típusú "megállapításokat" kell tennünk: 3 alatt; 3 és 5 között; 5 fölött, stb. A mért érték így bekerül valamilyen kategóriába. A két adatfajta szemléltetésére nézzünk meg egy speciális esetet: az iskolai osztályzatok dolgát. Ezek az osztályzatok - formailag mindenképpen - mérési adatok. Az egyes tanulók ismeretszintjét, készségeit az 1 és az 5 számok közötti skálán lemérik. (Nem véletlenül ilyen kevésszámú lehetséges érték van; természetesen lehetne ennél jóval finomabb - pl. az egyetemi felvételihez hasonló finomságú - különbséget is tenni az egyes tudásszintek között.) Azonban az ilyen adatok semmiképpen nem mondhatók többnek megállapíthatóaknál. Az a »pedagógiai skála« ugyanis, amelyen a mérés történt, teljesen ismeretlen tulajdonságú; szubjektív, ezért mindig más és más lehet. Legfeljebb annyit fogadhatunk el (márpedig, ha számolni is akarunk velük, akkor muszáj lesz), hogy a tanár elõre meghatározott kategóriákat - jeles, jó, közepes, elégséges, elégtelen - rendel hozzá az egyes diákok teljesítményéhez. Tehát osztályokba (kategóriákba) sorolta õket. mint ezt a tevékenység megnevezése - osztályozás - mutatja is. Az "alacsonyabbrendû" kifejezés nehogy megtévesszen bennünket: alapvetõen helytelen lenne a mérés "magasabbrendûségérõl" beszélni akkor, ha a »férfi - nõ« kérdés egyszerû megállapítással, pontosan eldönthetõ. Sõt, még fölényben is lehet a mért adatokkal szemben, hiszen minden mérési eljárás - függetlenül a mérõeszköz korszerûségétõl - tartalmaz ún. módszeres hibát, s ez - nyilván - torzítja adataink valóságtükrözését. (Mindez - természetesen - korántsem vonatkozik olyan esetekre - mint az osztályozás-példa mutatta is -, amikor a kategóriákba sorolás önkényesen, szubjektív módon megy végbe.)
Adatcsoport, minta és populáció Akár mérés, akár statisztikai feldolgozás szempontjából tekintjük az adatot, jegyezzünk meg egy mondást: Egy adat nem adat. A statisztika csak adatokkal tud valamit is kezdeni. De milyenek is legyenek ezek az adatok? Azon kívül hogy több adat kell, árnyaljuk még azzal is, hogy ugyanarra vonatkozóan legyen több. Ezt nem úgy értjük, hogy - ha pl. emberek adatait tekintjük - ne lenne elég csak az életkor megadása; hanem a családi állapota, a testsúlya, a magassága, stb. is szükséges. Nem errõl van szó. Hanem arról, hogy ha pl. a testsúly az adat, akkor nem elég egyetlen ember testsúlyának ismerete. Az "ugyanarra vonatkozóan" itt azt jelenti, hogy több "testsúly"-adatunk kell legyen - mégpedig ugyanabban a mértékegységben (pl. kg-ban) megadva. Egy-egy adat tehát más-más emberhez tartozik. De egy más módszerrel is megközelíthetjük mindezt: mérjük le egy ember súlyát különbözõ (mondjuk: egyhónapos) idõpontokban. Belátható, hogy ekkor is "több" adatunk lett. Ezek az adatok is alkalmasak statisztikai vizsgálatokra (idõsoroknak hívják õket); elemi szinten azonban nem fogunk foglalkozni velük. Az elõbb - kétféleképpen - leszármaztatott adatokat adatcsoportoknak nevezzük, az "adatok" szinonímájaként; a matematikai statisztika azonban minta néven azonosítja õket. (A továbbiakban mi is ezt tesszük.) A minta tehát nem más, mint a konkrét vizsgálatba bevont (annak eredményeként kapott) adatok köre. A vizsgálatot azonban nem önmagáért végezzük: az esetek legnagyobb többségében következtetni akarunk egy nagyobb halmaz hasonló tulajdonságaira, amely "nagyobb" halmaznak a minta csupán részhalmaza. Ezt a "nagyobb" halmazt mintasokaságnak, vagy más néven: populációnak nevezi a matematikai statisztika. A leíró statisztika a mintát csak önmagában tekinti, nem törõdik azzal, hogy mi van mögötte. A matematikai statisztika ezzel szemben a mintát csupán eszköznek tekinti a populáció megismerésére.
A gyakorisági eloszlás Elõrendezés: osztályba sorolás A mérési adatok a vizsgálat során nem valamilyen szempont szerinti rendezettségben követik egymást. Ahhoz azonban, hogy viszonylag nagyszámú adatot át tudjunk tekinteni, érdemes õket csoportosítani. Ennek lényege: adataink értékkészletét résztartományokra osztjuk, majd megszámoljuk, hogy egy ilyen részbe (osztályba, vagy csoportba) hány adat esik. Ezt a számot hívjuk az osztályhoz tartozó gyakoriságnak. Az osztályok, a hozzájuk tartozó gyakoriságokkal együtt alkotják a minta gyakorisági eloszlását. Mutassuk be ezt egy példán:
1. (Testsúly-) táblázat [kg-ban] 85 55 97 95 82 90 75 69 102 100 97 93 69 85 63 80 82 77 73 67 59 104 72 61 63
91 63 112 73 70 49 63 82 75 70 63 67 67 73 52 76 58 65 43 71 65 72 70 65 75
70 89 85 53 75 77 102 113 55 83 82 82 72 115 85 65 73 86 92 79 75 82 80 87 65
69 70 78 55 77 55 55 69 85 83 59 116 73 105 63 62 59 82 110 83 72 75 75 80 75
80 83 83 85 75 80 78 85 80 93 96 88 93 85 82 78 80 70 104 91 69 90 101 75 52
60 72 76 55 90 51 63 105 52 63 60 75 64 62 90 80 77 85 73 80 88 76 123 90 70
73 65 101 65 73 55 90 65 72 77 69 95 85 60 66 42 108 79 107 44 65 62 67 53 85
90 75 85 69 72 60 81 66 71 63 80 55 70 55 73 75 65 69 85 90 61 81 101 77 82
A testsúly (pontosabban: testtömeg) adatait a mérés eredeti sorrendjében, egymás alá írtuk; így rögzíteni könnyebb, mintha egymás mellé kezdtük volna az írást. Sok adatnál célszerû vízszintesen is részekre tagolni az adathalmazt - vonalakkal, vagy üres sorokkal. (Itt csupán azért nem tagoltam - ötösével - a sorokat, mert akkor nem fért volna ki a táblázat egy oldalra. Így viszont sokkal nehezebb felfogni, olvasni...) Mint megállapítható, a táblázat 200 mérés eredményét tartalmazza. Ezt úgy mondjuk, hogy a minta elemszáma 200. A gyakoriságok kigyûjtése legcélszerûbben "strigulázással" történhet. Ilyenkor egy papírra írjuk az egyes osztályokat, majd sorra vesszük az adatokat, és oda húzunk egy függõleges vonalat ("strigulát", azaz: |-t), ahol az adat "passzol" a megadott osztály-intervallumhoz. Saját munkánkat egyszerûsítjük akkor, ha az ötödik strigulával áthúzzuk a másik négyet. (Így ötösével sokkal könnyebb leszámolni a gyakoriságértékeket a végén). Nézzük ezt táblázatban, és aztán ábrázolva: osztályhatárok
valódi osztályhatárok
osztályközepek
35 - 39 40 - 44 45 - 49 50 - 54 55 - 59 60 - 64 65 - 69 70 - 74 75 - 79 80 - 84 85 - 89 90 - 94 95 - 99 100 - 104 105 - 109 110 - 114 115 - 119 120 - 124 125 - 129
34,5- 39,5 39,5- 44,5 44,5- 49,5 49,5- 54,5 54,5- 59,5 59,5- 64,5 64,5- 69,5 69,5- 74,5 74,5- 79,5 79,5- 84,5 84,5- 89,5 89,5- 94,5 94,5- 99,5 99,5-104,5 104,5-109,5 109,5-114,5 114,5-119,5 119,5-124,5 124,5-129,5
37 42 47 52 57 62 67 72 77 82 87 92 97 102 107 112 117 122 127
gyakoriságok (absz.)
2. táblázat 0 3 1 6 13 19 24 26 27 26 18 14 5 8 4 3 2 1 0
Nyilvánvaló, hogy a "valódi" osztályhatár a - matematikai értelemben vett - kerekítést is beszámítja, használata tehát ezért indokolt.
!
Ábrázolva pedig a következõket láthatjuk: absz. gyakoriság
20
10
0 35
40
45
50
55
60
65
70
75
80
85
90
95 100 105 110 115 120 125
kg
1. grafikon: testsúlyeloszlás oszlopdiagramon Az y tengelyre a gyakoriságokat (természetes számok, 1-tõl akármeddig), az x tengelyre pedig a kategória-skálát vesszük fel. A grafikon típusa: úgynevezett oszlopdiagram. Itt téglalapok mutatják az egyes intervallumokat, s - mivel egyenlõ hosszúra választottuk ezeket az intervallumokat - a gyakoriságokat az egyes téglalapok magassága (s ezen keresztül a téglalap területe) reprezentálja: ezzel a területtel jellemezzük az egyes osztályokhoz tartozó - abszolút - gyakoriságokat. Itt jegyezzük meg azt, hogy - elsõsorban az SI-mértékegységgel való összekeverhetõség miatt - a magyar nyelvben helyesen egy "m"-mel kell írni ezeket az idegen szavakat: nomogram, diagram, hologram, stb. (Más - pl. német - nyelvben két "m"-mel írják, de magyarul ez helytelen!) A »-gram« görög származású kifejezés, szóösszetételekben (írásos, vagy más, alkalmas módon történõ) rögzítettséget jelent. Több esetben nem ez az igazán célszerû, szemléletes és áttekinthetõ ábrázolásmód. A matematikában megszokott (függvény-)ábrázolás során nem téglalapokkal, hanem egyetlen - jobbára nem egyenes - vonallal ábrázoljuk az adott függvényt. Ezt itt is megtehetjük. Az ilyen ábrázolásmód neve: vonaldiagram. A szép kinézés okáért érdemes felvennünk a grafikon két szélére egyegy olyan osztályt is, amelyhez tartozó gyakoriság 0 - ide tehát nem kerül adat, s a grafikon nem úgy fest, mintha "derült égbõl elkezdõdne".
"
Az ábrázolás: absz. gyakoriság
20
10
0 35
40
45
50
55
60
65
70
75
80
85
90
95 100 105 110 115 120 125
kg
2. grafikon: testsúlyeloszlás vonaldiagramon Visszatérve - még egy pillanatra - a 2. táblázathoz, érdemes néhány szót ejteni arról, hogy minek is szerepelnek ott az "osztályközepek"? Nem felesleges kiszámolni ezeket, mert tulajdonképpen arra szolgálnak, hogy képviseljék az osztályukba tartozó összes adatot. (A továbbiakban ezeket az adatokat ilyenkor azonosítjuk az osztályközepükkel.) Másképp is fel lehet fogni: az adatok az osztálynál mind különbözõek - még ha ez nem is áll fönn -, és egyenlõ közökben úgy helyezkednek el, hogy az osztály egész szélességét kitöltsék. Az osztályok felvételérõl csak annyit: elsõsorban az adatok száma határozza meg. Esetünkben, a 200 adatnál indokolt fölvenni 15-20 osztályt is; 50 adatnál pl. már 10 osztály is több lenne a kelleténél (ennél jóval kevesebb mintaelem esetén ne is kísérletezzünk a csoportosítással - kevés adatot könnyebb áttekinteni). Célszerû az osztályhatárokat úgy megállapítani, hogy "kerek" számok legyenek, pl. itt 40-44, 45-49, stb. Az ilyen osztályhatár-kijelölés azért jobb, mintha 41-45 és 46-50 (stb.) határokkal dolgozunk, mert ilyenkor az elsõ számjegy osztályon belül is megváltozik; igen nehéz "ránézésre" is kistrigulázni ilyenkor a "kétes" adatokat. (Különösen akkor áll ez, ha az osztályszélesség 10-es.)
#
Hogy mindenki számára világos legyen az osztálybasorolás/csoportosítás fontossága, érdemes lesz ideiktatni a teljes, rendezetlen minta grafikonját (ezt is oszlopdiagramon; igaz, hogy ilyen esetben az x-tengelynek semmi funkciója nincs, csak alapként szolgál). Az oszlopdiagram "oszlopai" meg szinte vonallá zsugorodtak. Nézzük csak!
3. ábra: Az eredeti - rendezetlen, teljes - minta ...Maga az Õskáosz. Nem?
Az eredmények bemutatása, vizuális megjelenítés Itt értekezzünk kicsit arról, hogy milyen módon ábrázoljuk adatainkat. Ha pl. egy szövegszerkesztõvel dolgozunk, mint amilyen a WORD FOR WINDOWS (2.0C) - magyar nyelvû - változata, abban alapszolgáltatás a GRAPH nevû grafikonrajzoló. (Ez a tankönyv, és a benne levõ ábrák/grafikonok is a WinWord említett verziójával készült/ek.) A GRAPH-ban 7-féle kétdimenziós és 5-féle háromdimenziós diagram lehetõsége van meg: ezek közül már két - kétdimenziós - grafikonfajtát megismertünk. A továbbiak során még néhány fontosabb ábrázolásmódot lesz alkalmunk szemügyre venni - példánk marad az eddigi. Célunk nem a szoftver ismertetése, hanem a gyakrabban használt diagramfajták kritikai bemutatása lesz. Az x-y koordinátarendszerben - matematikából - megszokott ábrázolásmód az úgynevezett pont-ábra (pontdiagram). Akkor alkalmazzuk, ha kicsi a minta elemszáma, és egy mérhetõ - egy megállapítható adatból álló mintát akarunk ábrázolni.
$
Ilyen lehet pl. 10 általános iskolás tanuló távolugrás-eredménye: 3. táblázat
4,5
[méter]
4
1. (fiú) 2. (fiú) 3. (lány) 4. (lány) 5. (fiú) 6. (lány) 7. (fiú) 8. (fiú) 9. (lány) 10. (fiú)
2,4 3,9 3,4 1,9 3,3 3,4 2,0 4,4 1,8 1,5
3,5 3 2,5 2 1,5 1 0,5 0
lányok
fiúk
4. ábra: pontdiagram
A pontok egymás fölötti elhelyezésének (valamint annak, hogy nem ugyanolyan szimbólummal - pl. x-szel - jelöltük õket) semmi jelentõsége sincs. Nagy elemszámnál zsúfolt, áttekinthetetlen lesz, s megtévesztõ lehet a pontoknak egy sáv menti elhelyezkedése is. (Ilyen esetekben inkább az oszlopdiagram ajánlható.) Egy másik - nagyon szemléletes - ábrázolási mód, fõleg a %-os megoszlásokra az ún. kördiagram. A kategóriák egy kört osztanak föl - a gyakorisággal arányosan - különbözõ területû körcikkekre (3D-ábrázolásban "tortá"-nak is szokás hívni az ilyenfajta diagramokat). Lássuk ezt most a rendezett mintánkon:
85
35
40
45
50
55
60
65
70
90
95
100
105
110
115
120
125
75
80
5. ábra: tortadiagram Azért csak a tortadiagramot mutatjuk be, mert a kördiagram túl nagy helyet foglalna el. A gyakoriságok - elvben - feltüntethetõek lennének, de még ekkora nagyságban is zavaróan egymásra íródnak, ezért mellõztük.
%
A legfontosabb diagramtípusok bemutatása után néhány jótanács: - VIGYÁZAT az oszlopdiagramnál! Nem véletlenül választottuk egyenlõ nagyságúra az osztályközöket. Kerüljük az olyan ábrázolástechnikát, ahol a két változó együttesen fogja meghatározni az adott téglalap-területet! Próbáljuk meg elképzelni, hogy egy vékony magas és egy rövid, de vastag oszlopot kell összehasonlítanunk. Hiába mondjuk azt, hogy »a terület a jellemzõ«; az átlagember területszemmértéke kétségbeejtõen rossz. - Szintén a szemmérték miatt kerüljük két, "egydimenziós" adat egy diagramon való szerepeltetését is. (Egydimenziósnak vehetõ ebbõl a szempontból pl. a 3. diagram; vagy a 4. diagram is.) A két tengely ilyenkor - a matematikában megszokott - önálló funkcióját töltené be; viszont közismert, hogy az ember szeme ugyanazt a távolságot egészen másnak látja akkor, ha függõleges, s megint más hosszat érzékel vízszintesen. - A legsúlyosabb - elvi - hiba az, ha ugyanazt az adatot tüntetjük föl két dimenzióban (pl. csoportátlagokat körterülettel érzékeltetve) - a terület dolgát az oszlopdiagramokkal kapcsolatban már szemügyre vettük. Nem csak a téglalapra vonatkozik ez; a kör sem kedvezõbb... Ezek szerint nem is lehet szabályokat adni a vizuális megjelenítésre? Nem lehet. Ez az adatoktól és tõlünk függ. Természetesen, megfelelõ gyakorlattal az egyes ábrák, diagramok készítése is szinte "ösztönösen" fog megtörténni. Jó ábrát csak kellõ átgondoltsággal, az elvi alapok ismeretével lehet készíteni - függetlenül attól, hogy e tevékenységünket mennyire támogatja valamilyen zseniális számítógép, vagy szövegszerkesztõ.
Relatív gyakoriság Több diagramunkon is látható volt a "relatív gyakoriság" megnevezés. Ebben az esetben a (függõleges) tengelyen nem az adott osztályba sorolt adatok számát, hanem a minta összelemszámához viszonyított (%-os) értékét adjuk meg. Ha a mi - rendezett - mintánknál 10 mintaelem esik egy osztályba: ez abszolút gyakoriság; de a 200-hoz képest ez csak 5 %-os relatív gyakoriságnak felel meg. Ezt az értéket mindig ki tudjuk számítani a minta összelemszámának ismeretében: a gyakoriságok 100-szorosát osztjuk az elemszámmal. (Itt a példában történetesen 200-zal.)
Az eloszlások fajtái: folytonos és diszkrét eloszlások Vegyük szemügyre a 2. diagram képét! Egyszerûség kedvéért ide is másoljuk (mellõzve a skálabeosztásokat):
6. ábra Vessük föl a kérdést: vajon meg fog-e változni a görbe "fazonja", ha megváltoztatjuk az osztályközöket? Próbáljuk ki azt az esetet, amikor mint ahogy elõbb már írtuk is - tízes terjedelmû osztályközöket definiálunk!
7.ábra Világos: megváltozott. A legfontosabb különbség az, hogy eltûntek a grafikon bal- és jobboldali "vállai", meg - talán - mintha karcsúbb, "gótikusabb" is lenne. (Itt csak megjegyezzük, hogy nem véletlenül nem tüntettük föl a tengelyeken a skálázást: természetesen, mind az abszolút, mind a relatív gyakoriságok megváltoztak - az osztályszélességekkel együtt -; a 7. ábra grafikonjának maximum-értéke pl. abszolút gyakoriságban 53, ami relatív gyakoriságként 26,5 %-nak felel meg.) Ezek szerint a gyakorisági eloszlás ennyire érzékeny lenne minden, csoportosításbeli változtatásra? Igen, ennyire érzékeny. Minden újabb osztály-választáskor más és más alakú görbét kaphatunk. Ami azonban mindegyikben megegyezik: a görbe jellege. Ha megállapítjuk, hogy a görbe pontos alakja az osztálybasoroláskor meghozott döntésünktõl függött, akkor a görbe menetét a "véletlen" alakította ki.
Miért mondhatjuk ezt? Elsõsorban azért, mert egyik osztályszélességmegállapító módszerrõl sem jelenthetjük ki, hogy eleve jobb lenne a többinél; valamint azért, mert nem tudtuk elõre az eredményt akkor, amikor az osztályok terjedelmét elgondoltuk. Emiatt azokat a következtetéseket, amelyeket az eloszlásgörbe alapján vonunk le, mindig az egésznek a jellegére nézve kell megtennünk: sohasem "ragadhatunk le" apró részleteknél. Nem túl sok olyan jellemzõt tudunk felsorolni, amit csak így, "ránézésre", meg tudnánk állapítani a görbérõl, de azért van ilyen. Az eloszlásgörbék szimmetriája fontos tulajdonság. Egy ilyen görbe lehet szimmetrikus, vagy ferde. A példaként - kétféleképp is ábrázolt - eloszlásgrafikon mérsékelten ferde; éspedig "jobbra" ferde, hiszen a görbe jobbfelé nyúlik el inkább. Azt, hogy a két görbe ugyanazt az eloszlást tükrözi-e, avagy különbözõeket: ránézésre pontosan megállapítani nem lehet - az eddig már elmondottak miatt. A matematikai statisztika eszköztára elsõsorban éppen erre való: objektív módszereket alkalmaz az eloszlások vizsgálatára (tehát pl. épp az említett ferdeség, ill. az eloszlások megegyezése tekintetében). Az az "önkényesség", amit a csoportbeosztásnál alkalmazunk, annál kevésbé fogja befolyásolni a görbealakot, minél nagyobb az osztályok (kategóriák) száma. Képzeljük el azt, hogy egy nagyon nagy mintánk van. Vegyünk föl egyre több és több osztályt, egymás utáni új csoportosításokkal. A gyakorisági eloszlást ábrázoló törtvonal - pontjai szaporodtával - egyre jobban "kisimul", és egyszer végre már "görbe" is lesz. Mindez csak akkor várható el, ha az osztályszélesség már olyan kicsi, hogy az osztályközepet jelentõ pontokat már nem lehet egyenes szakaszokkal összekötni, hiszen ezek a pontok egymás mellé kerülnek. Ez pedig csak akkor történhet meg, ha mintánk végtelen sok elemet tartalmaz. Az ilymódon "kisimított" görbe már nem a minta, hanem a populáció eloszlását mutatja majd - feltéve, hogy a populáció folytonos (ebbõl következõen: végtelen). A következõk során minden populációt - hacsak külön nem említjük végtelennek tételezünk majd fel.
A diszkrét eloszlás A nem mérhetõ adatok (legyenek azok akár megállapítható adatok, akár számértékek) sohasem folytonosak, ebbõl következõen gyakorisági eloszlásaik grafikonja sem fog hasonlítani az eddigiekhez - kivéve a 4. ábra "kakukktojását". Maradjunk is mindjárt ennél a példánál! Ha az az adatunk, hogy valaki férfi, vagy nõ-e, akkor az emberek (a populáció) a két osztály (kategória) valamelyikébe kell, hogy tartozzanak. A két osztály között - még akkor is, ha az abnormális eseteket is figyelembe vesszük - nincs folyamatos átmenet. Ebbõl kiindulva a folyamatos eloszlás ellentétének vesszük ezt az esetet - és az ilyenfajta eseteket - és diszkrét eloszlásnak nevezzük. Ilyenkor az adatok nem tetszõleges közelségben, hanem meghatározott távolságban, egymástól elszigetelten helyezkedhetnek csak el. A diszkrét és a folyamatos eloszlásra alapvetõ példa - s ez egyben a mért adatok eloszlását is egyértelmûen meghatározza - a digitális és az analóg mérési/jelfeldolgozási eljárás közötti különbség. (Legegyszerûbb példa erre az idõ mérése analóg, vagy digitális órával; a hangrögzítés témakörébõl két példát is hozhatunk: ugyanilyen különbség van a CDtechnika és az LP-lemez lejátszása, valamint a DAT-magnó és a "mezei" magnókazettás hangvisszaadás között). A - már említett - férfi-nõ példára most nézzük meg, hogy milyen volt a magyar populáció nemek szerinti megoszlása 1991. január 1-jén (népszámlálási adat):
5382658 4972184
5000000 4000000 3000000 2000000 1000000 0 nõ
férfi
8. ábra
[Ne feledjük el, hogy a diagramszerkesztési "jótanácsoknál" már írtunk a "kétdimenziós" ábrázolástechnika csapdáiról. Itt megint egy ilyen kelepce lehetõsége van elõttünk: a férfi-nõ eloszlás egyértelmûen diszkrét. Ha viszont az egyes kategóriákon belül kíváncsiak lennénk az életkor eloszlására, az meg egyértelmûen folyamatos eloszlás. A kettõt egymással kombinálni csak "józan ésszel" érdemes: ekkor kapjuk a jólismert "korfá"-t. Ugyancsak az 1991. január 1-jei adatokat használva, s az osztályközöket - kivéve az elsõ évükben levõ állampolgárokat - 5 évnek választva: 450000
férfiak
400000
nõk
350000 300000 250000 200000 150000 100000 50000 0 0
1
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 év
9.ábra: a magyar népesség nem és korcsoportok szerint A szokásos - a KSH által publikált - korfa-ábrázolástól ez a grafikon némileg eltér: elõször is a tengely nem függõleges, hanem vízszintes; másodszor pedig a két kategóriát a tengelynek ugyanazon az oldalán mutattuk be. A megszokott ábrázolásformánál a két kategória a tengely két oldalán, egymással szemben jelenik meg. Ennek oka az volt, hogy hamarjában a GRAPH-ba csak az adatokat vittem be, és ábrázoltattam: nem akartam túlságosan sokat kísérletezni (a korfa-jelegû grafikonforma - úgy tûnik - nem alapszolgáltatása, s csak valamilyen, elõttem még ismeretlen "trükkel" lehet megcsinálni). Ettõl függetlenül, a 9. ábra alkalmas néhány - elsõsorban demográfiai - következtetés levonására is; nevezetesen, ami a magasabb életkorban a nemek közti különbséggel függ össze: ezen az ábrázoláson jobban látható, hogy 45 éves életkor fölött a férfi népesség rohamosabban csökken a nõinél. (Ezt biológiai és társadalmi okok egyaránt eredményezhetik.) Újra emlékezzünk az ábrázolásmód megválasztásának gondjaira: a példa kapcsán - a 8. ábra helyett - lehetett volna kör-/tortadiagramot is alkalmazni; a 9. ábra helyett pedig vonaldiagramot.]
Egy újabb példát hozva a diszkrét eloszlásra, hadd említsem meg azt a klasszikus esetet, amit minden - magára valamit is adó - valószínûségelméleti bevezetõ felhoz: a kockadobásra gondolok. Belátható, hogy ez aztán igazán diszkrét eloszlást kell, hogy eredményezzen: a szokásosan használt dobókocka a gravitáció hatására valamelyik lapjára kell, hogy essen (én még nem láttam kockát valamelyik csúcsán megállni, vagy "fennmaradni" a levegõben); s szokásosan azt tekintjük a dobás értékének, amelyik a fölfelé nézõ lapon van - így ez 1, 2, 3, 4, 5, vagy 6 lehet. Hogy ezt szemléltessem, most, írás közben csináltam egy sorozatot éppen 100 dobást, hogy az abszolút és a relatív gyakoriság egybeessen -, egy speciális - tízoldalú - »dobókockával«, vagy, ahogy más néven szokás mondani a lapok számát jellemezve: egy dekaéderrel (az ilyen, és ehhez hasonló 8-, 16- és 20-oldalú kockákat fantázia-szerepjátékokban használják). A százas sorozat az alábbiakat eredményezte: 0-ból 9-et; 1-bõl 13-at; 2bõl 11-et; 3-ból 12-t; 4-bõl 5-öt; 5-bõl 11-et; 6-ból 13-at; 7-bõl 11-et; 8-ból csak 2-t és 9-bõl 13-at. Ennek a diszkrét eloszlásnak a grafikonja:
13
14
11
12 10
13
12
11
13 11
9
8 5
6 4
2
2 0 0
1
2
3
4
5
6
7
8
9
10. ábra: dekaéder-"dobókocka" 100-as sorozata ...De szép is lett volna, ha ez az eloszlás kicsit egyenletesebben alakul... Ebbõl is látszik, hogy ez a valóság, nem elmélet. (Annak eldöntése, hogy vajon a hatos és a kilences - ezek ugyanis egymással szemben vannak - gyakoriság-érték a véletlen mûve-e, vagy pedig egy kiegyensúlyozatlan dekaéderrel állunk-e szemben, az eloszlás ilyen megközelítésénél, sajnos, nem fog menni. De pontosan a matematikai statisztika tárgya az ilyen vizsgálatok elvégzése.)
!
Jellegzetes példa még a diszkrét eloszlásra a pénzzel (érmével) végzett "fej, vagy írás" -játék is.
Az eloszlások típusai Az eloszlások típusaival, tulajdonságaik felderítésével és megismerésével a valószínûségszámítás foglalkozik. A matematikai statisztika viszont minden megállapítását, következtetését erre alapozza. A statisztikai módszerek használatánál az eloszlások ismerete hasznos, de nem elengedhetetlen. A mélyebben érdeklõdõk számára a bõséges magyar nyelvû valószínûségszámítási szakirodalmat ajánljuk. Itt csak néhány eloszlásról szólunk, vázlatosan. A diszkrét eloszlások közül az egyik legfontosabb az ún. egyenletes eloszlás. Ez a lehetõ legegyszerûbb eset: valamennyi értékhez ugyanakkora gyakoriság tartozik. A relatív gyakoriság a különbözõ kategóriák, osztályok számának reciprokával egyenlõ: a "férfi-nõ", ill. "fej, vagy írás" esetében két osztály van, s ezért egyketted, azaz 0,5 (50 %) a relatív gyakoriság; a dobókockánál egyhatod (0,167 = 16,7 %); a 10. ábránál alkalmazott dekaédernél egytized (10 %); de az az eloszlás nem volt egyenletes... A folytonos eloszlások közül a legfontosabb a normális eloszlás. Leírása legpontosabban azzal a matematikai egyenlettel lehetséges, amely egyben az eloszlás görbéjét is meghatározza. Egy ξ (kszí) folytonos valószínûségi változót normális eloszlásúnak nevezünk akkor, ha az egész számegyenesen értelmezve van (- ∞-tõl + ∞-ig), és eloszlásfüggvénye az alábbi (µ - várható érték, σ - szórás paraméterekkel):
1 F (x ) = P(ξ < x ) = σ 2π
x
e
−
( t − µ )2 2σ 2
dt
−∞
a függvénygörbe pedig - amit az ún. "sûrûségfüggvény" ír le:
11. ábra: a normális eloszlás grafikonja
"
A normális eloszlás folytonos, szimmetrikus eloszlástípus. A grafikon, a függvény görbéje haranghoz hasonlít, a csúcsa lekerekített - sem lapos, sem hegyes nem lehet. Mindezek miatt "harang-görbének", vagy Gaussgörbének is szokták nevezni. Kétoldalt messze (elvileg végtelen messze) elnyúlik, de a maximumához viszonylag közel már annyira megközelíti az x tengelyt, hogy sem rajzolni nem lehet, sem számításba venni nem kell. Jellegén belül formája nagyon változatos lehet: kiemelkedõbb, vagy lapultabb; a függõleges y tengelyt is metszheti. Kiemelését két dolog is indokolja: elsõül, hogy a legtöbb statisztikai eljárást, módszert (köztük éppen a legérzékenyebbeket, a "legjobbakat") éppen a normális eloszlásra dolgozták ki. Másodsorban - és talán ez a lényegesebb - nem is a matematikai egyszerûsége miatt foglalkoznak annyit vele: a természetben rengeteg jelenség eloszlása normális eloszlás. Ez ugyan gyakorlati tapasztalat, de a valószínûségszámítás egyik alapvetõ jelentõségû tétele, az ún. "centrális határeloszlástétel" is alátámasztja. A centrális határeloszlás tétele kimondja, hogy az eredetileg nem szükségképpen a normális görbével jellemzett mintasokaságból, populációból vett minták csoportjainak középértékei közelednek a normális eloszláshoz. Ez annyit jelent, hogy ha valamely értéket sok apró, egymástól független hatás együttesen alakít ki, akkor ez az érték normális eloszlású lesz, függetlenül attól, hogy maguk a hatások - ha elszigetelve tudnánk õket vizsgálni - milyen eloszlásúak. A való világ - különösen az élõ világ legtöbb tulajdonsága, bizony ilyen. A többnyire ismeretlen hatótényezõket nem keressük, csak azok "eredõjét" érzékeljük. Ha ezeknek a mért értékei alkotják mintánkat, akkor azok eloszlása az idézett tétel értelmében normális lesz. Éppen ezek miatt az elõnyök miatt törekszünk arra, hogy adataink normális eloszlásúak legyenek. Ritka eset, hogy ezt a mérési módszer megválasztásával megtehetjük; jobbára a már meglévõ adatok matematikai átalakításával, transzformációjával érjük el. A továbbiakban - ha csak említés szintjén is - bemutatunk még néhány eloszlástípust.
#
Binomiális eloszlás A diszkrét eloszlások nagyon sok esetben megállapítható változók viselkedését írják le jól. Abban a - legegyszerûbb - esetben, ha a változó csak két értéket vehet föl - hasonlóan a logikai értékekhez -, akkor az értékek eloszlása binomiális eloszlást határoz meg. (Ez - bizonyos esetekben jól közelíthetõ normális eloszlással).
Hipergeometrikus eloszlás Ehhez az eloszlástípushoz az a kérdés vezet, hogy mi a valószínûsége annak, hogy egy urnából, melyben N golyó - köztük M fekete - van, n-et találomra kihúzva (n elemû mintát véve) éppen k feketét találunk azok között. A hipergeometrikus eloszlás bizonyos szempontból rokon a binomiális eloszlással: ha a golyókat visszatesszük, a soronkövetkezõ húzás eredménye független az elõzõektõl, s ezt a binomiális eloszlás írja le.
Poisson-eloszlás A diszkrét eloszlások közül legfontosabb a Poisson-eloszlás - amely a binomiális eloszlás határeseként (bizonyos feltételek mellett) valósulhat meg. Az ad neki ekkora jelentõséget, hogy igen gyakran lép fel a természetben és jó közelítését adja a gyakorlatban elõforduló véletlen változónak. Azt tapasztalhatjuk, hogy a pontok tér-, vagy idõbeli elhelyezkedése akkor követ ilyen eloszlást, ha azok egymástól függetlenül és minden térrészben (idõszakaszban) egyformán valószínûen oszolhatnak meg. Ilyen eloszlást mutat - többek között -: - a leszálló porszemek száma a tiszta papírlapon; a vérsejtek száma egy mikroszkóp látóterében [síkbeli eloszlások]; - egy folyadékban, ill. annak meghatározott részében levõ kolloid részecskék száma; a csillagok száma a tér egy kiválasztott szeletében; a halaké a vízben; folytonos, homogén anyag (üveg, fémtest) adott részében található idegen részecskék, buborékok száma [térbeli eloszlások]; - a telefonközpontba (vagy szolgáltató egységbe) adott idõszakban és idõtartamban beérkezett telefonhívások (vásárlók) száma; valamely rádioaktív anyag adott idõ alatt elbomló atomjainak száma; textilgyárban - meghatározott körülmények között - adott idõtartamra esõ fonalszakadások száma [idõbeli eloszlás], stb.
$
Exponenciális eloszlás Exponenciális eloszlást követnek bizonyos gépi berendezések élettartamai, azonban egy-egy alkatrész élettartama általában nem exponenciális eloszlású. Az exponenciális eloszlású élettartam nevezetes, ún. "örökifjúság" tulajdonságú: feltéve, hogy a darab (egyed) egy bizonyos kort megért, ettõl kezdve további élettartamának eloszlása megegyezik eredeti élettartamának eloszlásával. A valóságban az alkatrészek "öregszenek"; tehát az ilyen feltételezések csak közelítõen, és az élettartamnak csak bizonyos idõszakaira érvényesek. (Ezért szokták néha alkatrészek élettartamának eloszlását szakaszonként exponenciális eloszlással közelíteni).
Student (t-) eloszlás Ezt az eloszlást W.S. Gosset állította fel a XX. század elején, s mivel ebben az idõben "Student" álnév alatt írt, ezért lett ennek az eloszlásnak a neve: Student-eloszlás. Formálisan egy t statiszikai függvény eloszlásáról van szó. Statisztikai próbákban használatos a t-eloszlás táblázata.
Lognormális eloszlás Bizonyos törési-aprítási folyamatoknál az õrlemény szemcsedarabjainak nagyság szerinti megoszlása lognormális eloszlást mutat. Ugyancsak jól közelíthetõ lognormális eloszlással egyes foglalkozási rétegek jövedelemeloszlása.
A középérték mérõszámai Most már túlestünk a legszükségesebb - eloszlásokkal kapcsolatos, tulajdonképpeni valószínûségszámítási - elemi ismereteken, de az az igazság, hogy a gyakorisági eloszlás, ha jóval kevesebb adat figyelembevételét is követeli meg a mintánál, meglehetõsen nehezen jellemezhetõ. Jó lenne az adatokat - lehetõleg - minél tömörebben jellemezni. Ilyenkor gondoljunk mindig az eloszlás ábrájára! (Általában is igaz, hogy - mivel az emberek nagyrésze vizuális típusú - az ábrák könnyítik a megértést. Egyszerûbb görbérõl, grafikonról beszélni, mint az "osztályok" és az "egyes osztályokba kerülés gyakorisága" - tulajdonképpen teljesen elvont - fogalmairól...)
%
Ha magunk elé képzelünk egy eloszlásgörbét, akkor ezekután világos, hogy a legjobb jellemzés az elhelyezkedéssel kapcsolatos. Keressük meg azt a lehetõséget, amely ezt a legjobban jellemzi!
12. ábra Ha vizsgálódunk a görbe egész menetén, az eloszlás végei erre nem igazán látszanak praktikusnak. De hiszen miért is akarnánk a "legnagyobb", vagy a "legkisebb" adatával jellemezni? Kézenfekvõ a választás: jellemzzük hát az eloszlás közepével. A problémát ezzel nem oldottuk meg: ha megkérnénk valakit, hogy válassza ki pl. a 12. ábra eloszlásgrafikonjának "közepét" (ahol a görbe "úgy tesz", mintha megszûnne, aztán mégsem), valószínûleg rögtön kiderülne, hogy mindenki mást ért "közép" alatt. Ez természetes is. A "közép" jelentését mindannyian érezzük; de ez nem jelenti azt, hogy jelentését precízen meg is tudnánk fogalmazni. A matematikai statisztika nem veti el a különbözõ jelentésárnyalatokat, inkább "magába olvasztja" a különbözõ "közép"-fogalmakat; igaz, hogy mindegyiket másképp nevezi. Mielõtt konkrét tárgyunkra térnénk, megjegyezzük, hogy az itt tárgyalt gondolatmenetek csak mérhetõ (folytonos) adatokra vonatkoznak.
A modus (módusz) Bármely gyakorisági eloszlás görbéjét tekintjük: mindig értelmezhetünk olyan értéket - vagy osztályközt - amelyre igaz, hogy ennek a legnagyobb a gyakorisága a mintában. Ez a leggyakoribb érték: a modus.
[Jelentése - latinul -: mérték, határ, mód. (Itt - nyilván - mérték.)] Nézzünk erre egy grafikus példát: 50 45 40 35 30 25 20 15 10 5 0
modus
13. ábra Amennyiben osztályközepekkel dolgozunk, úgy is mondhatjuk, hogy a modus tulajdonképpen annak az osztálynak az osztályközepével egyenlõ, amelyhez a legnagyobb gyakoriság tartozik. Ez egyszerû eset. Igen ám, csakhogy ez elég ritka... Nézzük pl. az alábbi görbéket:
1.
2.
3. 14. ábra
Az ábrán sikerült összeszedni néhány tipikusan utálatos esetet: a 14/1. görbénél nem tudjuk meghatározni a modust (azazhogy mindjárt kettõt is találunk, s ez pont eggyel több a "kelleténél"). Az ilyenfajta - többcsúcsú eloszlások arra figyelmeztetnek, hogy a mintánk nem volt homogén [egynemû]. Ha a minta nem az, akkor valószínû, hogy a populáció sem volt az; ezek szerint - ha pl. az ország lakosainak testmagasságáról van szó - ez azt jelenti, hogy a férfiaknál és a nõknél az átlagos testmagasság értéke nem ugyanaz. Ilyenkor az eloszlásgörbe alapján érdemes "szétszedni" a mintánkat (többcsúcsúnál - nyilván - több részre), s minden rendben lesz.
A 14/2. görbénél is nehéz az élet. Egy szép nagy "plató" - matematikai kifejezéssel élve: konstans - teszi ki az eloszlás egyharmadát. Mondjuk azt, hogy ha "lapos" az eloszlás csúcsa, akkor ennek a közepe legyen a modus? Vagy: - a 14/3. grafikonnál - mondjuk azt, hogy a két, egymáshoz "közeli" csúcs között, középen legyen a modus?? Egyáltalán: mikor vannak ehhez a csúcsok elégségesen "közel"? Mindegyik kellemetlen, fogós kérdés. Éppen ezért alkalmazzunk egy elegáns kerülõt: Modusról - jele: Mo - csak akkor beszélhetünk, ha az félreérthetetlenül, könnyen meghatározható. Minden más esetben az eloszlásnak más középértékmérõszámát használjuk. Tulajdonképpen most illene krokodilkönnyeket hullatnunk, de nem tesszük. Vigasztaljuk meg magunkat: a modus nem is igazán jellemzõ mérõszám... Megeshet ugyanis, hogy az eloszlás "szélén" van; tehát az eloszlás egészét nem jól jellemzi (pedig erre menne ki a játék). Másrészt - beláthatóan - függ az osztályok számától és az osztályszélességtõl a csoportosított adatoknál - ez egyébként az összes középértéket mérõ számra igaz -; tehát ad absurdum: ugyanabból a mintából, különbözõ alkalmak során más és más modusokat kaphatunk. Nahisz...
A medián Ez az elnevezés (latinul) önmagában is közepet jelent. Úgy határozzuk meg, hogy a vízszintes tengelyen megkeressük azt a pontot, amelytõl jobbra is és balra is ugyanannyi adat van. Ezzel már meg is kaptuk a mediánt (persze, ez nem lesz mindig egyszerû)... Hogy egyszerûbb legyen a dolgunk, emlékeztetünk arra: a gyakorisági görbe (vonal-)grafikonjánál (is) az a helyzet, hogy a görbe alatti terület jellemzi az egyes osztályközökbe tartozó adatok számát -- ebbõl az következik, hogy a medián ezt a - görbe alatti - területet felezi meg. Számszerû meghatározása - példának véve az 1. táblázatot - úgy történik, hogy megnézzük: mintaelemeink száma páros, vagy páratlan-e.
Ezután vesszük a minta-adatokat és - valamilyen módszerrel (én pl. a dBase3+ segítségével csináltam) - növekvõ sorba rendezzük. Ez a minta az ún. "rendezett minta". Ennek a statisztikában fontos szerepe van. Mi itt azonban csak a kényelmi szempontot vesszük figyelembe, s ezért elszámolunk 100-ig. Tételezzük föl, hogy az elemszám páratlan, s 201-gyel egyenlõ. Ekkor a 101-edik elem értéke lesz a medián, amelyet szokás Me-vel is jelölni. Itt van jelentõsége annak, hogy mintánk páros, vagy páratlan számú elemet tartalmaz. Most a páros esetet vizsgáljuk: Megnézzük, hogy a "felényi" elem - a századik- értéke mennyi (75). Ezután vesszük a soronkövetkezõ elemet, és azt is megnézzük (az is 75). Mivel az »osztópont«-nál nem volt értékváltás, megállapíthatjuk, hogy az említett minta mediánjának értéke: 75 (természetesen: kilogramm, hiszen a vízszintes tengelyt vettük vizsgálat alá). Megvizsgáljuk azt az esetet is, amikor az osztópontban értékváltozás következik be: tételezzük föl, hogy a 200 elemû - rendezett - minta 100. eleme 75 (kg); a 101. eleme pedig 76 (kg). ilyen esetben az osztópont (itt, a mediánnál, nyilvánvalóan: "felezõpont") közvetlen közelében levõ két mintaelem értékének számtani középértékét vesszük: (75+76):2 = 75,5 (kg) ekkor a medián. Trükkösebb a helyzet csoportosított adatok esetén. (Vö. a 2. táblázattal.) Összeadjuk a gyakoriságokat az egyes osztályokban, s a 72-est is beszámítva (VIGYÁZAT! Az osztály minden adatát az osztályközéppel azonosítjuk!!) csak 92-ig jutunk el. A Me tehát valahol a következõ osztályban kell, hogy elhelyezkedjen. Ha ezt a (77-es osztályközepû, 27 elemet tartalmazó) osztályt elképzeljük, akkor a 2. grafikonnál említett »Másképp..«-felfogást alkalmazzuk. Eszerint a 74,5-tõl a 79,5-ig tartó osztályt 27 - egyenlõ - kis szakaszra osztjuk fel (mindegyik kis szakasz egy mintaelemnek felel meg). Keressük a 8. és 9. szakasz között a határpontot, ez lesz a Me. Belátható, hogy ha az osztályt arányosan osztjuk föl (8 -- 19 arányban), akkor megkapjuk a mediánt. A jólismert aránypárt alkalmazzuk: x : 5 = 8 : 27 ; ebbõl x = (5*8) : 27 = 1,48. Ezt a számot adjuk hozzá a valódi osztályhatárhoz, 74,5-höz, hiszen még ennyi "távolság" kell az osztályból a mediánig.
Me = 74,5 + 1,48 = 75,98 (természetesen, itt is kg). Vegyük észre, hogy ez nem volt más, mint a matematikából már - a függvénytábla-kezeléskor - jólismert (lineáris) interpoláció. Az arányos osztás gondolatmenete a statisztikában is gyakran elõkerül. Az így meghatározott medián alig tér el a Mo-tól (77). Ez olyankor van így, ha az eloszlás szimmetrikus. Abban az esetben, ha az eloszlás ferde, a Me elvándorol a csúcstól a ferdeség irányába. Megjegyezzük, hogy a rendezett, teljes minta modusa 75 (kg). Látható, hogy a teljes - rendezett - és a csoportosított minták középérték-mérõszámai valóban különböznek egymástól. De hisz ezt is ígértük. Nyilvánvalóan, a teljes mintával számolt Mo és Me a "pontosabb"; azaz jobban jellemzi az eloszlást.
A kvantilisek "Kvantálni" annyit jelent, mint részekre osztani. A Me kiterjesztéseként szokás értelmezni ezeket, a decilis tíz, a centilis száz - egyenlõ részre osztja fel mintánkat (mint ahogy a medián két részre). A statisztikai gyakorlatban a kvantilisek közül egyet szokás használni, ezek az ún. kvartilisek - jelük: K -, amelyek négy részre osztják a mintát. A K1 kvartilis a minta egynegyedét választja el a többi háromnegyedtõl; a K 2 kvartilis a kétnegyedét azaz: felét (s így K 2 = Me) a másiktól; a harmadik kvartilis ( K 3 ) a háromnegyedét - gyakorlatilag az ennél nagyobb adatok teszik ki a minta egynegyedét. Mivel csak egy hang/betû különbség van a két elnevezés között, érdemes vigyázni, össze ne keverjük õket. (A kvartilisek kiszámítását nem részletezzük; a gondolatmenetek teljesen analógok a Me meghatározásánál írottakkal.)
A mintaközép, vagy átlag (average) Ez egy kedves, régi ismerõs, "lánykori nevén": két szám átlaga, ill. két szám számtani közepe. Most kiterjesztjük az átlag fogalmát, de ehhez néhány jelölésbeli konvenciót (megegyezést) kell figyelembe vennünk. Az adatokat az x, y, z, stb. betûk valamelyikével jelöljük, és egymástól való megkülönböztetésük céljából - a vektorokhoz és a mátrixokhoz hasonlóan - indexszel látjuk el. (Általában az x-et szeretjük; megszoktuk.)
Az 1. táblázatbeli mintánk ilyenformán az alábbi formájú lesz:
x1 , x 2 , x 3 , ... , x n ; az utolsó adat indexe - szokásosan - n. Ez tulajdonképpen a minta elemszáma. (Ha a mintanagyságról beszélünk, akkor erre gondolunk, nem pedig arra, hogy milyen nagyságúak az adatok.) Általában egy mintaelemrõl beszélve, nem szoktunk számokat írni az indexhelyekre, hanem az i, j, k, l betûk valamelyikét - szokásosan az i-t használjuk, s az ilyen indexet futó indexnek is szokták nevezni. Az átlag, más néven számtani közép úgy nyerhetõ, hogy az adatok összegét elosztjuk azok számával. Definíciónk alapján ki is tudjuk számolni, x ("x felülvonás"-sal jelölve):
x=
x1 + x 2 + x 3 + ... + x n n
Tessék csak elképzelni, milyen kéjes érzés lehet ezt a képletet az 1. táblázat 200 elemére behelyettesíteni... Éppen ezért a hosszú, unalmas és hibalehetõségekkel terhelt megoldás helyett egy új szimbólumot alkalmazunk: n
x1 + x 2 + x 3 + ... + x n = ∑ x i = ∑ xi , i =1
ahol a Σ az összegzés jele ( a görög nagy szigma-betû); és függetlenül a jel görög eredetétõl, latin szóval szummának nevezzük. Jelentése az, hogy nem valamelyik, hanem mindegyik mintaelemet összeadandóként vesszük. A matematikai szempontból precíz jelölés az elsõ szumma-jel - itt feltüntettük az összegzés "határait" -, de, ha külön nem írunk a szummajelre semmit, szokásosan n-szeres összeadást értelmezünk. Az összeadási mûveletre vonatkozó szabályokat a Σ-val is megfogalmazhatjuk (a egy tetszõleges konstans):
∑(x
i
+ a ) = ∑ x i + ∑ a , ahol tulajdonképpen
∑(x A
i
∑ a = na , tehát:
+ a ) = ∑ x i + na .
∑ a = na összefüggést érdemes megjegyezni, sokszor elõfordul.
!
Egy másik összefüggés egy állandó szorzótényezõ kiemelése:
∑ 2x
i
= 2∑ x i .
Természetesen, a csoportosított mintánál nem ez a helyzet. Amennyiben az osztályközepeket az u1 , u2 , ..., un ; a hozzájuk tartozó gyakoriságokat az f1 , f2 , ..., fn jelekkel jelöljük, az átlag az alábbi - meglehetõsen csúf - képlettel számítható: m
∑f u i
x=
i
i =1 m
∑f
m
,
ahol
∑f
i
= n.
i =1
i
i =1
És - mint emlékszünk rá - n a mintaelemszám.
Nézzük ezt a 2. táblázat - kissé átigazított - formáján! osztályközepek 42 47 52 57 62 67 72 77 82 87 92 97 102 107 112 117 122
gyakoriságok 3 1 6 13 19 24 26 27 26 18 14 5 8 4 3 2 1
fi ui 126 47 312 741 1178 1608 1872 2079 2132 1566 1288 485 816 428 336 234 122
m
A
∑f u i
i
összeg értéke 15370, tehát az átlag 76,85 (kg) lesz.
i =1
"
Az átlag néhány fontos tulajdonsága Az átlag pontossága Érdemes megbeszélnünk, hogy - az osztás miatt, amely a lehetõ legkevesebbszer végezhetõ el pontosan - vajon mennyi számjegyre érdemes kiszámítani az átlagot. Gyakorlati útmutatásul annyit adhatunk, hogy az átlagot eggyel több jegyre adjuk meg, mint ahányra a mintaelemek - az adatok - voltak. Ha tehát adataink egész számok, az átlagot egy tizedesjegy pontossággal kell megadnunk. (Ennél az utolsó jegynél azonban már kerekített értéket adjunk meg, tehát a második tizedesjegy értékét is figyelembe kell vennünk.) Csak megjegyzem, hogy a dBase AVERAGE-parancsával a teljes rendezett minta átlaga 76,31 (kg)-nak adódott. Az átlag, mint súlypont A Mo és Me viszonylag könnyedén volt értelmezhetõ geometriailag, és ha az átlagot is megpróbáljuk ilyformán értelmezni, akkor az alábbi következtetésre jutunk: az átlag a vízszintes tengelynek abban a pontjában van, ahol az a függõleges egyenes metszi a tengelyt, amely mentén az eloszlásgörbét úgy lehet alátámasztani, hogy egyensúlyban legyen. Ha a súlypontra a fizikában tanultakat alkalmazzuk (azaz, hogy ez az a pont, melyre nézve a forgatónyomatékok összege 0-val egyenlõ), az alábbi képlethez jutunk:
∑(x ∑(x
i
i
− x ) = 0 ; amelyet egyszerû átalakítással bizonyítunk:
− x ) = ∑ x i − ∑ x = ∑ x i − nx = ∑ x i − n
∑x n
i
= ∑ xi − ∑ xi = 0 .
(Az átalakítás közben a negatív elõjelet éppen úgy emeltük ki a Σ-jel elé, mint bármilyen más állandó szorzótényezõt, hiszen a negatív elõjel a -1 szorzónak felel meg.) A
∑(x
i
− x ) = 0 egyenlõséget érdemes megjegyeznünk.
Ugyanis a matematikai statisztika igen gyakran kihasználja. Ezen felül - ha belegondolunk -, ugyanolyan jól jellemzi az átlagot, mint az eredeti definíció. Ha úgy tetszik, akár definiálhatjuk is x -ot ennek segítségével...
#
Az átlag érzékenysége Ahogy a Me-nál - a lineáris interpoláció után - említettük, ferde eloszlásoknál a medián "elvándorol" a ferdeség irányába. Ezt az átlag is tudja, sõt, jobban, mint a Me. Ami annyit jelent, hogy az átlag érzékenyebb, azaz a "kilógóan" kicsi/nagy értékeket jobban figyelembe veszi. Egymodusú, szimmetrikus eloszlásoknál - emlékeztetünk: a normális eloszlás ilyen - a modus, a medián és az átlag ugyanoda esik. Az ilyen típusú eloszlásoknál tehát beszélhetünk az eloszlás "közepérõl", a középérték-mérõszám pontosabb megjelölése nélkül is. Ezt azonban - most, hogy mélyebben megismertük ezeket - nem ajánljuk. Az átlag értelmes használata Most, hogy áttekintettük a gyakorisági eloszlások középérték-mérõszámait, s megállapítottuk, hogy az átlag kiválóan megfelel arra a célra, hogy az eloszlást jellemezzük vele, mielõtt még túlságosan is megörülnénk, nem lesz haszontalan néhány fenntartást is rögzítenünk. Van olyan eset, ha nem is sokszor, amikor az átlag vagy hamis képet ad az eloszlásról, vagy egyszerûen csak értelmezhetetlen. Sajnos, gondolkodásmódunkba annyira beleivódott az »átlagelv«, hogy ilyen eseteken hajlamosak vagyunk keresztülsiklani. Az elsõ esetre a mediánnál hosszabban - a többcsúcsú eloszlásoknál írt fejtegetésünk szellemében csak a közismert "Átlag János és családja"jellegû statisztikai/szociológiai adathalmazokat és a rajtuk alapuló elemzéseket hozzuk föl. Az átlagolás absztrakciója folytán nyert átlag-adat nagyon sok esetben nem is található meg az eredeti eloszlásban. A második esetre - amikor nincs jelentéstartalma az átlagnak - két példát hozunk: - ha az ember (mondjuk, egy dögmeleg nyáron) elmegy a boltba, és tejet vesz, megesik, hogy otthon szomorúan konstatálja: ez a tej bizony megsavanyodott. Abban a döntésben, hogy visszamenjen-e a boltba, és új kísérletet tegyen, korántsem az »átlag-elv« vezérli. Ha ugyanis úgy dönt, hogy visszamegy, és vesz még egyet, arra gondol: remélhetõleg ez a vásárlás már sikeres lesz (azaz: a tej élvezhetõ, emberi fogyasztásra alkalmas). Döntésében tehát nem a két liter, "átlagosan félsavanyú" tej ábrándképe a motivációs tényezõ. Ezt a - határelemzési - példát a Közgazdaságtan (Mikroökonómia) szakközépiskolai tankönyvbõl importáltuk.
$
- ha valamely kórház valamely (mondjuk: bel-) osztályán a fõnõvér a fõorvosi nagyviziten a beszámolót valahogy így kezdené: »Osztályunkon a betegek átlaghõmérséklete 37,4°«, valószínûleg mindenki úgy nézne rá, ahogy az ilyen kijelentés megérdemli. Mert ez hülyeség. Egy kórházi osztály összes betegének testhõmérséklet-adatait egy adattal, az átlaggal jellemezni nem lehet. Nem is azért, mert ez összemosná az imént exitált beteg (most már: tetem) lassan hûlõ testhõfokát a magas lázában (mondjuk: 41,5°-on) már-már delirálóéval; hanem azért, mert ilyen esetben a minta nem jellemezhetõ az átlaggal (a Mo és a Me sem alkalmas). Vegyük tudomásul: példáink elsõsorban annak igazolására szolgálnak, hogy ha a sok adatból álló mintát (számítástechnikai frazeológiával: vektort) egy adattal - az átlaggal - (skalárral) jellemzünk/helyettesítünk, mindenképpen információt veszítünk. Van olyan eset, amikor ez nem engedhetõ meg (kórházi példa). Az összes többi esetben ezzel számolnunk kell: ez az ára annak, hogy a könnyebb intellektuális feldolgozhatóság érdekében több adatot (egy eloszlást) egy adatba "sûrítünk". Az átlag, önmagában, nem jellemez elégséges pontossággal egy eloszlást. Ehhez tehát még más is szükséges lenne; fõleg, hogy az "elvesztett" információ egyrészért "visszanyerjük". Az ehhez szükséges statisztikai jellemzõk további tárgyalása elõtt hozunk minderre egy - most iskolai - példát: Legyen két tanulónk: X és Y-ka. (X nagyon okos, de lusta és szeszélyesen készül: ami érdekli, azt megtanulja, sõt, »ragad rá«; de amit nem érez magához közelállónak, azt semmi pénzért. Ezzel szemben Y-ka képességeit tekintve átlagos - de szorgalmas.) Egy tárgyból szerzett érdemjegyeik egy adott idõszakban: X: Y-ka:
1 3
5 3
x=3 y= 3
Látható, hogy x és y megegyeznek egymással (mindkettõ közepes). Ám semmit sem mondanak arról, hogy ez a közepes átlagérték minek az eredményeként alakult ki: X-nél a két végletet "zsugorítja össze", míg Yka esetében egyforma adatokat helyettesít. Fentiekbõl látható, hogy y pontosan, míg x rosszul jellemzi a mintát, azaz az eloszlást (amely itt diszkrét). Ezen csak úgy tudunk segíteni, ha a szóródás mérõszámait is igénybe vesszük a minta jellemzéséhez.
%
A szóródás mérõszámai Bármely középérték csak egy tulajdonságot jellemez igazán pontosan: az eloszlásgörbének a vízszintes tengelyen elfoglalt helyét, s ezt a helyet az eloszlás közepével adja meg.
14. ábra: egybeesõ átlagú minták Ettõl, persze, a minta eloszlása még nagyon sokféle lehet. A 14. ábrán egybeesõ átlagú (s mivel szimmetrikusak, Mo-ú és Me-ú) mintákat ábrázoltunk. Minden "ugyanakkora", mégis különböznek egymástól. Ennek az az oka, hogy az egyes mintákban az adatok szétszórtsága különbözõ mértékû (csakúgy, mint iskolai példánkban). A terjedelem (range) Ez a legkönnyebben meghatározható szóródási mérõszám: a legnagyobb és legkisebb mintaelem különbsége adja meg. Az 1. táblázatban szereplõ minta terjedelme: 80 (megint csak ne feledkezzünk meg a kgról!) A terjedelem meglehetõsen ritkán használt jellemzõ: gyakran elõfordulhat, hogy mindössze egy mintaelem hozzáadásával, vagy elvételével alapvetõen megváltozik. Az interkvartilis félterjedelem Ez a kvartilisek segítségével határozható meg az alábbi formában:
IF =
K 3 − K1 , 2
vagyis a két szélsõ kvartilis közti távolságot osztjuk kettõvel.
Ezzel az értékkel tulajdonképpen a mintának a "medián körüli szóródását" adjuk meg; s ez a jellemzõ nem csak két adatot vesz figyelembe, hanem az adatok felét. Olyan esetekben használatos, mikor a középértéket a mediánnal határoztuk meg, vagy más mérõszámot nem tudunk megadni. Az átlagos eltérés Ha minden elemet figyelembe szeretnénk venni, akkor olyan helyen érdemes kereskedni, mint az átlag, hiszen az minden mintaelemre vo( x i − x ) = 0 képlettel? Sajnos, natkozó középérték. Próbálkozzunk a
∑
erre a célra nem lesz alkalmas. Mivel az átlagtól való - különbözõ elõjelû - eltérések kiegyenlítik egymást, alkalmazhatunk egy kézenfekvõ trükköt: vegyük az x i − x abszolútértéket! Így, mivel az összeg minden tagja pozitív lesz, nem kell kiegyenlítõdéstõl tartanunk. Csakhogy ilymódon összegezve az eltéréseket, még igen kicsiny eltéréseknél is, ha a mintánk nagyszámú, nagy összeget kapunk, ami nem igazán jól jellemezné a szóródást. Ha azonban az összeget elosztjuk a minta elemszámával, akkor már egészen más lesz a helyzet: az ilymódon "fajlagosított", egy adatra esõ eltérés értéke már valódi jellemzõ lesz. Ez az átlagos eltérés (AE):
AE =
∑x
i
n
−x
.
Az abszolútérték-függvény szabályszerûségei miatt mégsem ez a legcélszerûbb szóródási mérõszám. Elsõsorban azért, mert késõbbi vizsgálati fázisban (tehát akkor, amikor már nem a leíró statisztika fogalomkörébe tartozó, hanem matematikai statisztikai jellemzõkkel dolgozunk) nem igazán tudunk vele mit kezdeni.
A variancia és a szórás Másképpen is elérhetjük az átlagtól való eltérések pozitív mivoltát: ha ezeket négyzetre emeljük, megszabadulunk a nem igazán kényelmes abszolútérték-képzéstõl. Az átlagtól való eltérések négyzetének átlaga a variancia, s az ebbõl vont négyzetgyök után kapjuk a szórást. (Ne felejtsük el, hogy adatainknak - pl. fizikai - tartalma van. A kg 2 -nek viszont - ha alappéldánkra gondolunk - nincs. Ezért kell gyököt vonni.)
Nézzük ezt képlet-formában! A variancia (más néven szórásnégyzet):
s2 =
∑(x
s=
∑(x
i
− x )2
n −1
;
a szórás pedig: i
− x )2
n −1
.
Elõzõ oldalon tett ígéretünktõl eltértünk: ott azt mondtuk, hogy a négyzetes eltérések átlagát számítjuk ki a varianciánál, s ehhez n-nel, a mintaelemszámmal kellett volna osztanunk. Ehelyett az osztó n-1 volt. Ez elvi okokra vezethetõ vissza. A szabadságfok A variancia nevezõjében levõ n-1 értéket szabadságfoknak nevezzük. A matematikai statisztikában nagyon sokszor fog szerepelni ez a fogalom, épp ezért - habár elméletileg még nem vagyunk kellõen megalapozottak mindenképpen körül kell írnunk. Az osztást az n-1 értékkel végezzük el (az n helyett), mintha valójában csak ennyi négyzetes eltérést kellene átlagolnunk. Az összegünk hiába n tagú - formálisan -, hiszen ha n-1 tagot ismerünk, ezekbõl az "utolsót", az "n-ediket" ki tudjuk számítani. Ami annyit tesz, hogy az "utolsó", "n-edik" tagot nem választhatjuk meg szabadon: a "szabadság foka" csak n-1 lehet. Az ( x i − x )2 kifejezésben lévõ x ugyanis egy összefüggést jelent a tagok között. Ha az x -ot jelentõ kifejezésbe behelyettesítjük az n-1 szabadon megválasztott tagot, az n-edik már ebbõl meghatározható. E gondolatmenet helyességébõl mit sem von le, hogy az a bizonyos "összefüggés" nem az x , hanem valójában ( x i − x ) = 0 , már többször említett - "átlagdefiniáló" - összeg. a
∑
A szabadságfok az egymástól függetlenül választható tagok (mintaelemek) számával egyenlõ. Nyilván, ezek nem lehetnek függetlenek akkor, ha érvényesül köztük egy, vagy több összefüggés. Ilyenkor az összefüggés(ek) számát le kell vonni a mintaelemszámból: a különbség értéke lesz a szabadságfok.
Azért kellett ennyire részletesen foglalkoznunk ezzel az elvi kérdéssel, mert - ahogy az Olvasó is tapasztalhatja - az egyes statisztikai szakirodalmakban nem egységes sem a megnevezés, sem pedig a képlethasználat. Azon még csak-csak túltehetnénk magunkat, hogy az általunk szórásnak definiált fogalmat "korrigált empirikus szórás"-nak hívják (és s * gal, vagy - néha - σ * -gal jelölik), netán a standard deviáció (jele: STD) névvel illetik. Hanem afölött már nem mehetünk el, hogy a nevezõben n, vagy n-1 az osztó értéke! Hiszen kis mintákra a torzítás bizony elég nagy értékû (nézzük csak az átlag-fejezet végén említett X-jegyek szórását a két módszerrel, alsó indexben jelölve az n, ill. n-1 osztót a képletnél):
sn =
8 = 4 = 2; 2
illetve
sn −1 =
8 = 8 ≅ 2, 83 ; 1
jól láthatóan kb. 0,83 a többlet az n-1 osztóval végzett szórás "javára". Ha pedig arra gondolunk, hogy X jegyei mennyire "végletesek", akkor bizony be kell látnunk, hogy a szabadságfokra végzett korrekcióval a szórás valóban jobban jellemzi az eredeti mintát! (Itt jegyezzük meg, hogy Y-ka jegyeinek szórása mindkét képlettel számolva 0 lesz.) Nagyobb mintára - természetesen - a torzító hatás mérséklõdik (az 1. táblázat adataiból számolva), de megmarad: sn =
44827 = 224,13 = 14, 97; 200
illetve
sn −1 =
44827 = 225, 26 = 15, 01 199
értékek adódnak. Az eltérés 0,04 a "mi" szórásunk javára itt is. A további összes matematikai statisztikai tevékenységünknél tehát a szabadságfokokra korrigált - ún. standard - szórást értjük "szórás" alatt. Fontos még - ugyanennél a kérdésnél - elmondanunk azt, hogy az egyes kalkulátorok, amennyiben "tudják" a statisztikai adatok feldolgozását, mindkét (tehát az "n"-es és "n-1"-es szórást is) ki tudják számolni. Hogy "közönségesen" melyiket adják (számítástechnikai frazeológiával: hogy melyik az alapértelmezés), azt a kalkulátor dokumentációjából tudhatjuk meg -- vagy próbálgatással. A dokumentációra - a statisztikai feldolgozások bonyodalmassága miatt - általában amúgy is szükségünk lesz. Példának okáért a WINDOWS Számológép (Calculator) modulja alapértelmezésben az "n-1"-es, standard szórást adja meg az adatok feldolgozásánál.
A négyzetes összeg A variancia nevezõjével már eleget foglalkoztunk; fordítsunk most egy kis figyelmet a számlálójára is. Ezt - a latin "kvadratikus" kifejezésbõl kiindulva - Q-nak jelöljük, és négyzetes összegnek nevezzük:
Q = ∑ ( x i − x )2 . Ezzel a jelöléssel a variancia és a szórás:
s2 =
Q ; n −1
illetve:
s=
Q . n −1
Hogy a szórás "jóságát" belássuk, az alábbiakban igazolni fogjuk azt, ( x i − a )2 -típusú kifejezések közül a variancia számlálójában hogy a
∑
levõ kifejezés értéke a legkisebb. Ehhez csak a már megismert azonosságokat felhasználva (feltesszük, hogy az átlag nem egyenlõ a-val):
∑(x
− a )2 = ∑ ( x i − x + x − a 2 ) = ∑ ( x i − x ) + ( x − a ) = ∑ ( x i − x )2 + ∑ 2( x i − x )( x − a ) + ∑ ( x − a )2 = = ∑ ( x i − x )2 + 2( x − a )∑ ( x i − x ) + n( x − a )2 . i
2
=
A második lépésben az átlagot hozzá is adtuk, meg ki is vontuk a kifejezésbõl; valamint a harmadik lépésben alkalmaztuk a két tag négyzetére vonatkozó - közismert - összefüggést. A harmadik sorban a középsõ tag értéke 0 (erre már többször hivatkoztunk), az utolsó tag pedig mindenképpen pozitív - ugyebár n pozitív, a zárójeles kifejezés pedig négyzeten van -, mégpedig két pozitív szám szorzata. Ha az ( x i − a ) különbséget d-vel jelöljük és behelyettesítjük:
∑(x Ebbõl világos, hogy a
i
− a )2 = ∑ ( x i − x )2 + nd 2 .
∑(x
i
− a )2 alakú kifejezések közül
∑(x
i
− x )2 -
nek kell a legkisebbnek lennie: mindig egy pozitív számot kell hozzádni, hogy amazt megkaphassuk. A Q számolásra alkalmas két alakját is hasonló átalakítások után kapjuk. Elsõ alak: Q =
∑x
2 i
− x ∑ x i ; második alak:Q = ∑ x − 2 i
( ∑ x i )2 n
.
Határozzuk meg mármost a 2. táblázat - csoportosított - adatainak szórását (mondjuk, a második alak segítségével)! osztályközepek
gyakoriságok
42 47 52 57 62 67 72 77 82 87 92 97 102 107 112 117 122
∑fu i
su2 =
2 i
−
( ∑ fi ui ) 2
∑f
i
=
3 1 6 13 19 24 26 27 26 18 14 5 8 4 3 2 1
∑f
i
−1
45945 , 5 = 230 , 8819 199
=
fi ui
fi ui2
126 47 312 741 1178 1608 1872 2079 2132 1566 1288 485 816 428 336 234 122
5292 2209 16224 42237 73036 107736 134784 160083 174824 136242 118496 47045 83232 45796 37632 27378 14884
15370 2 200 = 1227130 − 1181184 , 5 = 200 − 1 199
1227130 −
su = 230 , 8819 = 15 ,195
(kg!!)
Akár hiszi valaki, akár nem, egy ilyen mintára a statisztikai jellemzõket kiszámolni egy agyrém (remélem, nem számoltam el - ugyanis kétszer mentem végig rajta, mindvégig a WINDOWS-ban maradva -, és az értékek mindkétszer egyeztek). Látható a csoportosítás torzító hatása is: a teljes mintából számított 15,01 kg-os szórás helyett 15,195 kg lett az eredmény. Látható, hogy a számítási adatoknál nem voltam következetes, ami a tizedesjegyek pontosságát illeti. (Túl sok a tizedesjegy a közbensõ értékeknél, de láttatni szerettem volna a kerekítés fontosságát.) Általános szabályként jegyezzük meg, hogy a szórást ugyanannyi jegy pontosságra adjuk meg, mint az átlag értékét. (Ennek megfelelõen itt: 15,20 kg lesz.)
!
A relatív szórás (variációs együttható) Az eddigiekben ragaszkodtunk hozzá, hogy a statisztikai jellemzõket mindig az eredeti minta dimenziójában adjuk meg. Mivel azonban a szórás az adatok átlag körüli szóródását adja meg, lehetõség van arra is, hogy a szórás nagyságát az átlagéhoz viszonyítsuk (célszerûen áttérve a %-os skálára). Ezzel két legyet is ütünk egy csapásra: nem kell foglalkoznunk a dimenzionálás "finomságával", hiszen a szórás és az átlag azonos dimenziójú. Második fontos elõny: egészen különbözõ paraméterû minták (eloszlások) is összehasonlíthatóvá válnak ilymódon. A variációs együttható (V) kiszámításának formulája:
V =
s ⋅100 x
% .
A teljes minta relatív szórása 19,67 %, a 2. táblázat alapján csoportosított mintáé 19,78 %-os. Ezek szerint elmondható az, hogy a kategóriákba sorolás, a csoportosítás kb. 0,11 %-os torzítást okoz. Ez - ilyen mintanagyság mellett - elfogadható. Nézzük meg most X kétfajta szórását a relatív, %-os skála szerint!
VXn =
2 ⋅ 100 ≅ 66,7 % ; illetve 3
V X n −1 =
• 8 2, 83 ⋅ 100 ≅ = 94, 3 % . 3 3
A két érték messzemenõen nem ugyanaz; itt még jobban láthatóan sikerült alátámasztani az "n-1"-es szórásnak az eloszlást pontosabban jellemzõ jellegét.
Átlag és szórás "együttjárása" Utolsó példánk több tanulságot is magában rejt, vonjuk tehát le õket. Legelsõbben is: egy mintát (azaz: gyakorisági eloszlást) - most már látjuk - az átlaga és a szórása együttesen jellemez kielégítõen. Az átlagelvû gondolkodás bírálata tehát a továbbiakban olyként árnyalódik, hogy gondolkodási hibának tekintjük egy adott átlag mellett azt, ha a szórást - akár abszolút, akár relatív formában - nem adják meg (vagy: ha egy minta intellektuális megragadásához mi nem igényeljük).
"
Szó került már arról, hogy információt veszítünk a vektort skalárral helyettesítve. Az átlag és a szórás együttes használatával ennek az elvesztett információnak egy bizonyos részét visszanyerjük: következtetni tudunk a minta terjedelmére és eloszlására is. Az átlag és a szórás egymáshoz való (%-os) viszonya pedig megmutatja az átlag "jóságfokát", azaz, hogy egy adat mennyire tükrözi az adatcsoportot (a teljes mintát). Nagyon nehéz minden igényt kielégítõ általános diszkussziós szabályokat adni - a gyakorlat a legjobb tanítómester -, de azt mindenképpen leszögezhetjük, hogy olyan átlag, amelynek relatív szórása 94 % (tehát az átlaggal egy nagyságrendben van) nem tükröz semmit -- legalábbis az eredeti mintát illetõen...
A statisztikai számítások technikája Komolyan gondolom, hogy statisztikai adatokat - kézzel, papíron, ceruzával - számolgatni valóban õrjítõ. Nem csak az a gond, hogy a sok hasonló számítás unalmas - az is -, ám a figyelem lankadtával megnövekszik a hiba elkövetésének esélye. Még akkor is, ha csak képletekbe kell behelyettesíteni. Éppen emiatt történt az, hogy a statisztika ismertetése kapcsán minden lehetséges helyen kiemeltem az adatösszevonás, a csoportosítás, osztálybasorolás alapelveit és -technikáit. Jóllehet, ezek a technikák már klasszikusnak számítanak, idõt és fáradságot takarít meg az, aki értelmesen használja õket. (És megalkuszik az ilymódon "módszeres hibá"-vá tett torzítással.) A másik - manapság egészen kézenfekvõ - lehetõség a számítógép használata. Se szeri, se száma azoknak a programcsomagoknak, amelyek a megtárgyalt matematikai statisztikai jellemzõket "csípõbõl", az adatbevitel után egy-két másodperccel/perccel szolgáltatják. Ami ez esetben veszélyforrás lehet: az az "adatsaláta", amit a számítógép szorgosan ont magából. Csak gyakorlatban lehet megtanulni azt, hogy a sok adat közül mi az, amire feltétlenül szükségünk van, és mik azok, amelyek csak növelik az asztalunkon a papírhegyet. Vagy, ha nem áll módunkban gyári szoftvert használni, mi magunk is tudunk írni olyan célprogramokat, amelyek egy-egy minta feldolgozását teszik lehetõvé (az ehhez szükséges képletanyagot és tudnivalókat jelen könyv maradéktalanul tartalmazza). Saját programok írásánál érdemes odafigyelni a programozás-hatékonyság elveire: tömbök, tömbelemek helyett skalár-változók használata, ciklusszervezés, stb., stb. Ezek figyelembevételével felfedezhetjük, hogy a statisztika, mint a véletlen tömegjelenségek vizsgálati módszere, tulajdonképpen érdekes...
#