Kísérlettervezési alapfogalmak Tényező, faktor factor – “független változó”, “ható tényező” (kezelés, gyógyszer, hőmérséklet, stb.) aminek hatását a kísérletben vizsgálni vagy összehasonlítani kívánjuk. Megfigyelési egység experimental unit az az egység a kísérletben, amelyre egy bizonyos kezelést vagy kezeléskombinációt alkalmazunk (sejtkultúra, gyümölcsfa, parcella, stb.). Célváltozó vagy kimeneti változó outcome variable, response variable olyan megfigyelhető vagy mérhető változó, amely alkalmas a tényezők hatásának mérésére (a megfigyelési egység állapotának, kezelésre adott válaszának jellemzésére). Lehet bináris (0/1, pl. túlélés) vagy számszerű (termésátlag, minőség-pontszám, stb.). Egy kísérletben több célváltozó is lehet, ekkor ki kell jelölni egy elsődlegest. Milyen szempontok szerint válasszunk kimeneti változót? - legyen jól definiált (“anyag és módszer”-szerű leírás) - legyen a rendelkezésre álló eszközökkel kellő pontossággal mérhető - minél kevesebb szubjektív torzítást tartalmazzon Ismétlés replication – ugyanazt a kezelést (kezeléskombinációt) általában több megfigyelési egységen szokták alkalmazni. Ennek az az értelme, hogy - csökkentsék annak az esélyét, hogy a kísérlet egyes megfigyelési egységek kiesése (elhullás, sikertelen mérés, stb.) miatt értékelhetetlenné válik, - kiderüljön, mekkora a kezelésre adott válasz szóródása populációban, - az eredmények a populációra általánosíthatók legyenek, - növekedjék a vizsgálat pontossága. Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
1
Párhuzamos elrendezésről parallel design beszélünk, ha a kísérletben két csoport (kezelt-kontroll), esetleg több csoport összehasonlításából kívánunk következtetéseket levonni a kezelés(ek) hatására nézve. A csoportok a populációból vett véletlen minták, lehetnek függetlenek independent samples, vagy párosítottak matched/paired/dependent samples , de minden megfigyelési egység csak egy csoportba van besorolva (vö. ismételt mérések és crossover elrendezés). Kontroll control a nem kezelt csoport, amihez a kezelteket hasonlítjuk, vagy a standard kezelést kapott csoport, amihez az új, kiértékelendő kezelést kapottakat hasonlítjuk. A “történeti kontroll” historical control (korábbi adatok kontrollként való felhasználása) sok hibalehetőséget rejt magában (populációk, fajták, technológiai eljárások időbeli változása). Célpopuláció target population és vizsgált populáció sampled population – a célpopuláció az a populáció, amelyre a vizsgálat eredményeit alkalmazni kívánjuk, a vizsgált populáció pedig az a populáció, amelyből az elemzés alapjául szolgáló véletlen mintát vettük. Ha e két populáció nem azonos, akkor a kapott eredmény érvényessége megkérdőjelezhető. Fontos követelmények a kísérletekkel szemben: - világos és specifikus kérdéseket tegyenek fel, - adjanak minél pontosabb választ a feltett kérdésekre, - reprodukálhatók legyenek. A reprodukálhatóság és az általánosíthatóság gyakran egymásnak ellentmondó követelmények. Például egy kísérletet végezhetünk egy bizonyos beltenyésztett egértörzzsel vagy genotipikusan heterogén mintával. Homogén mintát választva a reprodukálhatóság javul, de az általánosíthatóság romlik, heterogén mintával pedig fordítva. Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
2
A szükséges mintaelemszám meghatározása Az mindenképpen nevetséges, ha egy betegség prevalenciájára adott 90%-os konfidencia-intervallum mondjuk 1%-tól 73%-ig tart, de hogy milyen széles konfidenciaintervallummal lehetünk elégedettek, azt az adott vizsgálat pontossági követelményei szabják meg. A prevalenciára vonatkozó konfidencia-intervallum szélességét több dolog befolyásolja. Annál keskenyebb lesz az intervallum, - minél kisebb megbízhatósági szintet követelünk meg (90% alá menni persze megint csak nevetséges), - minél jobb, pontosabb eljárást alkalmazunk a konfidenciaintervallum konstrukciójára, - minél nagyobb mintával dolgozunk, - minél távolabb esik az 50%-tól (bármelyik irányban) a prevalencia (de persze ezt nem áll módunkban befolyásolni). Számítsuk ki, mekkora minta szükséges ahhoz, hogy mondjuk egy, a prevalenciára adott 95%-os intervallum szélessége a 10%-ot ne haladja meg (mint például 26% - 36%). A számítások követhetősége kedvéért most használjuk a konfidencia-intervallum konstrukciójára a legegyszerűbb eljárást. Ezzel a 95%-os intervallum: p − 1.96
p (1 − p ) n
... p + 1.96
p (1 − p ) , n
aholp a mintabeli prevalenciát, n pedig a mintaelemszámot jelöli. Az intervallum szélessége innen a gyök alatti kifejezés szorozva 3.92-vel. Azt szeretnénk, hogy ez legfeljebb 10% legyen, azaz 3.92
p (1 − p ) ≤ 0.1 n
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
3
Ap-t megsaccolva, majd az egyenlőtlenséget n-re megoldva kapjuk a mintaelemszámot. Például hap = 0.3 körüli értékre számítunk, akkor n ≥ 325 adódik, azaz legalább 325 elemű mintára van szükség.
Mindig – legyen szó akár átlagértékről, akár relatív rizikóról, vagy bármi másról – ugyanígy, a szóban forgó konfidenciaintervallum számítási képletéből kiindulva határozhatjuk meg a szükséges mintaelemszámot. Persze mindig lesz olyan paraméter, amelyet ehhez meg kell saccolni (mint az előbb apt), mert tőle is függ az intervallum szélessége. Példak: Mekkora minta szükséges, hogy a broiler csirkék súlyára vonatkozó 95%-os konfidencia-intervallum szélessége legfeljebb 0.10 kg legyen? Az egyszerűség kedvéért tegyük fel, hogy a testsúly normális eloszlást követ. Ekkor az átlagra adott konfidencia-intervallum képlete a jól ismert x − 1.96
σ
... x + 1.96
n
σ n
,
aholx a mintaátlag, σ a szórás (SD), n pedig a mintaelemszám. Az intervallum szélessége akkor lesz legfeljebb 0.10 kg, ha 3.92
σ n
≤ 0.10
Most a σ-t kell megsaccolni – például irodalmi adatokból, vagy az eddig ismert legnagyobb és legkisebb csirke súlyából (±3SD) – ahhoz, hogy az egyenlőtlenséget n-re meg tudjuk oldani.
Ha pedig nincs képlet, mert például a konfidencia-intervallumot számítógépes program számolja... Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
4
Ha nem konfidencia-intervallumhoz, hanem hipotézisvizsgálathoz szeretnénk meghatározni a szükséges mintaelemszámot, akkor a figyelembe veendő tényezők - az elsőfajú hiba megengedhető szintje, α (a megbízhatósági szint szerepét veszi át), - a legkisebb különbség, amit a teszttel még szeretnénk kimutatni, d (az intervallum szélességének szerepét veszi át), - a másodfajú hiba megengedhető szintje, β, - az ellenhipotézis típusa (egy- vagy kétoldali-e), és itt is mindig van(nak) megsaccolni való paraméter(ek). Aki nem akar a fentihez hasonló (sőt rendszerint még bonyolultabb) egyenletek megoldásával foglalkozni, az a szükséges mintaelemszám meghatározására használhat számítógépes programokat (STATGRAPHICS, CADEMO), vagy tanácsot kérhet egy statisztikustól. Régi könyvekben találhatunk táblázatokat vagy nomogramokat is. Ha a megsaccolnivalókról sem saját tapasztalatunk nincs, sem az irodalomban sem találunk semmit, akkor szokás előkísérletet végezni.
Bonyolultabb elemzéseknél több "megsaccolnivaló" van. ANOVA-nál például más-más a minimálisan szükséges mintaelemszám attól függően, hogy milyen ellenhipotézist szeretnénk adott (1–β) erővel kimutatni. Pl. négy csoport esetén:
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
5
Mintavételezési módszerek Mintavétel – a populáció egy részének kiválasztása (nem az egész populációt vizsgáljuk) Cél: • a populáció jellemzőinek, paramétereinek becslése: o egy betegség jelen van vagy nincs; o átlag, szórás becslése, stb. • változók kapcsolatának meghatározása, következtetések levonása a populácóra vonatkozóan.
Cél: Olyan minta választása, amely: • jól reprezentálja a populációt; • a becslések elfogadható pontosságúak (precision) és hitelesek (accuracy).
Ideális helyzet: van egy mintavételi keret sampling frame (a mintavételi egységek teljes listája) a célpopulációról. Ekkor a vizsgált populáció study population megegyezik a célpopulációval. Gyakran nem ez a helyzet. Pl. nem lehet felsorolni a célpopuláció összes egyedét és így a vizsgált populáció nem reprezentálja a célpopulációt. A validitást veszélyezteti.
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
6
Hogyan befolyásolhatja a mintavétel az eredményeket?
A mérési hibákat kétféleképpen szoktuk osztályozni: • véletlen, • szisztematikus.
Kis minta → nagy véletlen hiba A minta nem reprezentatív → nagy szisztematikus hiba A mintaelemszám növelésével a szisztematikus hibát nem lehet csökkenteni!
Mintavételi módszerek: 1. nem véletlen mintavétel; 2. egyszerű véletlen mintavétel; 3. szisztematikus véletlen mintavétel; 4. rétegezett véletlen mintavétel; 5. klaszter mintavétel 6. többlépcsős mintavétel.
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
7
1. Nem véletlen mintavétel A véletlennek nincs szerepe a minta kiválasztásában. Általában a vizsgáló számára könnyen hozzáférhető egyedekből áll a minta. Gyakran torzított eredményekhez vezet.
2. Egyszerű mintavétel
véletlen
A mintaelemek véletlen módon vannak kiválasztva. (Kalapból kihúzás, random számtáblázatok, random szám generálással, stb.) A reprezentativitást nem biztosítja, de a statisztikai módszerekhez használható mintákat lehet így produkálni.
3. Szisztematikus véletlen mintavétel A mintaelemeket szabályos lépésközzel választjuk ki a mintavételi keretből. Az első elemet véletlenszerűen választjuk. Biztosítani lehet azt, hogy a mintaelemek lefedjék az egész vizsgált populációt. Torzítás léphet fel, ha a mintavételi keretet szisztematikusan hozták létre (Például, egy vágóhídon mindig csak a csütörtöki állatokat vizsgálják. Lehet olyan gazda, aki sosem küldi csütörtökön a vágóhídra az állatait.)
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
8
4. Rétegezett véletlen mintavétel
A rétegezés azt jelenti, hogy a mintavételi keretet rétegekre (csoportokra) bontjuk a mintavétel előtt. Utána minden rétegen belül vagy egyszerű vagy, szisztematikus véletlen mintavételt végzünk. Akkor célszerű rétegezni, ha a célpopuláció heterogén a célváltozó szempontjából. (Például a szeropoziztivitás nő az életkorral. Homogén rétegek létrehozásával robusztusabb becsléseket kaphatunk.) Előny: különböző nagyságú mintákat vehetünk rétegenként. (Ha különböző a variabilitás rétegenként, akkor a nagyobb varianciájú rétegből többet választva, pontosabb becsléseket kaphatunk.) Hátrány: tudnunk kell, hogy melyik egyed melyik réteghez tartozik.
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
9
3. Klaszter mintavétel
Klaszter mintavételnél az állatok klasztereit (csoportjait) választjuk ki véletlenszerűen. Az egy klaszterben lévő összes állatot vizsgáljuk. A klasztereket bármelyik korábban említett módszerrel kiválaszthatjuk. Használhatjuk ezt a módszert akkor is, ha az állatok nincsenek egyesével regisztrálva a mintavételi keretben, de a klaszterek igen.
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
10
4. Többlépcsős mintavétel. Ez az előző módszer bonyolultabb változata, mert itt a klasztereken belül nem vizsgáljuk az összes egyedet, hanem onnan is mintát veszünk. Előny: különböző méretű mintákat lehet venni az egyes klaszterekből (variabilitás külünböző, vagy különböző költséggel vizsgálhatók). Példa: kiválasztunk n1 gazdaságot, a gazdaságonként n2 almot, és almonként n3 malacot. A teljes mintaméret így: n1n2n3
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
11
Transzformálás Milyen problémák esetén segíthet az adatok transzformálása? 1. (Hiba) varianciák nem egyeznek; 2. Nem normális (hiba) eloszlás; 3. Kezelések hatása nem additív. Pl. ha arányokkal dolgozunk, a kezelés hatása nem additív: 2% →3% (+1%), de 25%→28%, és nem (25+1)%, vagy gyakoriságok esetén a kezelés hatása:
de
10 →20 100→200 és nem 110.
Az előbbi esetben az arcsin, a második esetben a log transzformáció segíthet. Általában: Azok a transzformációk, amelyek a 3. problémát megoldják, az első kettőn is segítenek. FONTOS! Az eredményeket transzformáljuk vissza!
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
12
Ferde eloszlások normálissá transzformálása - jobbra ferde eloszlás: gyök- vagy a logaritmus-transzformáció 20
20
3
x, x, ... 10
10
logx 0
0
- balra ferdeség eloszlás: hatványfüggvény 20
2
3
vagy
exponenciális
20
x , x , ... 10
ex
0
10 0
- más esetekben másfajta transzformációk (pl. arcus sinus) - de a sikerre nincs garancia, van olyan eset is, amikor az eloszlást semmilyen transzformáció sem képes normálissá tenni, mint például a következő ábrán →
20 10 0
Transzformációra szükség lehet más miatt is, például ha az értékek szóródása az értékek nagyságától függ (szóráskiegyenlítés), vagy ha két változó között a kapcsolat nem lineáris (linearizálás). Figyelem! Előfordulhat, hogy az eredeti adatok biológiailag jól interpretálhatók, a transzformált adatoknak viszont már nem tudunk biológiai jelentést tulajdonítani. Ilyenkor inkább ne transzformáljunk. Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
13
Példák transzformációkra A logaritmus transzformáció : Y ′ = lg(Y + 1) - ha s > x , vagy ha az eloszlás ferde. A környezetben aggregálódott organizmusok gyakoriságának eloszlása tipikusan nem normális, a log transzformációval normalizálható. A negatív binomiális illetve logaritmikus eloszlású változók transzformálhatók jól. 2
A négyzetgyök transzformáció: Y ′ = Y Poisson eloszlású gyakoriságokra (véletlenül elhelyezkedő objektumok) alkalmazható ( s ≈ x ). A nagyobb értékeket jobban lecsökkenti, mint a kisebbeket. Az arcsin, vagy anguláris transzformáció: Y ′ = arcsin p , ahol p arány. Arányokra alkalmazható.
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
14
Ne transzformáljunk gondolkodás nélkül! (A disznó és transzformáltjai...)
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
15