Statisztikai erő

Egy kettős hipotézisteszt statisztikai ereje nem más, mint az a valószínűség, hogy a teszt helyesen veti el a nullhipotézist, amikor az alternatív hipotézis igaz. A statisztikai erő értéke 0-tól egyig bármennyi lehet, és ahogy az erő emelkedik, úgy csökken az elsőfajú hiba (a nullhipotézis helytelen elvetése) elkövetésének valószínűsége. Ha a kettes típusú hiba elkövetésének valószínűsége β, akkor a hozzá tartozó statisztikai erő 1 – β. Például, ha A kísérletnek a statisztikai ereje 0,7, B kísérletnek pedig 0,95, akkor az A kísérletben magasabb a valószínűsége a kettes típusú hiba elkövetésének, mint B kísérletben, illetve emiatt B kísérlet magasabb reliabilitással is rendelkezik. Úgy is gondolhatunk a statisztikai erőre, mint annak a valószínűségére, hogy elfogadjuk az alternatív hipotézist, amikor az igaz – tehát az eljárás arra való képessége, hogy felismerjen egy hatást, ha az adott hatás valóban létezik. Formálisan megfogalmazva:

Statisztikai erő = P(H₀ elutasítása | H₁ igaz).

Amennyiben a H₁ csak a H₀ tagadása, például: H₀ : x = 0, ahol x egy meg nem figyelt paramétere a populációnak, H₁ pedig x <> 0, az erő nem kiszámolható, csak ha a valószínűségek ismertek minden lehetséges értékére, amit x paraméter felvehet. Emiatt amikor statisztikai erőről beszélünk, fontos kiemelni, hogy milyen alternatív hipotézis mellett beszélünk róla.

Az úgynevezett erő elemzés használható arra, hogy meghatározzuk, a keresett méretű hatást milyen elemszám mellett találjuk meg megfelelő valószínűséggel. Például: „Hányszor kell feldobnom egy érmét, hogy levonhassam a következtetést, hogy cinkelt-e, avagy sem, ha feltesszük, hogy a cinkel érme az esetek 70%-ban fejet mutat?” Az erő elemzés arra is használható, hogy kiszámoljuk a legkisebb hatásméretet, amit még valószínűsíthetőleg (adott statisztikai erővel) felfedezünk egy adott elemszám mellett. Ezek mellett az erő arra is használatos, hogy összehasonlításokat végezzen az ember különböző statisztikai módszerek próbáinak eredményei között, például egy parametrikus és egy nonparametrikus teszt között, melyek ugyanazt a hipotézist tesztelik.

Háttér

A statisztikai tesztek mintákból szerzett adatokat használnak, hogy felbecsüljék és következtetéseket vonjanak le a populációról. Két minta összehasonlításának esetében a cél az, hogy megbecsülje, hogy a két vizsgált csoport átlagai egy bizonyos vizsgált változóban eltérnek-e. Például, ahhoz, hogy megvizsgáljuk a nullhipotézist, hogy a férfiak és a nők teljesítménye egy adott teszten különbözik-e, mintát kell vennünk a női és férfi populációból, kitöltetni velük a tesztet, majd összehasonlítani a két csoport teljesítményének az átlagát egy statisztikai próbát használva, például t tesztet, vagy z tesztet. A teszt ereje nem más, mint annak a valószínűsége, hogy statisztikailag szignifikáns különbséget fogunk találni a két csoport között, amennyiben kikötjük, hogy a hatás valóban létezik.

Az erőt befolyásoló tényezők

A statisztikai erő több tényezőtől is függhet. Néhány tényező specifikusan kapcsolódik bizonyos tesztelési szituációkhoz, dizájnokhoz, de az kijelenthető, hogy az erő majdnem mindig függ a következő három tényezőtől:

A statisztikai szignifikancia elvárt szintje (alfa)
A keresett hatás mérete a populációban
A vizsgálatban használt minta mérete

A szignifikancia szintje

A szignifikancia elvárt szintje (alfa), azt jelenti, hogy mennyire kell valószerűtlennek lennie annak, hogy a választott minta a populációba tartozik, abban az esetben, ha a nullhipotézis igaz. A leggyakrabban használt alfa valószínűségek a 0,05 (5%, 20 mintavételből 1), 0,01 (1%, 100 mintavételből 1), 0,001 (0,1%, 1000 mintavételből 1). Ha az alfa 0,05, annak a valószínűsége, hogy az mért hatásméretnél nem kisebb hatást mérjünk a populációból vett mintán, ha a nullhipotézis igaz, nem lehet nagyobb, mint 0,05, ahhoz, hogy elvethessük a hatás hiányát feltevő nullhipotézist. Egy könnyű módja a statisztikai erő növelésének, hogy kevésbé szigorú statisztikai tesztet használjunk magasabb alfával, például 0,1-et használva 0,05 helyett. Ez növeli a nullhipotézis elvetésének esélyét (tehát szignifikáns eredmény mérését), ha a nullhipotézis hamis, tehát csökkenti a kettes típusú hiba előfordulásának valószínűségét, (hamisan megtartani a nullhipotézist, amikor az alternatív hipotézis az igaz). Ugyanakkor növeli annak a rizikóját, hogy úgy kapunk statisztikailag szignifikáns eredményt, hogy a nullhipotézis az igaz, tehát növekszik az egyes típusú hiba előfordulásának esélye (hamis pozitív eredmény). Összességében tehát az egyes típusú hiba csökkentése növeli a kettes típusú hiba valószínűségét, és fordítva.

A vizsgált hatás nagysága

A hatás nagyságát az adott populációban hatásméretként számszerűsíthetjük, a nagyobb hatás esetén, ha a többi, statisztikai erőt befolyásoló paramétert szinten tartjuk, a statisztikai erő magasabb lesz. A hatásméret ki lehet fejezni a mért mértékegységben, például ha magasságot nézünk méterben, vagy használhatóak standardizált mértékek is. Például egy mérés során, ahol a két csoport eredményeinek átlaga A és B, a direkt hatásméret A-B lenne. Ezzel szemben a standardizált hatásméret például az (A-B)/C, ahol C az összesített szórása az eredményeknek mind a két csoportban. Ha megfelelően alkotjuk meg, a standardizált hatásméret az elemszámmal együtt teljesen meghatározza a statisztikai erőt. A direkt hatásméret ritkán alkalmas arra, hogy megfelelően megjósolja a statisztikai erőt, mivel nem tartalmaz információt a mérések varianciájáról.

Elemszám

Az elemszám határozza meg a mintavételi torzítás mértékét egy vizsgálatban. Más tényezőket szinten tartva a hatásokat nehezebb megtalálni kisebb elemszám mellett. Az elemszám növelés a sokszor legkönnyebb eszköz a statisztikai erő növelésére.

Az adatok mérésének pontossága is növeli a statisztikai erőt. Ebből következik, hogy az erőt lehet a mérési torzítás csökkentésével növelni egy vizsgálatban. Ehhez hasonlóan a statisztikai reliabilitás is növelhető a mérési hiba csökkentésével.

A kísérlet dizájnja is befolyásolhatja a statisztikai erőt. Például egy két mintát összehasonlító vizsgálatban célszerű a két csoportban egyenlő számú megfigyelést elvégezni (ha a varianciája a két csoportban mért adatoknak azonos). Regresszióban és variancia-analízisben több megközelítés is született arra, hogy hogyan lehet növelni a próbák statisztikai erejét.

Interpretáció

Ugyan nincsenek hivatalos sztenderdek a statisztikai erő elvárt méretére, a kutatók többsége igyekszik 0,80 köré beállítani azt. Ez a hagyomány az első és másodfokú hibák egy a négyhez arányú megoszlásán alapszik. Megjegyzendő azonban, hogy vannak esetek, amikor az egy a négyhez arány nem megfelelő. Orvoslásban például a teszteket sokszor úgy tervezik meg, hogy szinte nullára csökkentik a másodfajú hibák (fals negatív) valószínűségét. Ez persze elkerülhetetlenül megemeli az első fajú hiba (fals pozitív) valószínűségét. Emögött az a megközelítés, hogy bizonyos esetekben, például szűrővizsgálatok kapcsán, jobb véletlenül azt mondani egy egészséges páciensnek, hogy talán valami baj van, mint egy betegnek tévesen azt, hogy minden a legnagyobb rendben. (A bizonyító, megerősítő vizsgálatok esetén pont fordított a helyzet.)

Az erő elemzést akkor érdemes használni, amikor a nullhipotézis elvetése a kérdéses, nem pedig a pontos hatásméret megállapítása. Például, ha azt szeretnénk megtudni, hogy mekkora az intelligencia és a munkában nyújtott teljesítmény között a korreláció mértéke, és arra számítunk, hogy körülbelül 0,50 lesz a hatásméret, egy 20 fős minta már körülbelül 0,80-as statisztikai erőt fog biztosítani a tesztünknek, hogy elutasíthassuk a hatásméretet nullának feltételező nullhipotézisünket. Ugyanakkor a kutatásban valószínűleg kíváncsibbak leszünk arra, hogy a korreláció inkább 0,30, 0,50, vagy 0,60. Ahhoz, hogy a konfidencia intervallumokat lecsökkentsük, sokkal nagyobb elemszámra lesz szükségünk. Az erő elemzéshez hasonlatos eljárásokat használnak arra is, hogy megbecsüljék a konfidencia intervallumok szélességét.

Erő elemzések

Erő elemzéseket lehet mind a vizsgálat lefolytatása előtt (a priori) és után (post hoc) végezni. A priori erő elemzést általában arra használják, hogy megbecsüljék a kutatáshoz szükséges elemszám nagyságát. Post hoc analízist arra használják, hogy a vizsgálat elvégzése után a hatásméret és az elemszám tekintetében meghatározzák a statisztikai erőt. Ez hibás eljárás, mivel feltételezi, hogy a mintában fellelt hatásméret megegyezik a valós hatásmérettel.