Statisztika

Ez a cikk a statisztikáról mint tudományágról szól; a Wikipédia statisztikái itt érhetők el.

A statisztika avagy számhasonlítás^[1] a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.

Gyakran hívják „statisztikának” a statisztika módszereit és a statisztikai tevékenység eredményeként keletkező adatokat is. Ezenkívül statisztikának nevezik egy statisztikai minta elemeinek ismeretlen paramétert nem tartalmazó függvényeit is: lásd statisztika (függvény).

Statisztikai alapfogalmak

A statisztika, hasonlóan más tudományokhoz, sajátos nyelvezettel, módszertannal és szemlélettel rendelkezik. A statisztikusok által leggyakrabban használt alapfogalmak a következők:

A statisztika részterületei

A statisztikának alapvetően két nagy területe ismeretes; ezek között azonban sok találkozási pont, sőt átfedés figyelhető meg.

Leíró statisztika

Célja egy már rendelkezésre álló, valóságra vonatkozó adathalmaz összefoglalása, elemzése, egyszóval az információtömörítés.

Sokaság leírása egy ismérv alapján:

kvantilis értékek: k számú osztályközt akarunk képezni, akkor ehhez k–1 darab osztópontra van szükségünk. Ezeket az osztópontokat k-ad rendű kvantiliseknek nevezzük.
helyzetmutatók (középértékek): medián, módusz, átlag
szóródási mutatók: terjedelem, szórás, relatív szórás
koncentráció elemzése: Lorenz-görbe, Herfindahl-index

Következtető (matematikai) statisztika

Célja a megfelelő – vagyis a sokaság egészének paramétereit legjobban tükröző, reprezentáló – minta kiválasztása, a sokasági paramétereknek a minta paramétereivel történő becslése, illetve a sokasági paraméterekre vonatkozó feltételezések, hipotézisek elfogadása vagy elvetése. Foglalkozik továbbá a valóság összefüggéseinek egyszerűsített megragadására törekvő modellekkel is, mint az idősor- és regressziós modellek.

Főbb részterületei tehát a következők:

A statisztika eredete és története

Eredetileg – ma már ritka, elavultnak számító értelmezés szerint – a statisztika matematikai eszközöket igénybe vevő államháztartástant jelentett, vagyis azon módszerek gyűjteményét és elméletét, amelyek segítségével az újkorban kialakuló modern államok számontarthatták erőforrásaikat és a társadalmi problémákat (népesség, termelés, betegségek stb.). Erre utal a szó etimológiája is, minthogy a szót az újlatin statisticum collegium („államtanács”) és az olasz statista („államférfi”, politikus) kifejezésekből származtatják. A statisztika atyja, Gottfried Achenwall is ilyen értelemben használta e szót munkáiban („az állam tudománya”), először 1749-ben. A szó mai értelmét („az adatgyűjtés és adatfeldolgozás általános tudománya”) csak a tizenkilencedik század elején nyerte el.

A következtető statisztika mindenekelőtt a matematikai ismeretek (ezeken belül is főként a valószínűségszámítás) gyors fejlődésének következtében, a leíró statisztika pedig a különböző adatszerzési és mintavételi technikák kialakulásával, fejlődésével jutott el a mai szintjére.

A statisztika alkalmazásai

Adatok összegzésére, elemzésére, tudományos elméletek adatok segítségével történő igazolására vagy megcáfolására számtalan természet- és társadalomtudománynak szüksége van. Gyakori eset, hogy egy-egy tudományhoz kapcsolódó statisztikai alkalmazásokból önálló segédtudományok jöttek létre. Ilyenek például a következők:

biostatisztika vagy biometria
demográfia
fizikai statisztika
gazdasági statisztika
kémiai statisztika vagy kemometria
közgazdasági statisztika vagy ökonometria
politikai statisztika
pszichológiai statisztika
társadalomstatisztika
területi statisztika

A statisztika helytelen használata

A statisztika helytelen használatáról beszélünk, amikor a statisztika használatának megsértése miatt indokolatlan következtetésre jutunk.

Esetenként ez véletlen, máskor szándékos is lehet, és az elkövető hasznot húz belőle.

A téves statisztika csapdája meglehetősen ártalmas a tudás keresésében. Például az orvostudományban egy téves állítás kijavítása évtizedeket vehet igénybe, és emberéletekbe kerülhet.

A helytelen alkalmazás könnyen előfordulhat. Kutatókat, még matematikusokat és statisztikusokat is megtéveszthetnek egyszerű módszerek is, még ha gondosan figyelnek is mindenre. Vannak kutatók, akik a hibát valószínűségszámítási tudásuk hiánya vagy a tesztjeik standardizálásának hiánya miatt követik el.

A helytelen alkalmazás típusai^[2]

A nem tetsző adatok kihagyása

Vegyünk egy példát. Egy cég, semleges hatású (haszontalan) termékét úgy reklámozhatja, hogy keres, vagy elvégez 40 kutatást 95%-os megbízhatósági szinttel. Ha a termék tényleg haszontalan, ebből átlagosan egy tanulmány a termék jótékony hatását mutatná, egy annak káros hatását mutatná, és harmincnyolc nem mutatna hatást (38 a negyven 95%-a). Minél több kísérlet érhető el, annál több olyat fogunk találni, amelyik a termék hasznosságát is kimutatja. Az olyan szervezetek, melyek nem hoznak nyilvánosságra minden elvégzett tanulmányt, mint például a dohányipari cégek, melyek tagadják a dohányzás és rák közötti kapcsolatot, vagy a dohányellenes csoportok, melyek a dohányzás és különböző betegségek közötti kapcsolatot próbálják bizonyítani, vagy a csodapirulák forgalmazói, többek között ezt a taktikát is használják.

Egy másik gyakori technika az olyan tanulmány véghezvitele, mely nagyszámú függő változót használ egyszerre. Például, egy gyógyászati kezelés hatékonyságát tesztelő tanulmány függő változóként használhatja a túlélés valószínűségét, a kórházban töltött napok számát, a betegek szubjektív fájdalomszintjét, stb. Ez annak a valószínűségét is növeli, hogy legalább egy változó véletlenül összefüggést fog mutatni a független változóval, vagyis a gyógyszer használatával.

Befolyásoló kérdezés

A befolyásoló kérdezés a felmérések általános módszertani hibája lehet. A felmérésekre adandó válaszok gyakran manipulálhatóak a kérdés olyan megfogalmazásával, hogy az a válaszadókból bizonyos válaszok gyakoriságát hozza ki. Például a háborúról történő szavazás esetén a következő kérdések:

Támogatja az USA próbálkozását, hogy szabadságot és demokráciát hozzon különböző országokban?
Támogatja az USA provokálatlan fegyveres akcióit?

valószínűleg az adatok különböző irányú ferdeségét eredményezné, bár mindkét kérdés a háború támogatásáról szól. A kérdés egy jobb megfogalmazása ez lehetne: Támogatja az USA jelenlegi, külföldi fegyveres akcióit?

A befolyásoló kérdezés egy másik módja az, ha a kutató által „vágyott” választ támogató információ előzi meg a kérdést. Például valószínűleg több ember felel igennel arra a kérdésre, hogy „A középosztály családjainak növekvő adóterheit tekintve, támogatja a jövedelemadó csökkentését?” ahhoz a kérdéshez viszonyítva, hogy „Az ország államháztartási hiányát, és az állami bevételek növelésének rendkívüli szükségét tekintve, támogatja a jövedelemadó csökkentését?”

Túláltalánosítás

A túláltalánosítás az a hiba, mikor egy adott csoportról szóló statisztikáról azt állítják, hogy megáll olyan csoport tagjaira is, mely csoport nem fed át az eredeti mérés csoportjával.

Egy egyszerű példaként tegyük fel, hogy a nyáron megvizsgált almák 100%-a piros. Az állítás, hogy „Minden alma piros”, a túláltalánosításra példa, mert az eredeti statisztika csak az almák egy alcsoportjára igaz (a nyáriakra), amely nem nevezhető az összes alma reprezentatív mintájának.

A túláltalánosítás hibájára a való életből vett példa figyelhető meg a telefonos közvélemény-kutatásokból adódó műtermékben, ha a felmérés során a mobiltelefonokat nem hívhatják. A fiatalok más demográfiai csoportokhoz képest kevéssé rendelkeznek vonalas telefonnal. Így az olyan telefonos közvélemény-kutatás, mely csak vonalas telefonhívásokkal méri fel a válaszadókat, a fiatalok nézőpontját alulreprezentálhatja a felmérés eredményében, ha más módon nem korrigálják a mintavétel torzítását.^[3]

A túláltalánosítás gyakran akkor fordul elő, mikor az információ nem szakmai forrásokon halad át, például a tömegtájékoztatási eszközökön, ugyanis a sajtó munkatársai kevéssé kezelik pontosan a mintavétel korlátait.^[4]

Torzított mintavétel

A statisztikában a mintavételi torzításról akkor beszélünk, ha a mintát úgy vesszük, hogy a célpopuláció egy része kevésbé valószínű, hogy belekerül, mint a többi. A mintavétel torzított, ha nem véletlenszerű a népesség (vagy nem emberek) mintája, vagyis nem minden egyén, vagy eset kerül ugyanolyan eséllyel kiválasztásra. Ha ezzel nem számolunk, akkor az eredményeket tévesen tulajdoníthatjuk a tanulmányozott jelenségnek, ahelyett hogy a mintavétel eredményének tekintenénk.

A becsült hiba félreértelmezése vagy félreértése

Ha egy kutatócsoport azt szeretné tudni, hogy hogy érez egy bizonyos témáról 300 millió ember, nem lenne praktikus megkérdezni mindannyiukat. Azonban, ha a kutatócsoport kiválaszt véletlenszerűen nagyjából 1000 személyt, elég biztosak lehetnek benne, hogy a kiválasztott csoport által nyújtott eredmény megmutatja, mit válaszolt volna a nagyobb csoport, ha mindannyiukat megkérdezik.

Számszerűsíthető, hogy mennyire lehetünk biztosak ebben. Ennek az egyik módja a konfidencia határokkal történik, a konfidenciaintervallum alsó és felső végével. Általában 95%-os konfidencia határ a használatos, de ettől el is térhetünk. A 95%-os konfidencia határ azt jelenti, hogy ha ismételten véletlen mintákat veszünk és kiszámoljuk az átlagokat és a konfidencia határokat minden mintára, a minták 95%-ának a konfidenciaintervalluma tartalmazza az elméleti átlagot.^[5]

A legtöbb ember azt feltételezi, hogy mivel a megbízhatósági érték nincs feltüntetve, 100%-osan biztos, hogy az igazi eredmény a becsült hibán belül van. Ez matematikailag helytelen.

Sokan esetleg nem veszik észre, hogy a minta véletlenszerűsége nagyon fontos. A gyakorlatban sok közvélemény-kutatás telefonon történik, ami eltorzítja a mintát több módon, például kizárja azokat, akiknek nincs telefonjuk, több eséllyel kerül bele, akinek több telefonja van, könnyebben bekerülhetnek, akik hajlamosabbak részt venni telefonos felmérésben, stb. A nem véletlenszerű mintavétel a becsült hibát megbízhatatlanná teszi.

Gyakran csak egy hibahatárt említenek a felmérések. Mikor egy nagyobb mérésen belül a népesség egy alcsoportjáról szólnak az eredmények, nagy lesz a hibahatár, de ezt nem feltétlen hangsúlyozzák. Például 1000 ember felmérése 100 főt tartalmazhat egy bizonyos etnikai csoportból vagy gazdasági státuszból. Az erre a csoportra vonatkozó eredmények sokkal kevésbé lesznek megbízhatóak, mint a teljes népességre vonatkozó eredmények. Ha a teljes mintára vonatkozó hibahatár 4% volt, akkor a hibahatár egy ilyen alcsoportra 13% körüli lehet.

A fentieken túl vannak másféle mérési nehézségek is a népesség felmérésében.

A fent említett problémák minden statisztikát alkalmazó kísérletre igazak, nem csak az összlakosságot érintő felmérésekre.

Források

↑ Kosztolányi Dezső: Nyelvművelés - Válasz Schöpflin Aladárnak. Nyugat · 1933. 9. szám http://epa.oszk.hu/00000/00022/00557/17385.htm
↑ Aaron Levenstein “Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital.”
↑ Silver, Nate. „‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys”, The New York Times, 2010. október 28.
↑ Schwartz, L. M.; Woloshin, S. (2003). "On the Prevention and Treatment of Exaggeration". Journal of General Internal Medicine 18 (2): 153–154. doi:10.1046/j.1525-1497.2003.21216.x
↑ McDonald, J.H. (2009). Handbook of Biological Statistics (2nd ed.). Baltimore, Maryland: Sparky House Publishing. http://udel.edu/~mcdonald/statintro.html

További információk

Matematikaportál • összefoglaló, színes tartalomajánló lap

[1] Kosztolányi Dezső: Nyelvművelés - Válasz Schöpflin Aladárnak. Nyugat · 1933. 9. szám http://epa.oszk.hu/00000/00022/00557/17385.htm

[2] Aaron Levenstein “Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital.”

[3] Silver, Nate. „‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys”, The New York Times, 2010. október 28.

[4] Schwartz, L. M.; Woloshin, S. (2003). "On the Prevention and Treatment of Exaggeration". Journal of General Internal Medicine 18 (2): 153–154. doi:10.1046/j.1525-1497.2003.21216.x

[5] McDonald, J.H. (2009). Handbook of Biological Statistics (2nd ed.). Baltimore, Maryland: Sparky House Publishing. http://udel.edu/~mcdonald/statintro.html

[1]

[2]

[3]

[4]

[5]