Statisztikai mintavétel

A statisztikai mintavétel a statisztikai gyakorlatnak az a része, amely során a populációból egyéneket választunk ki független vagy véletlenszerű kiválasztással, azzal a szándékkal, hogy ismereteket szerezzünk a megfigyelni kívánt populációról, és statisztikai következtetésen alapuló előrejelzéseket tehessünk. A mintavétel a statisztikai adatgyűjtés fontos aspektusa. A kutatók ritkán végzik el a felmérést a teljes populáción, mégpedig két okból kifolyólag: a költségek nagyon magasak lennének, valamint mert a populáció dinamikus, azaz idővel változásokon mehet keresztül. A mintavétel három fő előnye, hogy a költségek alacsonyabbak, az adatgyűjtés gyorsabb, és mivel az adathalmaz kisebb, biztosítani lehet a homogenitását, és fokozni lehet az adatok pontosságát és minőségét.

Minden megfigyelés az egyének alkotta független megfigyelendő objektumok egy vagy több tulajdonságát veszi figyelembe, (mint például súly, hely, szín).

A felmérést alkalmazó mintavétel során a felmérési adatok súlyozása alkalmazható, tehát az adatokat az eltervezett mintához rendeljük hozzá. Gyakorlati útmutatóként a valószínűségszámítási elmélet és a statisztikai elmélet eredményeit alkalmazzuk. Az üzleti és gyógyászati kutatások során a mintavételi eljárást széles körben alkalmazzák, hogy adatokat gyűjtsenek populációkról.

A mintavétel folyamata

Definiáljuk a vizsgálandó populációt.
Meghatározzuk mintavételi keretet.
Meghatározzuk a mintavételi eljárást.
Megszabjuk a minta nagyságát.
Létrehozzuk a mintavételi tervet.
Mintát veszünk, és adatokat gyűjtünk.
Felülvizsgáljuk a mintavételi eljárásunkat.

A populáció meghatározása

A sikeres statisztikai gyakorlat a fókuszált problémameghatározáson alapul. Mintavétel esetén ez magába foglalja annak a populációnak a meghatározását, amelyből a mintát vesszük. A populáció olyan emberek vagy objektumok halmazaként definiálható, amelyek rendelkeznek azzal a jellemzővel, amelyet meg akarunk érteni. Mivel ritkán áll rendelkezésre elegendő pénz és idő arra, hogy mindenkitől és mindenről információt gyűjtsünk a populációból, a cél az, hogy találjuk meg ennek a populációnak a reprezentatív mintáját, vagy alcsoportját.

Néha nyilvánvaló, hogy mi határozza meg az adott populációt. Például, ha egy gyártónak el kell döntenie, hogy egy legyártott tétel elég jó minőségű-e ahhoz, hogy piacra dobja, vagy pedig a gyenge minőség miatt át kell dolgoznia. Ebben az esetben a legyártott tétel teszi ki a populációt.

Habár a populációnk gyakran áll fizika objektumokból, néha mintát kell gyűjtenünk az időről, a helyről, vagy ezek kombinációjáról. Például a szupermarketek személyzetének vizsgálata magában foglalhatja a sorbanállás idejét különböző napszakokban, vagy a veszélyeztetett pingvinek vizsgálatának célja lehet, hogy megértsük, hogy hogyan használják a vadászterületüket az egyes időszakokban.

Más esetben kevésbé egyértelmű, hogy mi a populációnk. Például Joseph Jagger a rulettkerék forgását figyelte Monte Carlo-ban egy kaszinóban, hogy azonosítsa a nem megfelelően forgó kerekeket. Ebben az esetben a megfigyelni kívánt populáció a kerék átlagos forgása (tehát végtelenül sok próbálkozás eredményéből adódó, valószínűségszámítás szerinti eloszlás) volt. Hasonlóan megfontolások merülnek fel, mikor fizikai tulajdonságokat (például a réz vezetőképességét) vizsgálunk ismételt méréssel.

Gyakran olyan okozati rendszerről keresünk ismereteket, amelynek a végeredménye a megfigyelt populáció. Ilyenkor a megfigyelt populáció egy szélesebb populációból származó minta. Például egy kutató vizsgálhatja az új „leszokás a dohányzásról“ program eredményességét 100 páciensből álló tesztcsoporton abból a célból, hogy a program hatását előrejelezze, ha országosan végzik. Ebben az esetben a szuperpopuláció „mindenki az országban, akik számára elérhető a kezelés“- egy csoport, ami még nem elérhető, mivel a program még nem létezik.

Megjegyezzük, hogy a populáció, amelyből a mintát merítjük, nem biztos hogy ugyanaz a populáció, amelyről információt akarunk szerezni.

Gyakran adódik nagymértékű, de nem teljes átfedés a két csoport között a kereteket illetően. Néha teljesen eltérnek, például vizsgálhatunk patkányokat, hogy jobban megértsük az emberi egészséget, vagy pedig vizsgálhatjuk a 2008-ban született egyének feljegyzéseit, hogy előrejelzéseket készíthessünk a később születendő gyermekekről. A vizsgálni kívánt populáció és a minta pontos meghatározása azért fontos, mert sok kérdést felvet, amely egyébként talán elkerülné a figyelmünket.

A mintavételi keret

A legkevésbé összetett esetekben, mint például hogy a legyártott tételt minőségi szempontból megítéljük (mennyiségi mintavétellel), lehetséges, hogy azonosítsuk és megmérjük a populációt kitevő teljes tétel minden egyes elemét, és hogy mindegyik szerepeljen a mintánkban. Azonban sokkal gyakoribb, hogy ez nem lehetséges. Nem lehetséges azonosítani például valamennyi patkányt, valamint abban az esetben, ha a szavazás nem kötelező, nincs mód arra, hogy azonosítsuk azokat ez egyéneket (még a választásokat megelőzően), akik valóban szavazni fognak az elkövetkező választásokon.

Az ilyen, bizonytalanul körülhatárolható populációk nem alkalmasak a lentebb említett mintavételi mód egyikére sem, melyek során a statisztikai elméletet alkalmazunk.

Eszközként a mintavételi keretet keressük meg, amely alkalmas arra, hogy a populáció minden egyes elemét azonosítsuk és bevonjuk bármely mintánkba. A legegyszerűbb keret típus a populáció (amennyiben lehetséges, az egész populáció) elemeinek a listája megfelelő információval a kontaktus lehetőségéről. Például, egy közvélemény-kutatás során a lehetséges mintavételi keretek a következők lehetnek:

Választók névjegyzéke
Telefonkönyv

Nem minden keret tartalmazza kifejezetten a populáció elemeit. Például, egy utcatérkép használható mint az „ajtóról ajtóra járás”-sal történő kutatás kerete; annak ellenére, hogy nem tünteti fel egyedileg az egyes házakat, kiválaszthatjuk a térképről az egyes utcákat, és aztán mindegy egyes házat meglátogathatunk az adott utcában. (Az ilyen jellegű keret egyik előnye, hogy tartalmazza azokat az egyéneket is, akik nemrég költöztek ide, és még nem szerepelnek a fentebb tárgyalt keretekben).

A mintavételi keretnek reprezentatívnak kell lennie a populáció tekintetében, és ez a kérdés kívül esik a statisztikai elmélet körén, és olyan szakértők véleménye szükséges hozzá, akik ebben a részletkérdésben jártasak. Valamennyi fenti keretből kimaradnak pl. azok az emberek, akik választani fognak az elkövetkezendő választások során, és bele kerülnek olyanok, akik viszont nem fognak szavazni; egyes keretek többszöri feljegyzést fognak tartalmazni ugyanazon egyénről. Azok az emberek, akik nem tartoznak a mintavételi keretbe, nem fognak belekerülni a mintavételbe. A statisztikai elmélet megmutatja nekünk a pontatlanságokat a mintáról a keretre való extrapolációval.

„A kutató számára azonban csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság.” (Andrew A. Marino)

A keret definiálása során figyelembe kell venni a gyakorlati, gazdasági, etikai és műszaki szempontokat. Annak szükségessége, hogy adott időn belül eredményre jussunk, visszatarthat attól, hogy a keretet a távoli jövőbe is kiterjesszük. Nehézségeink akadhatnak, ha a populáció és a keret diszkrét (megszakított). Ez jellemző probléma az előrejelzések során, amikor is a jövőre vonatkozó következtetést múltbeli adatokból vonják le. 1703-ban, amikor Jakob Bernoulli azt javasolta Gottfried Leibniznek, hogy a múltbeli elhalálozási adatokból jósolja meg egy élő egyén korai halálának a valószínűségét, Gottfried Leibniz felismerte a problémát, és a következőt válaszolta:

„A természet mintákat hozott létre, mely az események újbóli visszatérésén alapul, ez azonban csak egy részre vonatkozik. Új betegségek árasztják el az emberi nemet, ezért bármennyi kísérletet és végzünk el az elhunytakon, ez által nem tudjuk limitálni a természetnek a jövőben módosuló eseményeit.” (Gottfried Leibnitz)

Kish a mintavételi keret három alapvető problémáját tételezi fel:

Elveszett elemek: A populáció némely tagja nem kerül bele a keretbe.
Idegen elemek: Olyan elemek kerülnek a keretbe, melyek nem tagjai a populációnak.
Duplán szereplő adatok: A populáció tagja egynél többször kerül vizsgálat alá.
Csoportosulások: A keret csoportosulásokat sorol fel egyedek helyett.

A keret nyújthat kiegészítő “külső információt” is az elemeiről; ha ez az információ kapcsolódik a vizsgált csoport mutatóihoz, alkalmas lehet a vizsgálati minta javítására. Például a választók jegyzéke tartalmazhatja a neveket és a nemeket; ez az információ alkalmazható arra, hogy megbizonyosodjunk arról, hogy a keret lefedi valamennyi vizsgálni kívánt demográfiai csoportot (néha a külső információ kevésbé konkrét; a telefonszám például támpontot nyújthat a helyről). Miután létrehoztuk a keretet, többféle mód áll rendelkezésre ahhoz, hogy növeljük hatékonyságát és effektivitását. Ebben a szakaszban kell a kutatónak eldöntenie, hogy a mintának ténylegesen az egész populációnak kell-e lennie.

Valószínűségi és nem valószínűségi mintavétel

A valószínűségi mintavétel során a populáció valamennyi egyedének lehetősége van (nullánál nagyobb az esélye) bekerülni a mintába. Ha minden elem a populációban azonos valószínűséggel választható a mintába, azonos valószínűséggel történő kiválasztásról (“equal probability of selection” =EPS) beszélünk. Habár statisztikai szempontból kiemelt szereppel bírnak ezen módszerek, a gyakorlatban azonban sokszor nem alkalmazhatók. A valószínűségi mintavételhez az alábbi mintavételi eljárások tartoznak:

Egyszerű véletlen mintavétel

Egy adott méretű, egyszerű véletlen módszerrel létrehozott mintába a populáció minden eleme egyenlő valószínűséggel kerülhet be, továbbá ezen eljárás alkalmazásakor a sokaságot nem osztjuk fel semmilyen alcsoportokra. Ezt a módszert homogén, véges számú populáció esetén alkalmazhatjuk, amennyiben a sokaság minden egyes elemét képesek vagyunk felsorolni. Ha ez teljesül, akkor a mintanagyság meghatározása után a (valószínűségi) kiválasztás következik. Ennek a legegyszerűbb módja a véletlenszám-táblázatok vagy a számítógépes véletlenszám-generátorok alkalmazása.

Szisztematikus mintavétel

A szisztematikus mintavétel azon alapul, hogy a vizsgált sokaságot valamilyen szempont szerint sorba rendezzük, majd egy előre meghatározott k számérték alapján, a lista minden k-adik elemét választjuk be a mintába. A k számérték meghatározása az alábbi módon történik: k=populáció mérete/minta mérete. Fontos megjegyezni továbbá, hogy az elsőként beválasztott elem nem szükségszerűen a lista első eleme, hanem véletlenszerűen kerül kiválasztásra a lista első k eleméből. Ez a mozzanat az, mely biztosítja, hogy a módszer a valószínűségi mintavételezési eljárások közé tartozzon. Egy egyszerű példa a szisztematikus mintavételre, amikor a telefonkönyvből minden 10. nevet választjuk ki a mintánk megalkotásához. Habár a módszer alkalmazása egyszerű és nem igényel szakismeretet, csakis abban az esetben vezet véletlen mintához, ha a szempont, mely alapján a listánkat megalkottuk, nem áll sztochasztikus kapcsolatban a vizsgálni kívánt ismérvvel. További torzítási tényező lehet, ha a lista trendet vagy periodicitást rejt magában.

Rétegzett mintavétel

Amennyiben egy heterogén populáció számos különálló kategóriát foglal magában, abban az esetben a sokaságot ezen csoportok alapján „rétegekre” oszthatjuk. Ezt követően minden így kapott homogén rétegből – mint független alpopulációkból, melyek minden egyes eleme véletlenszerűen kiválasztható – (egyszerű véletlen) mintát veszünk. A mintavétel során minden részcsoportból a sokaság és a minta arányához viszonyított számú elemet választunk ki. Rétegzett mintavétel alkalmazása esetén tehát, a sokaság elemeit előre kialakított rétegekbe kell sorolni, melyek egymással átfedésmentesek, ugyanakkor a populáció egészét maradéktalanul lefedik. Ehhez szükség van egy megfelelő rétegképző ismérvre (pl. életkor, nem, iskolai végzettség), továbbá a rétegenkénti listák ismeretére is – ez az egyes rétegeken belül elvégzendő egyszerű véletlen mintavétel feltétele. E módszer alkalmazásának előnye, hogy az azonosított rétegek homogenitása miatt, megfelelő mintával való munka esetén kisebb mértékű a tapasztalt mintavételi hiba a teljes populáción végrehajtott egyszerű véletlen kiválasztáshoz viszonyítva.

Egy- és többlépcsős csoportos mintavétel

Az egy- és többlépcsős csoportos mintavétel alkalmazása akkor javasolt, ha nem, vagy nagyon nehezen kivitelezhető a teljes kiinduló populáció felsorolása, szemben a rétegzett mintavételezési eljárással, ahol az egyes rétegek elemeit listába tudjuk szedni. Ebben az esetben elsőként felsoroljuk az elsődleges mintavételi egységeket (természetes vagy mesterséges csoportok a sokaságon belül), majd ezen egységekből veszünk egyszerű véletlen mintát. Az így kapott elemeken belül ismételten csoportokat határozunk meg, melyekből egy újbóli egyszerű véletlen mintavétel segítségével, meghatározzuk a megfigyelni kívánt, végső mintavételi egységeket. Annak függvényében, hogy egymás után hányszor hajtjuk végre az egyszerű véletlen kiválasztást, két-, három- vagy többlépcsős mintavételről beszélhetünk. Például: középiskolások alkoholfogyasztási szokásait szeretnénk vizsgálni, de nem áll rendelkezésünkre lista az ország összes középiskolásáról. Ebben az esetben hagyatkozhatunk az ország középiskoláit felsorakoztató listára, melyből véletlenszerűen választunk mintát (az elsődleges mintavételi egységek az iskolák). Ezután a mintába került iskolák valamennyi diákjának (végső mintavételi egységek) feltesszük kérdéseinket. Az említett példa az egylépcsős mintavételt mutatja be. Ugyanakkor – ha példánkat folytatva –, nem figyeljük meg az összes tanulót, hanem az elsődleges mintába bekerült iskolákból újabb mintá(ka)t veszünk, akkor többlépcsős eljárásról beszélhetünk. Történhet ez úgy, hogy a kiválasztott iskolákon belül véletlenszerűen választjuk ki a megkérdezendő tanulókat (kétlépcsős minta), vagy beiktathatunk még egy lépcsőt, és először osztályokat, majd azon belül tanulókat választhatunk ki (háromlépcsős minta).

Az imént bemutatott, különböző valószínűségi mintavételi eljárások két dologban megegyeznek:

Minden elemnek van egy nullánál nagyobb valószínűsége a bekerülésre.
Magukban foglalják a random kiválasztást.

A nem valószínűségi mintavételi eljárás olyan módszer, melynek során a populáció bizonyos elemeinek nincs lehetősége bekerülni a mintába, vagy a kiválasztás valószínűségét nem lehet pontosan meghatározni. Ennek ellenére ezen módszereket széles körben használják, mivel alkalmazásuk egyszerűbb, továbbá sok esetben olcsóbb is. Fontos azonban szem előtt tartani, hogy az így kapott következtetéseket fenntartásokkal kell kezelni. A nem valószínűségi mintavételhez az alábbi eljárások tartoznak:

Önkényes mintavétel

Az önkényes mintavétel (más néven kényelmi mintavétel) azon alapul, hogy a mintánkat a populáció legkönnyebben elérhető egyedeiből alakítjuk ki. Ez azt jelenti, hogy ez a módszer az egyes tagok bevonását illetően az egyszerűség, valamint a kényelem szempontját helyezi előtérbe. Ez történhet személyes találkozások útján, vagy különböző eszközök segítségével mint például internetes vagy telefonos toborzáson keresztül. A módszer előnyei ellenére viszont az ilyen minták alkalmazásával nem alkothatunk a populáció egészére vonatkozó általános ítéleteket, hiszen a mintánk nem reprezentatív. Például, ha egy interjúkészítő a bevásárlóközpontban zajló felmérését egyetlen napon, korán reggel végzi el, akkor az általa megkérdezett emberek, az adott időben, adott helyen megjelenőkre korlátozódnak, ezáltal a populáció bizonyos tagjai nem lesznek reprezentálva, szemben azzal, ha a felmérést más napokon, más napszakokban is megismételik. Ebből adódóan, ez a fajta mintavétel a valódi kísérleteket megelőző, bevezető teszteléseknél (pilot test) lehet a leghasznosabb.

Koncentrált mintavétel

A koncentrált mintavétel lényege, hogy a kiválasztás során tudatosan a vizsgálandó ismérvre (sokasági jellemzőre) legjellemzőbb egyedeket válogatjuk be a mintánkba. Mindez azt eredményezi, hogy a kiválasztás során háttérbe szorul a véletlenszerűség, hiszen egyes egyedek nagyobb valószínűséggel kerülnek a mintába. Ezt a módszert legtöbbször olyankor alkalmazzák, amikor erősen koncentrált sokaságot vizsgálnak, azaz olyan esetekben, amikor néhány egyed nagy súllyal vesz részt a kérdéses jellemző kialakításában. Erre egy példa, amikor különböző statisztikai jellemzők meghatározásához a legnagyobb termelő/ szolgáltató egységeket vagy éppen szervezeteket, intézményeket teljeskörűen vesznek számba, míg a kisebbeket mintavétel alapján mérik fel – a legkisebbeket pedig esetleg meg sem figyelik.

Kvótás mintavétel

A kvótás mintavétel során a populációt először egymást kölcsönösen kizáró alcsoportokra bontjuk, csakúgy, mint a rétegzett mintavétel esetén. Ezt követően az egyes szegmensekből, az így meghatározott arányoknak megfelelő számban választunk alanyokat, azaz előre meghatározzuk, hogy milyen összetételű mintához kell jutnunk. Például: egy alcsoportelemzést követően, azt a feladatot kaphatja egy interjúztató, hogy 200 nőt és 300 férfit hallgasson meg, amennyiben a populációban 2:3 arányban jelent meg a két csoport. Ez a második lépés az, ami ezt a módszert nem valószínűségi mintavételezési eljárássá teszi, mivel a kvótás mintavétel során a minta kiválasztása nem véletlenszerűen történik: az előre meghatározott kereteken belül a felvételt végző személyeken múlik a minta összetétele. A probléma ezzel az, hogy így a minták torzítottá válhatnak, hiszen nem mindenkinek van esélye a mintába való bekerülésre. A módszer legnagyobb gyengesége tehát a véletlenszerűség hiánya.

Hólabda módszerű mintavétel

A hólabda módszer lényege, hogy kezdetben a célpopulációnak csak néhány tagját keressük fel, ezt követően pedig a már megkérdezett résztvevőkön keresztül (pl. ismerőseiket bevonva) toborzunk újabb és újabb személyeket. Ez a módszer akkor lehet különösen hasznos, amikor a populáció nehezen megközelíthető vagy tagjai nehezen azonosíthatók, és a szokásos elérési módok nem elég hatékonyak.

Habár a fent említett nem valószínűségi mintavételezési eljárások gyakran meglehetősen egyszerűbbek a valószínűségi eljárásoknál, minden esetben számolni kell a módszerek természetéből adódó torzításokkal. Ilyen torzító tényezőként jelenhet meg például az is, hogy az interjúztatók hajlamosak lehetnek a számukra legszimpatikusabbnak, legsegítőkészebbnek ítélt alanyokkal elkészíteni az interjúkat.

Fordítás

Ez a szócikk részben vagy egészben a Sampling (statistics) című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.