Ugrás a tartalomhoz

Bootstrapping (statisztika)

A Wikipédiából, a szabad enciklopédiából

A bootstrapping egy statisztikai eljárás, amely az adatok (vagy egy, az adatokból becsült modell) újramintavételezésével (gyakran visszatevéssel (with replacement - WR) - amikor egy elem többször is előfordulhat a mintában) statisztikai mutatók eloszlásának becslésére szolgál.[1] A bootstrapping módszerrel ismételt mintavételezés segítségével becsléseket készítünk, és ezeket olyan mérőszámokkal értékeljük, mint a torzítás (mennyire tér el a becslés a valós értéktől), a variancia (a becslések szórása), a konfidenciaintervallumok (a becslés megbízhatósági tartománya), és a predikciós hiba (a becslés pontossága), hogy jobban megértsük, mennyire megbízhatóak az eredményeink. [2][3] Ez a módszer lehetővé teszi szinte bármilyen statisztikai mutató mintavételi eloszlásának becslését véletlen mintavételezési eljárások alkalmazásával. [1]

A bootstrapping módszer az eredeti becsült érték tulajdonságait (például a varianciáját) úgy méri, hogy az adathalmazból véletlenszerűen többször mintát vesz, és ezek alapján elemzi a minta jellemzőit. A bootstrapet bevezető Efron tanulmányának[4] egy kulcsfontosságú eredménye, hogy a visszatevéses mintavételezést alkalmazó bootstrap módszerek kedvezőbb teljesítményt nyújtanak a korábbi, visszatevés nélküli mintavételt alkalmazó bootstrap módszerekhez képest, mint például a jackknife A bevezetése óta azonban a bootstrap számos változatát javasolták, beleértve a visszatevés nélküli mintavételezést vagy az eredeti adatoknál nagyobb vagy kisebb bootstrap-minták létrehozását.

A bootstrapping hipotézisvizsgálatok felépítésére is használható.[5] Gyakran használják alternatívaként a paraméteres modellre alapozott statisztikai következtetéssel szemben, különösen akkor, ha a paraméteres eljárás feltételei megkérdőjelezhetőek, vagy ha a paraméteres következtetés lehetetlen vagy bonyolult képleteket igényel a standard hibák kiszámításához.

Története

[szerkesztés]

A bootstrapping módszert először Bradley Efron írta le „Bootstrap methods: another look at the jackknife[4] című, 1979-es cikkében, amelyet a jackknife módszeren alapuló korábbi kutatások ihlettek.[6][7][8] Későbbiekben továbbfejlesztették, hogy pontosabb varianciabecsléseket nyújtson.[9][10] 1981-ben kidolgozták a módszer bayesiánus kiterjesztését is.[11] Efron 1987-ben[12] bevezette a torzítás-korrigált és gyorsított bootstrapping eljárást, majd 1992-ben egy közelítő bootstrap konfidenciaintervallum-módszert is kidolgozott.[13]

Eljárás

[szerkesztés]

A bootstrapping alapgondolata, hogy a mintaadatokból a populációra való következtetéseket (minta → populáció) a mintaadatok újramintavételezésével lehet modellezni, és így a mintából újramintavételezett adatok alapján lehet következtetéseket levonni (új mintavétel → minta).[14] Mivel a populáció ismeretlen, a mintastatisztika és annak populációbeli értéke közötti valódi hiba sem ismert. A bootstrap módszerrel vett új mintavétel esetében azonban a "populáció" valójában a minta, ami ismert; így az „eredeti” mintára vonatkozó következtetések pontossága az újramintavételezett adatokból (új mintavétel → minta) mérhető.

A minta egy populációból kerül kiválasztásra. Ebből a mintából visszatevéses mintavételezéssel (narancssárga) új mintákat hozunk létre. Az egynél többször kiválasztott adatpontok (ami az adatpontok kb. 26,4%-ánál fordul elő) piros színnel és enyhén eltolva jelennek meg. Az új mintákból kiszámítjuk az x statisztikát, és így kiszámítható egy hisztogram az x eloszlásának becsléséhez.

A bootstrap módszer lényege, hogy az eredeti mintából (amit a populáció egy részének tekintünk) visszatevéses mintavételezés által új mintákat hozunk létre, és ezekből a mintákból statisztikai mutatókat számítunk ki. Az új mintavétel általi minta statisztikai mutatóinak eloszlása adja az empirikus eloszlást (Ĵ), amely az eredeti minta alapján képződik. Mivel az empirikus eloszlás (Ĵ) az eredeti mintán alapul, meg tudjuk állapítani, hogy az új mintavétel által létrehozott minták alapján mennyire jól becsültük az empirikus eloszlás statisztikai mutatóit (például az átlagot vagy a szórást). Ha feltételezzük, hogy az empirikus eloszlás (Ĵ) megfelelően tükrözi a valódi populációs eloszlást (J), akkor az Ĵ-ből levont következtetéseink segítenek megbecsülni, hogy milyen hibával vagy bizonytalansággal tudjuk meghatározni a valódi populációs eloszlást (J).

Tegyük fel, hogy a világ népességének átlagos (vagyis a középértékét jelentő) testmagassága érdekel minket. Mivel nem mérhetjük meg az egész világ lakosságát, ezért csak egy kisebb részhalmazt, azaz mintát választunk ki, és ezt mérjük meg. Tegyük fel, hogy a minta mérete N, vagyis N ember magasságát mérjük meg. Ebből az egyetlen mintából csak egyetlen becslést tudunk készíteni az átlagos magasságra vonatkozóan. Ahhoz, hogy a teljes népességre vonatkozó következtetéseket levonjunk, szükségünk van valamilyen információra arról, hogy az általunk számolt átlag mennyire változó (milyen a variabilitása). A legegyszerűbb bootstrap módszer során az eredeti magasságadatokból indulunk ki, és számítógép segítségével sok új mintát készítünk (ezt „újramintának” (“resample”) vagy bootstrap mintának nevezzük), melyek mindegyike N elemű. A bootstrap minta az eredeti mintából készül, mégpedig úgy, hogy visszatevéssel mintázunk(például, ha az eredeti minta [1,2,3,4,5] és ezt öt alkalommal újramintavételezzük, akkor egy lehetséges új mintavétel [2,5,4,4,1] lehet). Ennek eredményeként – feltéve, hogy N elég nagy – gyakorlatilag nulla az esélye, hogy az új minta pontosan megegyezzen az eredeti mintával. Ezt az eljárást nagyon sokszor megismételjük (általában 1000 vagy 10 000 alkalommal), és minden egyes bootstrap mintára kiszámítjuk az átlagot (ezeket hívjuk „bootstrap becsléseknek”). A kapott bootstrap átlagokból készíthetünk egy hisztogramot, ami megmutatja az átlag eloszlásának alakját, illetve azt, hogy az átlagok hogyan változnak különböző minták esetében. vagyis választ ad arra, hogy az átlag hogyan változhat a különböző minták esetében. Az újbóli mintavételezéssel létrehozott minták átlagainak eloszlása tehát megmutatja azt, hogy az átlag hogyan változhat különböző minták esetében, vagyis azt, hogy mekkora lehet a bizonytalanságunk az átlag becslése körül. (Az itt bemutatott módszer, amely az átlagra vonatkozik, bármilyen más statisztikai mutatóra vagy becslésre alkalmazható.)

Összegzés

[szerkesztés]

Előnyök

[szerkesztés]

A bootstrap egyik nagy előnye az egyszerűsége. Ez egy egyértelmű módszer a standard hibák és konfidencia-intervallumok becslésére összetett eloszlási paraméterek, például percentilisek, arányok, esélyhányadosok (odds ratio) és korrelációs együtthatók esetén. Egyszerűsége ellenére a bootstrap alkalmazható összetett mintavételi elrendezésekben is (például amikor a populáció s rétegre van osztva, amelyek mindegyike ns megfigyelést tartalmaz, a bootstrap alkalmazható minden egyes rétegen belül).[15] Emellett, a bootstrap egy alkalmas módszer az eredmények stabilitásának ellenőrzésére és kontrollálására. Bár a legtöbb probléma esetén lehetetlen meghatározni a valódi konfidencia-intervallumot, a bootstrap aszimptotikusan pontosabb, mint a mintavariancia és normalitás feltételezések alapján meghatározott standard intervallumok.[16] Ezen felül a bootstrap egy praktikus módszer, amely segít elkerülni az újabb minták gyűjtésének idő- és költségigényes folyamatát.

Hátrányok

[szerkesztés]

A bootstrapping eredményei nagymértékben függnek attól, hogy milyen statisztikai mutatót használunk a becsléshez. Bár a módszer egyszerű és széles körben alkalmazható, nem minden helyzetben ad megbízható eredményt. Ha nem megfelelően alkalmazzuk, az eredmények pontatlanok vagy következetlenek lehetnek, különösen nagy adathalmazok esetén.[17] Habár a bootstrapping (bizonyos feltételek mellett) nagy minták esetén statisztikailag megbízható eredményeket ad, nem garantálja a pontos becsléseket kis vagy közepes méretű minták esetén. Emellett, az eredmény függhet a minta reprezentativitásától. Az eljárás látszólagos egyszerűsége elfedheti azt a tényt, hogy fontos feltételezésekkel rendelkezünk a bootstrap elemzés során (pl. a minták függetlensége vagy a megfelelően nagy mintaméret), amelyeket más megközelítésekben formálisabban megfogalmaznának. Továbbá, a bootstrapping időigényes lehet, és nem áll rendelkezésre sok szoftver hozzá, mivel nehéz automatizálni a hagyományos statisztikai számítógépes programcsomagokkal.[15]

Javaslatok

[szerkesztés]

A kutatók azt javasolják, hogy a számítástechnikai kapacitás növekedésével használjunk több bootstrap mintát. Ha az eredmények jelentős valós következményekkel járhatnak, akkor annyi mintát érdemes használni, amennyi az elérhető számítási kapacitás és idő figyelembevételével észszerű. A minták számának növelése nem növeli az eredeti adatokban rejlő információ mennyiségét; csupán a véletlenszerű mintavételi hibák hatását csökkentheti, amelyek magából a bootstrap eljárásból fakadhatnak. Továbbá bizonyíték van arra, hogy a 100-nál nagyobb mintaszámok elhanyagolható javulást eredményeznek a standard hibák becslésében.[18] Valójában a bootstrapping módszer eredeti kifejlesztője szerint már az 50 mintaszám is valószínűleg elég jó standard hiba becslésekhez vezet.[19]

Adèr és munkatársai a bootstrap eljárást az alábbi helyzetekben ajánlják:[20]

Amikor az érdeklődés tárgyát képező statisztikai mutató elméleti eloszlása bonyolult vagy ismeretlen. Mivel a bootstrap eljárás eloszlásfüggetlen, közvetett módszert nyújt a minta mögött rejlő eloszlás és az eloszlásból származó paraméterek tulajdonságainak értékelésére.

  • Amikor a mintaméret nem elegendő az egyszerű statisztikai következtetésekhez. Ha a mögöttes eloszlás jól ismert, a bootstrap módot ad arra, hogy számba vegyük az adott mintából eredő torzításokat, amelyek esetleg nem teljes mértékben reprezentatívak a populációra nézve.
  • Amikor statisztikai erő-elemzést kell végezni, és csak egy kis próbakísérletből származó minta áll rendelkezésre. A legtöbb hatásvizsgálat és mintanagyság-számítás erősen függ az érdeklődés tárgyát képező statisztika szórásától. Ha a használt becslés helytelen, a szükséges mintanagyság is téves lesz. Az egyik módszer a statisztika szórásáról való tájékozódásra az, hogy egy kis próbakísérlethez kapcsolódó mintát használunk, és bootstrappinget végzünk rajta, hogy egy képet kapjunk a szórásról.

Ugyanakkor Athreya megmutatta,[21] hogy ha valaki naiv bootstrap eljárást alkalmaz a minták átlagára, miközben az alapul szolgáló populáció végtelen varianciával rendelkezik (például egy hatványtörvény-eloszlás esetén), akkor a bootstrap eloszlás nem fog ugyanahhoz a határértékhez konvergálni, mint a minta átlaga. Ennek következtében a Monte Carlo szimuláción alapuló bootstrap konfidencia-intervallumok félrevezetőek lehetnek.

A bootstrap rendszer típusai

[szerkesztés]

Újra mintavételezés

[szerkesztés]

A bootstrap általában hasznos egy statisztika (pl. átlag, variancia) eloszlásának becslésére anélkül, hogy normalitási feltételezéseket használnánk (mint pl. egy z-statisztika vagy egy t-statisztika esetében szükséges). Két fő módja van az újra mintavételezés elvégzésének: a Monte Carlo algoritmus és az újra mintavételezés “egzakt” változata.

  1. A Monte Carlo algoritmus során először visszatevéses újbóli mintavételezésre kerül sor - itt az új minta méretének meg kell egyeznie az eredeti adathalmaz méretével. Ezután ebből az új mintából kiszámítjuk a kívánt statisztikát. Ezt az eljárást többször megismételjük, hogy minél pontosabb becslést kapjunk a statisztika bootstrap eloszlásáról.[2]
  2. Az esetek újbóli mintavételezésének „pontos” változata hasonló, de itt felsoroljuk az adathalmaz minden lehetséges új mintáját. Ez számításigényes lehet, mivel összesen különböző új minta létezik, ahol n az adathalmaz mérete. Így n = 5, 10, 20, 30 esetén 126, 92378, 6,89 × és 5,91 × különböző új minta áll rendelkezésre.[22]

A mintaátlag eloszlásának becslése

[szerkesztés]

Vegyünk egy érmefeldobási kísérletet. Feldobunk egy érmét, és feljegyezzük, hogy fej vagy írás. Legyen X= , , ..., 10 megfigyelés a kísérletből. = 1, ha az i-edik dobás eredménye fej, másképp 0. Ha azt feltételezzük, hogy az érmefeldobások átlaga normális eloszlású, akkor t-statisztikát használhatunk a mintaátlag eloszlásának becslésére: . A normális eloszlás feltételezése igazolható úgy is, mint az egyes pénzfeldobások eloszlásának közelítése, vagy úgy, mint egy nagy számú pénzfeldobás átlagának eloszlására vonatkozó közelítés. Az előbbi gyenge közelítés, mivel a valódi eloszlás Bernoulli, nem pedig normális. Az utóbbi viszont érvényes közelítés végtelenül nagy minták esetén a centrális határeloszlás-tétel miatt. Azonban, ha nem vagyunk készek ilyen igazolást tenni, akkor használhatjuk helyette a bootstrap módszert. Újra mintavételezéssel meghatározhatjuk eloszlását. Először újramintavételezzük az adatokat, hogy új mintát kapjunk. Egy első új minta például így nézhet ki: . Előfordulnak ismétlődések, mivel a bootstrap újramintázás visszatevéssel történik. Az új minta adatpontjainak száma megegyezik az eredeti megfigyelések adatpontjainak számával. Ezután kiszámítjuk az új minta átlagát, és megkapjuk az első bootstrap átlagot: μ1∗. Ezt a folyamatot megismételjük, hogy megkapjuk a második új mintát X2∗, és kiszámítjuk a második bootstrap átlagot: μ2∗. Ha ezt 100-szor megismételjük, akkor megkapjuk a μ1∗,μ2∗,…,μ100∗ értékeket. Ez a mintaátlag empirikus bootstrap-eloszlását jelenti. Ebből az empirikus eloszlásból levezethetünk egy bootstrap konfidenciaintervallumot hipotézisvizsgálat céljából.

Regresszió

[szerkesztés]

A regressziós problémákban az újramintavételezés az egyes esetek, gyakran az adathalmaz sorainak újra mintázására szolgáló egyszerű módszerre utal. Ha az adathalmaz elég nagy, ez a módszer gyakran elfogadható. A módszer azonban kritikával illethető.[15] Regressziós problémákban a magyarázó változók gyakran rögzítettek, vagy legalábbis nagyobb kontrollal megfigyeltek, mint a válasz változók. Emellett a magyarázó változók tartománya határozza meg az általuk elérhető információt. Ezért az újra mintavételezés azt eredményezi, hogy minden bootstrap minta veszít valamennyi információt. Ennek megfelelően érdemes megfontolni alternatív bootstrap eljárásokat.

Hivatkozások

[szerkesztés]
  1. a b Horowitz, J. L. (2019). Bootstrap methods in econometrics. Annual Review of Economics, 11, 193–224. https://doi.org/10.1146/annurev-economics-080218-025651
  2. a b Efron, B., & Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL: Chapman & Hall/CRC. ISBN: 0-412-04231-2
  3. Efron, B. (2003). Second thoughts on the bootstrap. Statistical Science, 18(2), 135–140. https://doi.org/10.1214/ss/1063994968
  4. a b Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7(1), 1–26. https://doi.org/10.1214/aos/1176344552
  5. Lehmann, E. L. (1992). Introduction to Neyman and Pearson (1933) On the Problem of the Most Efficient Tests of Statistical Hypotheses. In S. Kotz & N. L. Johnson (Eds.), Breakthroughs in Statistics (Vol. 1). Springer-Verlag. ISBN: 0-387-94037-5
  6. Quenouille, M. H. (1949). Approximate tests of correlation in time-series. Journal of the Royal Statistical Society, Series B, 11(1), 68–84. https://doi.org/10.1111/j.2517-6161.1949.tb00023.x
  7. Tukey, J. W. (n.d.). Bias and confidence in not-quite large samples. Annals of Mathematical Statistics, 29, 614.
  8. Jaeckel, L. (1972). The infinitesimal jackknife. Memorandum MM72-1215-11, Bell Lab.
  9. Bickel, P. J., & Freedman, D. A. (1981). Some asymptotic theory for the bootstrap. The Annals of Statistics, 9(6), 1196–1217. https://doi.org/10.1214/aos/1176345637
  10. Singh, K. (1981). On the asymptotic accuracy of Efron's bootstrap. The Annals of Statistics, 9(6), 1187–1195. https://doi.org/10.1214/aos/1176345636
  11. Rubin, D. B. (1981). The Bayesian bootstrap. The Annals of Statistics, 9, 130–134. https://doi.org/10.1214/aos/1176345338
  12. Efron, B. (1987). Better bootstrap confidence intervals. Journal of the American Statistical Association, 82(397), 171–185. https://doi.org/10.2307/2289144
  13. DiCiccio, T., & Efron, B. (1992). More accurate confidence intervals in exponential families. Biometrika, 79(2), 231–245. https://doi.org/10.2307/2336835
  14. Good, P. (2006). Resampling Methods. (3rd ed.). Birkhäuser. ISBN: 978-0817643015
  15. a b c Adèr, H. J., Mellenbergh, G. J., & Hand, D. J. (2008). Advising on research methods: A consultant's companion. Huizen, The Netherlands: Johannes van Kessel Publishing. ISBN: 978-90-79418-01-5
  16. Athreya, K. B. (1987). Bootstrap of the mean in the infinite variance case. The Annals of Statistics, 15(2), 724–731. https://doi.org/10.1214/aos/1176350371
  17. Hinkley, D. (1994). Bootstrap: More than a stab in the dark? Statistical Science, 9(3), 400–403. https://doi.org/10.1214/ss/1177010387
  18. Goodhue, D. L., Lewis, W., & Thompson, W. (2012). Does PLS have advantages for small sample size or non-normal data? MIS Quarterly, 36(3), 981–1001. https://doi.org/10.2307/41703490
  19. Efron, B., Rogosa, D., & Tibshirani, R. (2004). Resampling methods of estimation. In N. J. Smelser & P. B. Baltes (Eds.), International Encyclopedia of the Social & Behavioral Sciences (pp. 13216–13220). Elsevier.
  20. Adèr, H. J., Mellenbergh, G. J., & Hand, D. J. (2008). Advising on research methods: A consultant's companion. Huizen, The Netherlands: Johannes van Kessel Publishing. ISBN: 978-90-79418-01-5
  21. Athreya, K. B. (1987). Bootstrap of the mean in the infinite variance case. The Annals of Statistics, 15(2), 724–731. https://doi.org/10.1214/aos/1176350371
  22. Statweb.stanford.edu. (2019). How many different bootstrap samples are there? Retrieved December 9, 2019, from https://statweb.stanford.edu