Hibák és reziduálisok
A hibák és reziduálisok a statisztika és az optimalizálás témakörein belül két egymáshoz nagyon közel álló és könnyen összekeverhető fogalom, amelyek a statisztikai minta egyetlen elemének megfigyelt értékére vonatkoznak, összevetve a „teoretikusan elvárható értékkel”. A vizsgált értékhez tartozó hiba (vagy mérési zaj) a megfigyelt érték eltérése a (megfigyelhetetlen) valódi értéktől, amely egy, az érdeklődés középpontjában álló mennyiségi változó része (pl. egy populáció átlaga). A vizsgált értékhez tartozó reziduális pedig a megfigyelt érték eltérése a becsült értéktől (pl. egy adott minta átlaga). A megkülönböztetés a regresszióelemzés alkalmazásakor kiemelt fontosságú, ahol a fogalmakat regressziós hibáknak és regressziós reziduumoknak nevezik, amelyekből levezethető az ún. studentizált reziduálisok koncepciója.
Problémafelvetés
[szerkesztés]Tegyük fel, hogy vannak megfigyelt adataink egy egyváltozós eloszlásból, és meg szeretnénk becsülni az eloszlás átlagát (lokációs modell). Ebben az esetben a hibák a megfigyelt értékek eltérései a populáció átlagától, míg a reziduumok a minta átlagától való eltérések.
A statisztikai hiba (vagy zaj) az a mennyiség, amellyel a megfigyelt érték eltér az előre várt, a teljes populáció alapján megállapított értéktől, amely populációból a mintát véletlenszerűen kiválasztottuk.
Például, ha a populációban a 21 éves férfiak átlagos magassága 175 cm és a véletlenszerűen kiválasztott személy 180 cm, a „hiba” mértéke 5 cm. Ha a kiválasztott személy 170 cm, a „hiba” akkor is 5 cm. A várható érték, amely a teljes populáció átlaga, általában nem megfigyelhető és éppen ezért a statisztikai hiba sem válik közvetlenül vizsgálhatóvá.
A reziduális (vagy illeszkedéstől való eltérés) másrészt egy megvizsgálható becslés a nem megfigyelhető statisztikai hibáról. A magasságmérős példánál maradva: tegyük fel, hogy véletlenszerű mintánk van n személyről. A mintaátlag jó becslést adhat a populáció átlagáról.
Ebben az esetben megállapítható:
- A mintában szereplő férfiak magassága és a populáció átlagos magassága közötti eltérés egy statisztikai hiba, miközben
- A mintában szereplő férfiak magassága és a megfigyelhető mintaátlag közötti eltérés egy reziduális.
Fontos, hogy a mintaátlag definíciójából következően a véletlenszerű mintában megfigyelhető reziduálisok összege szükségszerűen 0, tehát a reziduumok következésképpen nem függetlenek egymástól. A statisztikai hibák azonban függetlenek és összegük szinte bizonyosan nem nulla a véletlen mintán belül (hiszen a populáció- és mintaátlagok eltérőek).
Statisztikai elemzések során a statisztikai hibák (különösen normális eloszlás esetén) egy standard pontszámmal (z-érték számítása) standardizálhatók, míg a reziduálisok t-próbával vagy még általánosabban az ún. studentizált „törölt” reziduálisok számításával.
Egyváltozós eloszlásokban
[szerkesztés]Ha egy normális eloszlású populációt vizsgálunk, amelynek átlaga μ és szórása σ, emellett az esetek függetlenek egymástól, akkor az értékeink:
a mintaátlag pedig:
amely egy véletlen változó az alábbi eloszlással:
A statisztikai hibák ekkor:
- amelyek várható értéke hagyományosan nulla[1]
míg a reziduálisok:
A statisztikai hibák négyzeteinek összege, elosztva σ2-tel, khí-négyzet eloszlást mutat, n szabadságfokkal:
Azonban ez a mennyiség nem vizsgálható, mivel a populáció átlaga ismeretlen. A reziduumok négyzeteinek összege ugyanakkor megfigyelhető. Ezt az összeget elosztva a varianciával (σ2) egy khí-négyzet eloszlást kapunk, csupán n – 1 szabadságfokkal:
Ez a különbség n és n – 1 szabadságfok között a Bessel-féle korrekciót igényli a szimpla variancia becslésére egy olyan populációban, amelynek sem átlagát, sem varianciáját nem ismerjük. Ha ismert a populáció átlaga, nem szükséges korrekciót alkalmazni.
Külön hangsúlyozandó, hogy a reziduumok négyzetének összege és a mintaátlag egymástól függetlenek, amely bizonyítható például a Basu-tétel alkalmazásával. Ez, valamint a normális és a khí-négyzet eloszlás által fentebb kialakított formulák alkotják a számítások alapját, többek közt a t-statisztikát:
ahol jelenti a hibákat, jelenti a minta szórását n méretű minta esetén, és ismeretlen szórással (σ), a nevezőben szereplő kifejezés pedig a hibák szórását mutatja meg, az alábbiaknak megfelelően:
A számláló és a nevező valószínűség-eloszlásai a populáció nem megfigyelhető standard szórásától függenek, azonban σ a tört mindkét részében megjelenik, így számításkor eltűnik. Ez rendkívül kedvező, mivel még akkor is tudjuk a kvóciens valószínűség-eloszlását, ha nem ismerjük a szórást: a valószínűség-eloszlást Student t-eloszlás és n – 1 szabadságfok jellemzi. Ugyanakkor használhatjuk arra is a hányadost, hogy μ számára konfidenciaintervallumot számítsunk. Ez a t-statisztika úgy interpretálható, mint „a standard hibák száma hány szórásnyira van a regressziós vonaltól”.[2]
Egyéb statisztikai kifejezések – „hiba” vagy „eltérés”
[szerkesztés]A „hiba”, ahogyan a korábbiakban megtárgyaltuk, a megfigyelt érték egy bizonyos eltérése a hipotetikusan nem megfigyelhető értéktől. Ezen kívül a statisztikában még legalább két másik értelmezése használatos, amelyek a megfigyelhető bejósló hibákról adnak információt:
Az átlagos négyzetes eltérés (MSE, Mean square error) és a négyzetes középérték (RMSE, Root Mean Square Error) az a mennyiség, amennyivel a vizsgált értékek eltérnek az előre megbecsült értékektől (a mintán kívüli adatokból készített becslés alapján).
A négyzetes hibaösszeg (SSE, Sum of Squared Errors) a regresszióanalízis során kapott reziduumok négyzetének összege; ez a megfigyelt értékek és a becsült értékek eltérésének négyzetének összege, a mintán belüli adatokból készített becslés eredményeit felhasználva. Ugyanezt nevezik a legkisebb négyzetek becslésének is, amikor a regressziós koefficiensek a négyzetek összegének minimalizálására törekszenek (tehát a deriváltjuk nulla).
Ehhez hasonlóan, az abszolút eltérések összege (SAE, Sum of Absolute Errors) a reziduumok abszolút értékein alapszik, amely a regresszióanalízisben a legkisebb abszolút eltérések számításával törekszik a modellhez való közelítésre.
Jegyzetek
[szerkesztés]- ↑ Wetherill, G. Barrie.. Intermediate statistical methods. London: Chapman and Hall (1981. január 2.). ISBN 0-412-16440-X. OCLC 7779780
- ↑ Bruce, Peter C., 1953-. Practical statistics for data scientists : 50 essential concepts, Bruce, Andrew, 1958-, First edition. ISBN 978-1-4919-5293-1. OCLC 987251007