Leíró statisztika
A leíró statisztika a statisztikának azon területe, ami egy információhalmaznak a fő jellemzőit kvantitatív módon írja le.[1] A leíró statisztika elkülönül a következtetési (vagy más néven induktív) statisztikától: a következtetési statisztika (mint például a hipotézisvizsgálatok) során a populáció valamely tulajdonságára következtetünk. Röviden összefoglalva a leíró statisztika a mintát, a következtetési statisztika a populációt igyekszik megragadni.
Ez általánosságban annyit jelent, hogy a leíró statisztika, a következtetési statisztikákkal ellentétben, nem valószínűségszámításon[2] alapul. Annak ellenére, hogy az adatelemzés során használt következtetési statisztikákkal a fő következtetéseinket le tudjuk vonni a populációról, szükség van egy általános jellemzést is megadni, amihez leíró statisztikákat alkalmazunk. Például pszichológiai kísérletek esetében tipikusan szerepelnie kell, leggyakrabban táblázat formájában, a teljes minta nagyságának, az egyes alcsoportokban (például kísérleti csoport vagy kontrollcsoport) szereplő résztvevők számának illetve, egyéb demográfiai jellemzőknek, mint például a minta átlagéletkora, nemi arány, iskolai végzettségek aránya, stb.
Legfontosabb leíró statisztikai mutatók
[szerkesztés]A leggyakrabban alkalmazott leíró statisztikáknak három fő csoportját különíthetjük el:[3]
Elhelyezkedési mutatók
[szerkesztés]- Átlag: az eloszlás centruma.
- Medián: az adatok növekvő sorában a középső.
- Módusz: a legtipikusabb (leggyakoribb) érték.
- Percentilis: n-edik percentilis a változó azon kategóriája, amely az összes érték éppen n százalékánál nagyobb. Például a medián az 50. percentilis.
- Kvantilisek: a mintát adott arányban két részre osztó pontok. Felezőpont a medián, negyedelő pontok a kvartilisek, századolópontok a percentilisek.
Szóródási mutatók
[szerkesztés]- Terjedelem: az adatok legnagyobb és legkisebb elemének a különbsége. Minél kisebb, annál jobban jellemzi a mintát.
- Szórás: a változó (vagy akár egy egész csoport) átlagtól (középértéktől) való eltérését mutatja meg. Alacsony szórás esetén az értékek erősen közelítenek az átlaghoz, míg magas szórás estén az értékek távol esnek az átlagtól.
- Variancia (szórásnégyzet): azt mutatja meg, hogy egy valószínűségi változó milyen mértékben szóródik a várható (közép) értéktől.Tulajdonképpen ugyanaz a mutató mint a szórás, csak itt négyzetre van emelve.
- Interkvartilis terjedelem: az interkvartilis terjedelem azt az intervallumot jelöli, ahol az összes érték középső 50%-a helyezkedik el.
Eloszlás alakja
[szerkesztés]- Ferdeség: azt mutatja meg, hogy mennyire szimmetrikus a valószínűségi változó eloszlása.
- Csúcsosság: azt mutatja meg, hogy a valószínűségi változó „lapossága”/”csúcsossága” hogyan viszonyul a normál eloszlásáéhoz.
Fontos kiemelni, hogy a fent szereplő leíró statisztikai mutatók folytonos változók esetében használandók (kivéve a móduszt és a mediánt). Diszkrét változók esetében gyakran alkalmazott leíró statisztika a gyakorisági eloszlás vizsgálata, amely megmutatja, hogy a minta elemei hogyan oszlanak meg a csoportok között.
Ábrázolási módok
[szerkesztés]A leíró statisztikai módszereket a leíró szerepből fakadóan leginkább a mintáról és a megfigyelésekről alkotott összefoglalásként vagy adatrendszerezésként használják. Az összegzések lehetnek kvantitatívak, azaz összefoglaló statisztikák, vagy vizuálisak, azaz az értelmezést segítő grafikonok. Íme, néhány példa a leíró statisztikában alkalmazott grafikonokra:
Oszlopdiagram
[szerkesztés]Az oszlopdiagram egy olyan típusú diagram, ami a különböző diszkrét (kategorikus) változók egyes kategóriáihoz tartozó gyakoriságokat mutatja.
Hisztogram
[szerkesztés]A hisztogram egy olyan oszlopdiagram, ami a folytonos szintű változók értékeinek eloszlását mutatja meg. A hisztogramot először Karl Pearson alkalmazta (az elnevezése is tőle ered, amely eredetileg „historical diagram” volt).[4]
Dobozdiagram
[szerkesztés]A dobozdiagram (angolul „box plot”) egy, a kvartilisek mentén történő grafikus ábrázolási módja a változóknak. A dobozdiagramokat gyakran ábrázolják úgy, hogy a „dobozokból kinyúlnak” vertikálisan kiterjedő vonalak jelezve a variabilitás felső és alsó kvartiliseit. A kiugró (outlier) értékek időnként külön pontokként ábrázolódnak. A dobozdiagramok nem-parametrikusak: egy populációból származó minták eltéréseit ábrázolják, anélkül, hogy bármilyen feltételezést tennének a mögöttes valószínűség-eloszlásról. A dobozok különböző részei közötti távolságok az adatok szóródási fokát és a ferdeséget, valamint a kilógó értékeket jelzik. A dobozdiagramok lehetnek horizontális vagy vertikális irányúak is.
Alkalmazása a statisztikai elemzésekben
[szerkesztés]A leíró statisztikán alapuló összegzések képezhetik a következtetési statisztikákon alapuló, bonyolultabb statisztikai elemzések alapját, vagy önmagukban is elegendőek lehetnek egy adott vizsgálathoz. Utóbbira példa kosárlabdában a kosárra dobások százaléka, ami összefoglalja egy játékos vagy a csapat teljesítményét. Ez a szám a találatok száma elosztva a dobások számával. Például, ha egy játékos, aki 33%-os aránnyal dob, annak körülbelül minden harmadik dobása kosár. A százalék itt összefoglal vagy leír több diszkrét eseményt. Vagy vehetjük példaként a tanulmányi átlagot. Ez az egyetlen szám leírja egy tanuló általános teljesítményét az adott időperiódusban az összes tantárgyára kapott jegyei alapján.[5]
A leíró és összegző statisztikák használatának vaskos története van, valójában a különböző populációkról szóló kimutatások és gazdasági adatok igénye révén vált ismertté (főleg leíró statisztikai eszközöket alkalmaztak). Az utóbbi időben egy, az összefoglaló technikákról szóló gyűjtemény is összeállt feltáró adatelemzés címszóval. Az üzleti szférában a leíró statisztikák hasznos összefoglaló jellemzéseket biztosítanak a legkülönfélébb adatokról. A befektetők, brókerek gyakran használnak áttekintéseket a hozamok alakulásáról, empirikus és analitikai elemzéseket alkalmaznak a befektetésekre annak érdekében, hogy jobb befektetési döntéseket hozzanak a jövőben.
Egyváltozós elemzés
[szerkesztés]Az egyváltozós elemzés egyetlen változó eloszlásának leírását jelenti, beleértve az elhelyezkedési mutatókat (átlag, medián, módusz), az eloszlási mutatókat (adathalmaz eloszlása és kvantilisei) és a szóródási mutatókat (variancia, szórás). Az eloszlás alakja is jellemezhető a ferdeségi és csúcsossági mutatókkal. Egy változó eloszlásának jellegzetességeit ábrázolhatjuk grafikon vagy táblázat formájában, például hisztogrammal vagy stem-and-leaf display-jel.
Többváltozós elemzés
[szerkesztés]Amikor a minta egynél több változóból áll, a leíró statisztikákkal ábrázolhatjuk a változók közötti kapcsolatot. Ebben az esetben olyan leíró statisztikákat használunk, mint kereszttáblázat (cross-tab) és kontingencia táblázatok pontdiagramok a függőség kvantitatív vizsgálata feltételezett eloszlás leírása. Az egyváltozós és többváltozós elemzések közötti különbségtétel fő oka az, hogy a többváltozós elemzés nem egyszerűen leíró elemzés, hanem kettőnél több változó közötti kapcsolatok leírása.[6] A függőséget mérő kvantitatív módszerek közé tartozik a korreláció (mint például a Person-féle, melyet két folytonos változó esetén használunk, vagy a Spearman-féle, ha az egyik vagy egyik változónk sem folytonos eloszlású) és a kovariancia (ami annak a skálának jellemzése, melyen a változóinkat mérjük).
Jegyzetek
[szerkesztés]- ↑ Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.
- ↑ Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4.
- ↑ Investopedia, Descriptive Statistics Terms
- ↑ M. Eileen Magnello (December 2006). "Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician". The New Zealand Journal for the History and Philosophy of Science and Technology. 1 volume. OCLC 682200824.Trochim, William M. K. (2006). "Descriptive statistics". Research Methods Knowledge Base. Retrieved 14 March 2011.
- ↑ Trochim, William M. K. (2006). "Descriptive statistics". Research Methods Knowledge Base. Retrieved 14 March 2011.
- ↑ Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 0-495-59841-0.