Rangkorreláció
A rangkorreláció vagy rangkorrelációs együttható a valószínűségszámításban valószínűségi változók közötti kapcsolatot vizsgál a korrelációhoz hasonlóan. Az összefüggést tetszőleges monoton függvény szerint képes vizsgálni, eloszlásuk vizsgálata nélkül.
A korrelációval szemben a rangkorreláció nemcsak lineáris kapcsolatot tud leírni, továbbá a kilógó adatok sem zavarják.
Közelebbről két rangkorrelációs együtthatót használnak: az egyik a Spearman-rhó, a másik a Kendall-tau. Több megfigyelő észlelései közötti összefüggés vizsgálatára alkalmas a W konkordanciaegyüttható.
Számítása
[szerkesztés]mérésből álló párral kezdünk, jelölje ezeket . A rangkorreláció minden értékhez relatívan meghatároz egy ragot a többi értékkel szemben, azaz hozzárendel egy számot közül. Ezután kezelhetők ezek a számok úgy, mintha egyenletes eloszlásból származnának. Ha minden különböző, akkor minden szám egyszer fordul elő. Ha vannak köztük egyenlőek, akkor a középső értéket kapják, mint amit akkor rendelnének hozzájuk, ha mind különbözőek lennének. Ekkor kapcsolatokról, vagy döntetlenekről beszélnek.[1] Ez a szám lehet egész, vagy félegész. Mindkét esetben a számok összege ugyanannyi, azaz 1-től -ig, vagyis .
Ugyanezt elvégzik az értékekkel is, mindegyiket az -kkel szembeni rangjával helyettesítik.
Az intervallumskálázott adatok helyettesítésével információt vesztünk, számítása azonban értelmes lehet robosztussága miatt. Ez azt jelenti, hogy kevésbé érzékeny a kilógó adatokra és a hibákra, ahogy a medián is kevésbé érzékeny ezekre, mint az átlag. Rangsorok közötti kapcsolat felderítésében a rangkorrelációnak nincs alternatívája.
Spearman-rangkorreláció
[szerkesztés]A Spearman-rangkorrelációt Charles Spearman után nevezték el, és gyakran a ρ betűvel illetve -sel jelölik.
Elméletben ρ a Pearson szorzat-momentum-korreláció speciális esete, ahol az adatokat ranggá konvertálják, mielőtt kiszámítják a rangkorrelációt:
Ahol
- az rangja,
- az rangjainak középértéke,
- az rangjainak tapasztalati szórása,
- és
kovarianciája.
Speciális esetek
[szerkesztés]A gyakorlatban inkább egy egyszerűbb képletet használnak, ami akkor ad helyes eredményt, ha minden rang különbözik.
A nyers adatokat konvertálják, és minden párra kiszámítják a különbséget, jelben . Ezzel a ρ
ahol az értékpárok száma.
Ellenben ha vannak egyező értékek, ez a képlet nem ad pontos eredményt, de ha nem sok helyen azonosak az értékek, akkor az eltérés kicsi. A pontos eredményt egy bonyolultabb képlet adja:[2]
ahol .; az azonos rangú megfigyelések száma, továbbá vagy helyett áll.
Példák
[szerkesztés]Első példa
[szerkesztés]Például vizsgáljuk különböző emberek magasságát és testsúlyát. A magasságok 175 cm, 178 cm és 190 cm; a testsúlyok rendre 65 kg, 70 kg és 98 kg.
Ebben az esetben maximális rangkorreláció adódik, mivel a legkisebb ember a legkönnyebb és a legnagyobb ember a legnehezebb. Ha fordítva lenne, akkor a rangkorreláció is kicsi lenne. A rangkorreláció számszerűen fejezi ki az összefüggést két rangsor között.
Második példa
[szerkesztés]Adva legyenek megfigyelések két változóról, a-ról és b-ről:
i 1 2 3 4 5 6 7 8 2,0 3,0 3,0 5,0 5,5 8,0 10,0 10,0 1,5 1,5 4,0 3,0 1,0 5,0 5,0 9,5
A rangok meghatározására rendezik az értékeket, és normálják, azaz egyező értékek esetén középértéket vesznek. Ezután helyreállítják az eredeti sorrendet, hogy képezhessék a különbségeket.
Bemenet | Rendezés(érték) | Rang | Rendezés(index) |
---|---|---|---|
Az adatokból a következő köztes eredmény adódik:
a értékei | b értékei | a rangjai | b rangjai | ||
---|---|---|---|---|---|
2,0 | 1,5 | 1,0 | 2,5 | −1,5 | 2,25 |
3,0 | 1,5 | 2,5 | 2,5 | 0,0 | 0,00 |
3,0 | 4,0 | 2,5 | 5,0 | −2,5 | 6,25 |
5,0 | 3,0 | 4,0 | 4,0 | 0,0 | 0,00 |
5,5 | 1,0 | 5,0 | 1,0 | 4,0 | 16,00 |
8,0 | 5,0 | 6,0 | 6,5 | −0,5 | 0,25 |
10,0 | 5,0 | 7,5 | 6,5 | 1,0 | 1,00 |
10,0 | 9,5 | 7,5 | 8,0 | −0,5 | 0,25 |
A táblázat a értékei szerint vannak rendezve. Fontos, hogy az értékekhez rangok legyenek rendelve. A sorban kétszer jelenik meg a 3 érték, rangjuk az átlagos (2+3)/2 = 2,5. Ugyanez történik a b adatsornál is.
Werte von a | Werte von b | ||||
---|---|---|---|---|---|
2,0 | 1,5 | 1 | 0 | 2 | 6 |
3,0 | 1,5 | 2 | 6 | - | - |
3,0 | 4,0 | - | - | 1 | 0 |
5,0 | 3,0 | 1 | 0 | 1 | 0 |
5,5 | 1,0 | 1 | 0 | 1 | 0 |
8,0 | 5,0 | 1 | 0 | 2 | 6 |
10,0 | 5,0 | 2 | 6 | - | - |
10,0 | 9,5 | - | - | 1 | 0 |
A Horn-korrekcióval
adódik.
A szignifikancia meghatározása
[szerkesztés]Teszt szempontjából a érték vizsgálata, hogy nullától különbözik-e, permutációteszt. Kiszámítják annak a valószínűségét is, hogy értéke legalább akkora-e, mint ahogy azt a nullhipotézis megjósolja.
Ezt a módszert használhatják viszonylag kis adathalmazokon, amiken egyszerűen létrehozhatók a nullhipotézist valószínűsítő permutációk.
Kendall-tau
[szerkesztés]Szemben a Spearman-rhóval, a Kendell-tau a rangok közötti különbséget használja fel. Rendszerint a értéke kisebb, mint a értéke. A együtthatót érdemes intervallumskálázott adatokra használni, ha nem normális eloszlásúak, a skálák egyenetlen beosztásúak vagy a szúrópróba mérete kicsi.
Kiszámítása
[szerkesztés]A számításához tekintjük az szerint rendezett és párokat, ahol és ; továbbá
Az első párt az összes többivel összehasonlítjuk, a második párt az első kivételével mindegyikkel, és így tovább, az utolsót nem hasonlítjuk össze egyikkel sem. Tehát páronkénti összehasonlítást végzünk.
A következőket állapítjuk meg a párokról:
- Ha és , akkor konkordáns.
- Ha és , akkor diszkordáns.
- Ha és , akkor kötés van -ban.
- Ha és , akkor kötés van -ben.
- Ha és , akkor kötés van -ben és -ban.
Megszámoljuk a különböző párokat:
- A konkorodánsok száma ,
- a diszkordánsok száma ,
- az -beli kötések száma ,
- az -beli kötések száma , és
- az -beli és -beli kötések száma .
A Kendall- a konkordáns és a diszkordáns párok számát hasonlítja össze:
Ha pozitív, akkor több konkordáns pár van, mint diszkordáns. Ami azt jelenti, hogy ha , akkor valószínűbb, hogy . Ha negatív, akkor a diszkordáns párokból van több, vagyis ha , akkor az a valószínűbb, hogy . Az normálja a Kendall- értékét, így
Tesztben
[szerkesztés]Tekintve egy valószínűségi változót, Kendall belátta, hogy ha a tesztben
- vs. ,
akkor a nullhipotézis teljesülése esetén eloszlása approximatívan normális: . Az approximációs tezt mellett permutációteszt is végezhető.
További tau együtthatók
[szerkesztés]Kendall a fent definiált számértékek felhasználásával további három együtthatót definiált:
- (lűsd fenn)
A csak akkor alkalmazható, ha nincsenek kötések. A nem négyzetes kontingenciatáblákon nem érheti el a illetve szélsőértékeket. Nem veszi figyelembe az -ben és -ban levő kötéseket. Négypróbás tesztekben egyezik a együtthatókkal, és ha két, csak 0 és 1 értékeket felvevő valószínűségi változókat vizsgálunk, akkor a Pearson-korrelációval is.
Tetra- és polichorikus korreláció
[szerkesztés]A Likert-skálával kapcsolatban gyakran tetra- illetve polichorikus korrelációt számolnak. A tetrachorikus korrelációt bináris adatokhoz használják. Az alaphipotézis az, hogy a válaszadók valamilyen mérték szerint adtak választ arra, hogy szerintük mi mennyire teljesül rájuk.
A megfigyelt ordinális változók mögött többnyire folytonos változók állnak. A nem megyfigyelt változók közötti kapcsolatot tetra- és polichorikus korrelációk fejezik ki.
Használata akkor javallott, ha a Likert-itemek esetén kevesebb, mint hét.[3] A gyakorlatban ehelyett a Bravais-Pearson-korrelációval dolgoznak, ám megmutatható, hogy ezzel alábecsülik a korrelációt.[4]
Becslési módszerek
[szerkesztés]Feltéve, hogy a valószínűségi változók páronként kétváltozós normális eloszlásúak, a maximum-likelihood-módszerrel becsülhető a meg nem figyelt valószínűségi változók közötti korreláció. Ennek két módja van:
Egylépéses módszer: Az ismeretlen korreláció és az ismeretlen intervallumhatárok a maximum-likelihood-függvény paraméterei; azaz egyetlen lépésben becslik őket.
Kétlépéses módszer: Először az intervallumhatárokat becslik azzal a feltevéssel, hogy az változók eloszlása normális. A második lépésben kerül sor a korrelációra.
A tetrachorikus korreláció approximációs képlete
[szerkesztés]\ | 0 | 1 |
---|---|---|
0 | ||
1 |
Két bináris változó esetén a tetrachorikus korreláció közelíthető úgy, mint
ahol a jelölések a jobb oldalon látható kereszttáblázat szerintiek.
Egy korreláció pontosan akkor fordul elő, ha . Hasonlóan, a érték pontosan akkor fordul elő, ha .
Jegyzetek
[szerkesztés]- ↑ lásd Fahrmeir et al. (2004): Statistik, S. 142
- ↑ Horn, D. (1942): A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. In: Educational and Psychological Measurement, 3, 686–690.
- ↑ D. J. Bartholomew, F. Steele, J. I. Galbraith, I. Moustaki (2002): The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman & Hall/CRC
- ↑ K. G. Jöreskog, D. Sorbom (1988): PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville
Fordítás
[szerkesztés]Ez a szócikk részben vagy egészben a Rangkorrelationskoeffizient című német Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.