Rangkorreláció

Innen: Hungaropédia
Ugrás a navigációhozUgrás a kereséshez

A rangkorreláció vagy rangkorrelációs együttható a valószínűségszámításban valószínűségi változók közötti kapcsolatot vizsgál a korrelációhoz hasonlóan. Az összefüggést tetszőleges monoton függvény szerint képes vizsgálni, eloszlásuk vizsgálata nélkül. A korrelációval szemben a rangkorreláció nemcsak lineáris kapcsolatot tud leírni, továbbá a kilógó adatok sem zavarják. Közelebbről két rangkorrelációs együtthatót használnak: az egyik a Spearman-rhó, a másik a Kendall-tau. Több megfigyelő észlelései közötti összefüggés vizsgálatára alkalmas a W konkordanciaegyüttható.

Számítása

N mérésből álló párral kezdünk, jelölje ezeket (xi,yi). A rangkorreláció minden xi értékhez relatívan meghatároz egy ragot a többi xj értékkel szemben, azaz hozzárendel egy számot 1,2,3,,N közül. Ezután kezelhetők ezek a számok úgy, mintha egyenletes eloszlásból származnának. Ha minden xi különböző, akkor minden szám egyszer fordul elő. Ha vannak köztük egyenlőek, akkor a középső értéket kapják, mint amit akkor rendelnének hozzájuk, ha mind különbözőek lennének. Ekkor kapcsolatokról, vagy döntetlenekről beszélnek.[1] Ez a szám lehet egész, vagy félegész. Mindkét esetben a számok összege ugyanannyi, azaz 1-től N-ig, vagyis N(N+1)/2. Ugyanezt elvégzik az yi értékekkel is, mindegyiket az yj-kkel szembeni rangjával helyettesítik. Az intervallumskálázott adatok helyettesítésével információt vesztünk, számítása azonban értelmes lehet robosztussága miatt. Ez azt jelenti, hogy kevésbé érzékeny a kilógó adatokra és a hibákra, ahogy a medián is kevésbé érzékeny ezekre, mint az átlag. Rangsorok közötti kapcsolat felderítésében a rangkorrelációnak nincs alternatívája.

Spearman-rangkorreláció

A Spearman-rangkorrelációt Charles Spearman után nevezték el, és gyakran a ρ betűvel illetve rs-sel jelölik. Elméletben ρ a Pearson szorzat-momentum-korreláció speciális esete, ahol az adatokat ranggá konvertálják, mielőtt kiszámítják a rangkorrelációt:

rs=i(rg(xi)rgx)(rg(yi)rgy)i(rg(xi)rgx)2i(rg(yi)rgy)2=1ni(rg(xi)rg(yi))rgxrgysrgxsrgy=Cov(rgx,rgy)srgxsrgy.

Ahol

rg(xi) az xi rangja,
rgx az x rangjainak középértéke,
srgx az x rangjainak tapasztalati szórása,
Cov(rg(x),rg(y)) rg(x) és rg(y)

kovarianciája.

Speciális esetek

A gyakorlatban inkább egy egyszerűbb képletet használnak, ami akkor ad helyes eredményt, ha minden rang különbözik. A nyers adatokat konvertálják, és minden párra kiszámítják a di különbséget, jelben di=rg(xi)rg(yi). Ezzel a ρ

rs=16idi2n(n21),

ahol n az értékpárok száma. Ellenben ha vannak egyező értékek, ez a képlet nem ad pontos eredményt, de ha nem sok helyen azonosak az értékek, akkor az eltérés kicsi. A pontos eredményt egy bonyolultabb képlet adja:[2]

rs=n3n12Tx12Ty6idi2(n3nTx)(n3nTy)

ahol T=k(t,k3t,k).; t,k az azonos rangú megfigyelések száma, továbbá X vagy Y helyett áll.

Példák

Első példa

Például vizsgáljuk különböző emberek magasságát és testsúlyát. A magasságok 175 cm, 178 cm és 190 cm; a testsúlyok rendre 65 kg, 70 kg és 98 kg. Ebben az esetben maximális rangkorreláció adódik, mivel a legkisebb ember a legkönnyebb és a legnagyobb ember a legnehezebb. Ha fordítva lenne, akkor a rangkorreláció is kicsi lenne. A rangkorreláció számszerűen fejezi ki az összefüggést két rangsor között.

Második példa

Adva legyenek megfigyelések két változóról, a-ról és b-ről:

i 1 2 3 4 5 6 7 8
ai 2,0 3,0 3,0 5,0 5,5 8,0 10,0 10,0
bi 1,5 1,5 4,0 3,0 1,0 5,0 5,0 9,5

A rangok meghatározására rendezik az értékeket, és normálják, azaz egyező értékek esetén középértéket vesznek. Ezután helyreállítják az eredeti sorrendet, hogy képezhessék a különbségeket.

Bemenet Rendezés(érték) Rang Rendezés(index)
IndexÉrték11,521,534,043,051,065,075,089,5 IndexÉrték51,011,521,543,034,065,075,089,5 IndexÉrtékRangNormálva51,01111,52(2+3)/221,53=2,543,04434,05565,06(6+7)/275,07=6,589,588 IndexÉrtékNormált rang11,52,521,52,534,05,043,04,051,01,065,06,575,06,589,58,0

Az adatokból a következő köztes eredmény adódik:

a értékei b értékei a rangjai b rangjai d=Rg(a)Rg(b) (Rg(a)Rg(b))2
2,0 1,5 1,0 2,5 −1,5 2,25
3,0 1,5 2,5 2,5 0,0 0,00
3,0 4,0 2,5 5,0 −2,5 6,25
5,0 3,0 4,0 4,0 0,0 0,00
5,5 1,0 5,0 1,0 4,0 16,00
8,0 5,0 6,0 6,5 −0,5 0,25
10,0 5,0 7,5 6,5 1,0 1,00
10,0 9,5 7,5 8,0 −0,5 0,25
        =26

A táblázat a értékei szerint vannak rendezve. Fontos, hogy az értékekhez rangok legyenek rendelve. A sorban kétszer jelenik meg a 3 érték, rangjuk az átlagos (2+3)/2 = 2,5. Ugyanez történik a b adatsornál is.

Werte von a Werte von b ta,k ta,k3ta,k tb,k tb,k3tb,k
2,0 1,5 1 0 2 6
3,0 1,5 2 6 - -
3,0 4,0 - - 1 0
5,0 3,0 1 0 1 0
5,5 1,0 1 0 1 0
8,0 5,0 1 0 2 6
10,0 5,0 2 6 - -
10,0 9,5 - - 1 0
    Ta=12 Tb=12

A Horn-korrekcióval

rs=83866626(83812)(83812)=3364920,6829.

adódik.

A szignifikancia meghatározása

Teszt szempontjából a ρ érték vizsgálata, hogy nullától különbözik-e, permutációteszt. Kiszámítják annak a valószínűségét is, hogy ρ értéke legalább akkora-e, mint ahogy azt a nullhipotézis megjósolja. Ezt a módszert használhatják viszonylag kis adathalmazokon, amiken egyszerűen létrehozhatók a nullhipotézist valószínűsítő permutációk.

Kendall-tau

Szemben a Spearman-rhóval, a Kendell-tau a rangok közötti különbséget használja fel. Rendszerint a τ értéke kisebb, mint a ρ értéke. A τ együtthatót érdemes intervallumskálázott adatokra használni, ha nem normális eloszlásúak, a skálák egyenetlen beosztásúak vagy a szúrópróba mérete kicsi.

Kiszámítása

A τ számításához tekintjük az x szerint rendezett (xi,yi) és (xj,yj) párokat, ahol i=1,,n1 és j=i+1,,n; továbbá

x1x2xn.

Az első párt az összes többivel összehasonlítjuk, a második párt az első kivételével mindegyikkel, és így tovább, az utolsót nem hasonlítjuk össze egyikkel sem. Tehát n(n1)/2 páronkénti összehasonlítást végzünk. A következőket állapítjuk meg a párokról:

  • Ha xi<xj és yi<yj, akkor konkordáns.
  • Ha xi<xj és yi>yj, akkor diszkordáns.
  • Ha xixj és yi=yj, akkor kötés van Y-ban.
  • Ha xi=xj és yiyj, akkor kötés van X-ben.
  • Ha xi=xj és yi=yj, akkor kötés van X-ben és Y-ban.

Megszámoljuk a különböző párokat:

  • A konkorodánsok száma C,
  • a diszkordánsok száma D,
  • az Y-beli kötések száma TY, pontosabban a kötésben lévő, Y beli elemekből képezhető, nem rendezett adatpárok száma
  • az X-beli kötések száma TX, és
  • az X-beli és Y-beli kötések száma TXY.
Példa

A Tx ill. Ty kiszámítása: Jelölje ti a kötésben lévő (azonos) elemek i. csoportjának darabszámát az X halmazban. (pl. az X={1,2,2,5,3,8,8,8,2,9,8} adatsorban két ismétlődő adatcsoport van a "2" 3 alkalommal fordul elő, tehát t1=3, míg a "8" 4 alkalommal, tehát t2=4, további kötések nincsenek.) Tx=i(ti*(ti1))/2A fenti adatsorra tehát Tx= ( 3*(3-1) + 4*(4-1) ) /2 = 9 Ty hasonlóan számolható az Y halmazra vonatkozóan.

A Kendall-τ a konkordáns és a diszkordáns párok számát hasonlítja össze:

τ=CD(C+D+TX)(C+D+TY)

Ha τ pozitív, akkor több konkordáns pár van, mint diszkordáns. Ami azt jelenti, hogy ha xixj, akkor valószínűbb, hogy yiyj. Ha negatív, akkor a diszkordáns párokból van több, vagyis ha xixj, akkor az a valószínűbb, hogy yiyj. Az (C+D+TX)(C+D+TY) normálja a Kendall-τ értékét, így

1τ+1.

Tesztben

Tekintve egy T valószínűségi változót, Kendall belátta, hogy ha a tesztben

H0:τ=0 vs. H1:τ0,

akkor a nullhipotézis teljesülése esetén eloszlása approximatívan normális: T𝒩(0;4n+109n(n1)). Az approximációs tezt mellett permutációteszt is végezhető.

További tau együtthatók

Kendall a fent definiált számértékek felhasználásával további három τ együtthatót definiált:

Kendall-τa=CDn(n1)/2
Kendall-τb=CDC+D+TxC+D+Ty (lűsd fenn)
Kendall-τc=2m(CD)(m1)n2

A τa csak akkor alkalmazható, ha nincsenek kötések. A τb nem négyzetes kontingenciatáblákon nem érheti el a +1 illetve 1 szélsőértékeket. Nem veszi figyelembe az X-ben és Y-ban levő kötéseket. Négypróbás tesztekben τb egyezik a Φ együtthatókkal, és ha két, csak 0 és 1 értékeket felvevő valószínűségi változókat vizsgálunk, akkor a Pearson-korrelációval is.

Tetra- és polichorikus korreláció

A Likert-skálával kapcsolatban gyakran tetra- illetve polichorikus korrelációt számolnak. A tetrachorikus korrelációt bináris adatokhoz használják. Az alaphipotézis az, hogy a válaszadók valamilyen mérték szerint adtak választ arra, hogy szerintük mi mennyire teljesül rájuk. A megfigyelt Xi ordinális változók mögött többnyire Xi* folytonos változók állnak. A nem megyfigyelt változók közötti kapcsolatot tetra- és polichorikus korrelációk fejezik ki. Használata akkor javallott, ha a Likert-itemek esetén kevesebb, mint hét.[3] A gyakorlatban ehelyett a Bravais-Pearson-korrelációval dolgoznak, ám megmutatható, hogy ezzel alábecsülik a korrelációt.[4]

Becslési módszerek

Feltéve, hogy a Xi* valószínűségi változók páronként kétváltozós normális eloszlásúak, a maximum-likelihood-módszerrel becsülhető a meg nem figyelt valószínűségi változók közötti korreláció. Ennek két módja van: Egylépéses módszer: Az ismeretlen korreláció és az ismeretlen intervallumhatárok a maximum-likelihood-függvény paraméterei; azaz egyetlen lépésben becslik őket. Kétlépéses módszer: Először az intervallumhatárokat becslik azzal a feltevéssel, hogy az Xi* változók eloszlása normális. A második lépésben kerül sor a korrelációra.

A tetrachorikus korreláció approximációs képlete

X1\X2 0 1
0 n00 n10
1 n01 n11

Két bináris változó esetén a tetrachorikus korreláció közelíthető úgy, mint

rtet=cos(π1+n00n11n01n10)

ahol a jelölések a jobb oldalon látható kereszttáblázat szerintiek. Egy rtet=1 korreláció pontosan akkor fordul elő, ha n00=n11=0. Hasonlóan, a rtet=+1 érték pontosan akkor fordul elő, ha n01=n10=0.

Jegyzetek

  1. lásd Fahrmeir et al. (2004): Statistik, S. 142
  2. Horn, D. (1942): A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. In: Educational and Psychological Measurement, 3, 686–690.
  3. D. J. Bartholomew, F. Steele, J. I. Galbraith, I. Moustaki (2002): The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman & Hall/CRC
  4. K. G. Jöreskog, D. Sorbom (1988): PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville

Fordítás

Ez a szócikk részben vagy egészben a Rangkorrelationskoeffizient című német Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.