Medián

A medián a statisztika egy nevezetes középértéke, úgynevezett helyzeti középérték: az az érték, amelytől mérve az elemek abszolút távolságainak összege minimális. Meghatározása: véges elemszámú sokaság esetén a medián a sorba rendezett adatok közül a középső érték, vagy másképpen: a medián az az érték, amely a sorba rendezett adatokat két egyenlő részre osztja. A gyakorlatban problémát jelent, ha páros számú adat vagy ismétlődő értékek vannak. Folytonos valószínűségi változó esetén a mediánnál húzott függőleges vonal a valószínűségsűrűségi függvény görbe alatti területét pont elfelezi.

Ahhoz, hogy mediánt számíthassunk a populáció (sokaság) egy ismérvére vonatkozóan, az ismérvnek legalább ordinális mérési szintűnek (sorbarendezhetőnek) kell lennie.

Ha a sokaság elemeinek száma páratlan és az értékek nem ismétlődnek, akkor az iménti meghatározás egyértelmű, mert akkor van egy középső adat, amely előtt ugyanannyi adat van, mint utána. Páros számú nem ismétlődő értékű elem esetén két középső adat van, ez esetben a kettő közötti bármelyik érték mediánnak tekinthető. A gyakorlatban a két érték számtani közepét szokták megadni. Néha a két középső értéket alsó, illetve felső mediánként adják meg.

A két esetet egyszerre figyelembe véve a medián definíciója: az az érték, amelynél az adatok legfeljebb 50%-a kisebb és legfeljebb 50%-a nagyobb. A medián a kvantilisek közül a legegyszerűbb, vagyis statisztikai sokaságot kétfelé vágó érték.

Az x valószínűségi változó mediánját ${\tilde {x}}$ vagy $\mu _{1/2}(x)\,\!$ jelöli.^[1]

Példák

Páratlan elemszám esetén:

1

2

5

4

3

1

4

3

4

3

5

1

A rendezett sokaság:

1

2

3

4

5

A medián a középső elem:

1

2

3

4

5

Páros elemszám esetén:

1

4

2

4

2

3

5

3

1

A rendezett sokaság:

1

2

3

4

5

A medián a középső elemek számtani közepe: 2,5.

Egyenértékű megfogalmazásai

A medián valamely értékekre vonatkoztatva az az érték, aminél a többinek a fele nagyobb és a fele kisebb (természetesen páros elemszám esetén a számtani közepet kell venni). Például egy népesség életkorának a mediánja az az életkor, aminél a népességnek pont a fele idősebb és pont a fele fiatalabb.

A medián az az x szám, melytől a sokaság elemeinek abszolút eltérés összege a legkisebb:

|x-x_{1}|+|x-x_{2}|+...+|x-x_{n}|=min

A valószínűségszámításban:

A medián az a μ érték, ahol az eloszlásfüggvény: 1/2: F(μ)=1/2.

Az exponenciális eloszlás mediánja: μ = (ln2)/λ.

A medián minimáltulajdonsága: Ha x-nek létezik várható értéke, akkor az |x-c| várható értéke akkor minimális, ha c=μ (a medián): M(|x-c|)>=M(|x-μ|).

Magasabb dimenzióban

A többdimenziós statisztikában az

E(\left|X-c\right|)

minimalizáló c vektorát centroidnak is nevezik,^[2] ahol $E(\left|X-c\right|)$ egy adott normában értendő. Ez megfelel az egydimenziós eset abszolútértékének. A centroid szót azonban más jelentésben is használják.

Ha a centroidot az eloszlás egy leszűkítésére veszik, akkor medioidnak hívják. Ez a ponthalmaz származhat például egy másik eloszlásból.

Alkalmazása

A kilógó adatokkal szembeni kis érzékenysége miatt jobban jellemzi a nem normális eloszlásokat, mint az átlag, vagy a várható érték.

Példa: 10 személy közül egynek 1 000 000 a jövedelme, a többinek 1000. Ekkor az átlagjövedelem 100 900, míg a medián 1000.

A képfeldolgozásban a monokróm bitképeken gyakran látható egy zajféleség, amiben minden pixel a szomszédoktól függetlenül egy adott kis valószínűség szerint lesz fehér, egy hasonlóan kis valószínűséggel lesz fekete, és egy egyhez közeli valószínűséggel változatlan marad. Az efféle zaj jól csökkenthető az adott pixelből és szomszédjaiból (3 x 3-as négyzet) kapott medián használatával.

Alternatívái

A medián egy alternatívájaként Amartya Sen bevezette a jólléti függvényt a jövedelmek eloszlásának vizsgálatára.

Általánosítása

A medián helyett n-kvantilisek is használhatók, amik az alapsokaságot n egyenlő részre osztják. A medián a második kvartilis, az ötödik decilis, és az ötvenedik percentilis.

Néhány kvantilisnek latin eredetű, önálló neve van:

3-kvantilisek: tercilisek
4-kvantilisek: kvartilisek
5-kvantilisek: kvintilisek
9-kvantilisek: nonilisek
10-kvantilisek: decilisek
12-kvantilisek: duodecilisek
20-kvantilisek: vigintilisek
100-kvantilisek: percentilisek

Általánosabban, az eloszlásfüggvény inverzét nevezik az adott eloszlás kvantilisfüggvényének.

Története

Gustav Fechner népszerűsítette a medián használatát a formális adatelemzésben, bár korábban Pierre-Simon de Laplace már használta.^[3]

Lásd még

Jegyzetek

↑ http://mathworld.wolfram.com/StatisticalMedian.html
↑ Carvalho, Luis & Lawrence, Charles (2008), "Centroid estimation in discrete high-dimensional spaces with applications in biology", Proc Natl Acad Sci U S A 105 (9): 3209-3214, DOI 10.1073/pnas.0712329105
↑ Keynes, John Maynard; A Treatise on Probability (1921), Pt II Ch XVII §5 (p 201).

Források

R.J. Serfling. Approximation Theorems of Mathematical Statistics. John Wiley & Sons, 1980.
Brown, George W. ”On Small-Sample Estimation.” The Annals of Mathematical Statistics, Vol. 18, No. 4 (Dec., 1947), pp. 582–585.
Lehmann, E. L. “A General Concept of Unbiasedness” The Annals of Mathematical Statistics, Vol. 22, No. 4 (Dec., 1951), pp. 587–592.
Allan Birnbaum. 1961. “A Unified Theory of Estimation, I”, The Annals of Mathematical Statistics, Vol. 32, No. 1 (Mar., 1961), pp. 112–135
van der Vaart, H. R. 1961. “Some Extensions of the Idea of Bias” The Annals of Mathematical Statistics, Vol. 32, No. 2 (Jun., 1961), pp. 436–447.
Parametric Statistical Theory. Walter de Gruyter (1994) MR 1291393

További információk

Python-szkript a medián kiszámítására Archiválva 2011. július 19-i dátummal a Wayback Machine-ben
Példa a medián robusztusságának kihasználására

Matematikaportál • összefoglaló, színes tartalomajánló lap

[1] ttp://mathworld.wolfram.com/StatisticalMedian.html

[Centroid-2] Carvalho, Luis & Lawrence, Charles (2008), "Centroid estimation in discrete high-dimensional spaces with applications in biology", Proc Natl Acad Sci U S A 105 (9): 3209-3214, DOI 10.1073/pnas.0712329105

[keynesProb-3] Keynes, John Maynard; A Treatise on Probability (1921), Pt II Ch XVII §5 (p 201).

[1]

[2]

[3]