2.3 Szóródási mérőszámok

A legfontosabb középértékek áttekintése után figyelmünket egy másik jelenség, a szóródás fogalma felé fordítjuk, ami egyszerűen azt jelenti, hogy a sokasági elemek, megfigyelések egymástól eltérnek, nem azonosak, ennek az eltérésnek a mértékét (a homogenitást, vagy épp a heterogenitást) pedig a statisztika mérni szeretné.

A szóródás mérésére szolgáló néhány mutatót tekintünk át az alábbiakban. A mutatók körét a 3.1. fejezetben tovább bővítjük.

2.3.1 Terjedelem

A legegyszerűbb szóródási mérőszám a terjedelem (R), ami a sokaság legnagyobb és legkisebb értéke közti távolságot méri:

R=X(N)X(1)

ahol a már megismert jelöléseket alkalmaztuk. A mutató gyorsan meghatározható, azonban kevéssé robusztus, egyetlen kiugró érték nagy hatással van értékére.

A terjedelem könnyedén számítható: R=X(N)X(1)=302,06312,456=289,607

A legkisebb és legnagyobb márkaérték különbsége tehát mintegy 289,6 milliárd dollár, vagy úgy is fogalmazhatunk, hogy bármely két márkaérték közötti a különbség nem nagyobb mint 289,6 milliárd dollár a TOP100 brand esetén.

2.3.2 Átlagos abszolút eltérés

Az átlagos abszolút eltérés (δ) mutatója a szóródás jelenségét már nem az értékek egymástól vett távolsága, hanem egy kitüntetett középértéktől, az átlagtól vett távolság alapján méri, méghozzá ahogy a neve is mutatja, a távolságot abszolút értékként kezelve. Ahogy azt a (2.7) formula alapján láttuk, az abszolút érték nélküli távolságok összege zérus lenne! Az így kialakított képlet:

δ=1N|Xiμ|

A mutató mértékegysége a megfigyelt adatok mértékegységével egyezik meg, intuitív, könnyen értelmezhető, nem ideális matematikai tulajdonságai (az abszolút érték függvény nehezen kezelhető sok esetben) miatt azonban nem terjedt el a gyakorlatban.

Az átlagos abszolút eltérés kiszámításához valamennyi sokasági értékből ki kell vonnunk az átlagot, majd a különbségek abszolút értékeinek átlagát kell vennünk:

δ=1N|Xiμ|==1100(|302,06343,83513|+|300,59543,83513|+++|12,45643,83513|)=33,1659

Az egyes márkaértékek tehát átlagosan 33,17 milliárd dollárral térnek el az átlagos márkaértéktől a TOP100 vállalatot tekintve 2018-ban (abszolút értelemben).

Az átlagos abszolút eltérés esetén jogosan vetődik fel (lásd (2.10)), hogy miért az átlagtól, miért nem a mediántól vett eltérést vizsgáljuk. A statisztikában létezik természetesen ez a mutatószám is, ahogy az átlagos eltéréseket bármely középértéktől, akár a módusztól is vizsgálhatnánk, ezek azonban jóval ritkábban alkalmazott mutatószámok, mint az átlagos abszolút eltérés.

2.3.3 Szórás, variancia

Az abszolút érték függvény helyett az átlagtól való eltérések előjelének kezelésére a négyzetre emelés is hatékony. A mutatót hívhatnánk átlagos négyzetes eltérésnek is, de olyan gyakran alkalmazott mutató (sokak szerint a statisztika nem az átlagok, hanem a szórások tudománya), hogy rövidebb nevet kapott: szórás (σ). A képlete:

σ=1N(Xiμ)2

A négyzetre emelések, majd a gyökvonás miatt a mutató mértékegysége szintén megegyezik az eredeti sokasági változó mértékegységével.

Gyakran dolgozik a statisztika a szórás négyzetével, a varianciával (σ2), ami önmagában nem értelmezhető, a gyökvonás hiánya miatt a mértékegysége sem releváns. Sok összefüggésben azonban a varianciák szerepelnek, így a fogalom megismerése már most fontos.

A variancia kiszámításához valamennyi sokasági értékből ki kell vonnunk az átlagot, majd a különbségek négyzeteinek átlagát kell vennünk. A szórás kiszámításához gyököt kell vonnunk a varianciából.

σ2=1N(Xiμ)2==1100((302,06343,83513)2+(300,59543,83513)2+++(12,45643,83513)2)=2911,81

A variancia értéke tehát 2911,81, amit nem értelmezünk, a gyöke σ=53,9612.

Az egyes márkaértékek tehát átlagosan 53,96 milliárd dollárral térnek el az átlagos márkaértéktől a TOP100 vállalatot tekintve 2018-ban (négyzetes értelemben). Szembetűnő az átlagos abszolút eltérés és a szórás nagyon hasonló értelmezése (de különböző a számszerű érték). A két mutató közötti különbséget a távolság mérésének módja adja.

Már ezen a helyen ki szeretnénk emelni, hogy a (2.13) képlet csak az alapsokaságból számított szórás esetén helytálló. Ahogyan azt a 8.2.3. fejezetben látni fogjuk, a mintából számított szórás képletének logikája a fentitől némileg eltér. A legtöbb szoftverben ezért a szórás kiszámításához két különböző képlet is tartozik.

2.3.4 Relatív szórás

Amint azt láttuk, a szórás mértékegysége megegyezik az eredeti adatokéval, így ha két sokaságot, vagy egy sokaságot két változó heterogenitása, szóródása alapján szeretnénk összehasonlítani, akkor az eltérő mértékegységek, vagy egyszerűen a változók különböző nagyságrendje miatt ezt nem tehetjük meg. A relatív szórás éppen arra szolgál, hogy összehasonlíthatóvá tegyük ezeket a mutatókat. A relatív szórás a sokaság szórását a sokasági átlaghoz viszonyítja, általában százalékos formában értelmezzük, illetve feltesszük, hogy az átlag nem 0.

V=σμ

A relatív szórás mutatóját a korábbi eredmények alapján számítjuk ki.

V=σμ=53,961243,83513=1,231

A relatív szórás mutatója 1,23, vagy 123%. Az egyes márkaértékek az átlagos márkaértéktől tehát átlagosan 123%-kal térnek el. Amint azt a példa is mutatja, a mutató értéke akár 1 feletti is lehet, ebben az esetben nagyon erős szóródást, azaz heterogenitást figyelünk meg.

2.3.5 Szórás tulajdonságai

Ebben az alpontban a szórás -- mint a leggyakrabban alkalmazott szóródási mutató -- néhány tulajdonságát, illetve a szóráshoz és a varianciához kapcsolódó összefüggést, fogalmat mutatunk be.

  1. A variancia számlálóját eltérés-négyzetösszegnek nevezzük, angol neve sum of squares, gyakori rövidítése SS. Az eltérés-négyzetösszeg fontos szerepet fog játszani a későbbi tanulmányok során, itt csupán annyit jegyzünk meg, hogy a variancia számlálójában lévő zárójelek felbontásával az alábbi formulát kapjuk:

SS=Ni=1(Xiμ)2=X2iNμ2

  1. A (2.15) összefüggésből egyszerűen adódik az ún. variancia átlagfelbontás képlete. A variancia tehát kifejezhető a megfigyelések négyzetes közepének és számtani közepének segítségével, méghozzá a két közép négyzetének különbségeként. A képlet gyakorlati jelentőségét többek közt az adja, hogy számításigénye elmarad a (2.13) formuláétól, így a variancia (és a szórás) meghatározása gyorsabb.

σ2=SSN=Ni=1X2iNμ2=μ2qμ2

  1. Vizsgáljuk meg az átlaghoz hasonlóan a változó lineáris transzformációjának hatását a varianciára! Mivel a b konstanssal való eltolás a számtani átlagot is eltolja, pontosan b-vel (lásd (2.9)), az átlagtól való átlagos eltérések (szórás) nem változnak. Ezzel szemben az a-val való szorzás a2-szeresére változtatja a varianciát és |a|-szeresére a szórást. Képletszerűen:

ha Y=aX+b, akkor σ2Y=a2σ2X(!)