1.3 Adatállományok
Az egyes egyedek valamennyi változó szerinti rendszerezett felsorolását adatállománynak nevezzük. Az adatállományokban jellemzően jóval több az egyed, vagy megfigyelés, mint a változó, ezért konszenzusos alapon a sorokban helyezkednek el a megfigyelések, míg a változók az adatállomány oszlopait alkotják. A változókat nagybetűvel, általában X,Y,Z-vel jelöljük. Az adatállományban tárolt adatok jellemzői alapján három nagy csoportot különböztetünk meg:
- idősoros adatállomány: a változó értékeinek időrendi (általában állandó frekvenciájú - ekvidisztáns) felsorolása
- keresztmetszeti adatállomány: több egyed jellemzőinek egy időszakra, vagy időpontra vonatkozó felsorolása
- panel adatállomány: több egyed jellemzőinek több időszakra, vagy időpontra vonatkozó felsorolása
Jelen tananyag elsősorban keresztmetszeti adatállományok elemzésével foglalkozik, idősoros adatállományokkal csak a legegyszerűbb elemzések erejéig. Az idősoros adatállományokkal a Statisztikai modellezés, majd mesterképzésen a különböző ökonometria tárgyakban találkoznak a hallgatók. A panel adatállományok -- melyek ötvözik az idősoros és a keresztmetszeti adatok jellemzőit -- tárgyalása a doktori képzés tananyagát képezheti.
A keresztmetszeti adatállomány általánosságban a következőképpen néz ki:
egyed sorszáma | X | Y | … | Z |
---|---|---|---|---|
1. | X1 | Y1 | … | Z1 |
2. | X2 | Y2 | … | Z2 |
… | … | … | … | … |
i. | Xi | Yi | … | Zi |
… | … | … | … | … |
N. | XN | YN | … | ZN |
Az 1.1. táblázatban néhány, a tananyagban sokat használt jelölést is bevezettünk. A sokaság elemszámát keresztmetszeti adatállomány esetén N jelöli, míg az általános elemet jellemzően az i indexszel jelöljük.
Az 1.2. táblázat a legnagyobb 100 márkaértékű brandet tartalmazó adatállomány első néhány sorát mutatja be a Millward Brown becslése alapján. A változók közül itt a vállalat fő tevékenységi kategóriáját, a márkaérték hozzájárulását az üzleti sikerhez (mrd USD), illetve a székhely régióját tüntettük fel, a teljes lista a BrandZ_2018.xlsx fájlban érhető el.
márka | kategória | márkaérték | hozzájárulás | régió | |
---|---|---|---|---|---|
1 | Technológia | 302,063 | magas | É-Amerika | |
2 | Apple | Technológia | 300,595 | magas | É-Amerika |
3 | Amazon | Kiskeres. | 207,594 | magas | É-Amerika |
4 | Microsoft | Technológia | 200,987 | magas | É-Amerika |
5 | Tencent | Technológia | 178,990 | nagyon magas | Ázsia |
6 | Technológia | 162,106 | magas | É-Amerika | |
7 | Visa | Pénzügy | 145,611 | nagyon magas | É-Amerika |
Az elemzés megkezdése előtt minden esetben tisztázni kell, hogy az adatállomány sokaság vagy minta. Amennyiben az adatállományunk nem sokaságként, hanem mintaként elemzendő, akkor az adatállomány megjelenése hasonló (például egy táblázatkezelőben), de a jelölések tekintetében változás, hogy minta esetén n lesz az elemszám jele, illetve sok esetben a minta elemeit x jelöli X helyett. A 2. és 3. fejezetekben bemutatott módszerek, mutatók sem pontosan ugyanúgy alkalmazandók a két esetben. A mintából való következtetés módszereit a 8. fejezettől kezdődően tárgyaljuk.
Az idősoros adatállományok ránézésre nem sokban különböznek a keresztmetszeti adatállományoktól, a könnyebb megkülönböztetés miatt sok esetben N helyett T jelöli az elemszámot, illetve i helyett t futóindexet használ sok tankönyv. Fontos különbség ugyanakkor, hogy míg keresztmetszeti adatállományok esetén a megfigyelések sorrendje gyakorlatilag irreleváns, addig az idősoros adatállományokban a megfigyelések sorrendje kötött, jellemzően a legrégebbi megfigyeléstől halad a legújabb felé.
időszak | X | Y | … | Z |
---|---|---|---|---|
1. | X1 | Y1 | … | Z1 |
2. | X2 | Y2 | … | Z2 |
… | … | … | … | … |
t. | Xt | Yt | … | Zt |
… | … | … | … | … |
T. | XT | YT | … | ZT |
A t futóindexet és a tényleges dátumot/napot/időpontot jellemzően feltüntetjük az idősori értékek mellett, míg az előbbi az elemzést, utóbbi az értelmezést, azonosítást segíti. Az 1.4. táblázatban a magyarországi vendégéjszakák száma látható 2001-2021 között.
t | év | vendégéjszaka |
---|---|---|
1 | 2001 | 18648 |
2 | 2002 | 18450 |
3 | 2003 | 18611 |
4 | 2004 | 18899 |
5 | 2005 | 19737 |
6 | 2006 | 19652 |
7 | 2007 | 20129 |
8 | 2008 | 19974 |
9 | 2009 | 18710 |
10 | 2010 | 19554 |
11 | 2011 | 20616 |
12 | 2012 | 21805 |
13 | 2013 | 22968 |
14 | 2014 | 24434 |
15 | 2015 | 25888 |
16 | 2016 | 27629 |
17 | 2017 | 29769 |
18 | 2018 | 31011 |
19 | 2019 | 31538 |
20 | 2020 | 13690 |
21 | 2021 | 16193 |