Amitől a szociológia és a statisztika hasznos és érdekes (II. rész)

Interjúnk második részében megtudhatjuk, hogy valóban lehet-e csalni a statisztikával, és ha igen, hogyan. Mitől paradigmaváltás a big data, milyen előnyei és technikai nehézségei vannak. Miért fontos és milyen hosszú távú eredményei lehetnek a presztízskutatásnak, valamint, hogy hogyan használhatóak okosan együtt a hagyományos adatfelvételi és kutatási módszerek a big data-val.

Giczi Johanna gazdaságszociológust, a KSH főtanácsosa és az ELTE TáTK Kisebbségszociológiai tanszékének munkatársát kérdeztük.

Ha már nagy volumenű méréseknél tartunk, a népszámlálást miért kell ennyire gyakran csinálni, illetve hogyha egyszer egy rendszerbe – és valószínűleg a KSH-nak van ilyen – tudják regisztrálni, hogy egy évben mennyien születnek és halnak meg, hiszen ezt kötelezően kell, akkor nem lenne egyszerűbb ezt a két adatot összefésülni?

De, tulajdonképpen igen is, és nem is. Amiről kérdezel, az a regiszter alapú népszámlálás, ezt számos országban megvalósították már, nem könnyű ennek a módszertana. Népszámlálásra igazán azért van szükség, – ugyan vannak továbbvezetések – de különböző okok miatt ezek az adatok nem igazán pontosak.

 

giczijohannaGyakran hallhatunk különböző kutatóintézetektől ellentmondásos információkat, Winston Churchill mondta, hogy csak abban a statisztikában hisz, amit maga hamisított alá. Mit gondolsz erről?

Volt egy kolléganőm, aki azt mondta, hogy adjatok nekem egy adatbázist, és kihozom belőle amit kell, aztán kihozom belőle az ellenkezőjét is. Tehát matematikai alapon, gyakorlatilag bármit ki lehet mutatni. Amire te kérdezel rá, és én is sokszor szembe találom magam ezzel a kérdéssel. Bárhol, ahol elmondom, hogy a Statisztikai Hivatalban dolgozom – jön a kérdés, hogy »na de akkor most maguk az igazat mondják-e?«. Alapvetően nem a statisztikával van a probléma, hanem az értelmezéssel. Az adat mögött lévő módszertan meg kell, hogy állja a helyét. A statisztika kritikájánál a módszertanba lehet bele kötni, az egy értelmes kritika, minden esetben. Ha valaki kutatóként megnézi a mögöttes módszertant, és azt mondja, hogy ezzel nem ért egyet, annak tökéletes létjogosultsága van. Az elemzés, az adatok értelmezése már egy másik műfaj. Amivel a hétköznapi ember találkozik az már egy kontextusba helyezett, értelmezett adat. Az adatértelmezésen, abban, hogy mit mivel vetünk össze, hogy mit, mihez viszonyítunk az újságírók elsőrendű szerepet játszanak. Ám sok esetben úgy készül az adatokból jó cikk, hogyha a szerző vagy szerzők megfelelően pointírozzák a mondanivalót, hogy belehelyezik egy olyan keretbe az adatot, ahol ugyanazzal az adattal megerősíthetnek vagy cáfolhatnak egy állítást. Értelmezés kérdése. Többségében ismerhetjük az adatkezeléssel, piackutatással foglalkozó cégek módszereit, hiszen felhívnak telefonon, vagy éppen az otthonunkban kérdeznek meg, majd pedig az általunk adott válaszokat digitalizálják, és abból építenek fel adatbázisokat. Ezt a fajta régi, már-már klasszikus módszert miben változtatja meg a big data?

Azt gondolom, hogy a big data egyfajta paradigmaváltást hoz a statisztikában. Ugyanakkor nem gondolom azt, hogy bármilyen formában tökéletesen helyettesíteni tudná a statisztikát. Ezért szét is kell választani a régi klasszikus módszereket, és ezeket az új forradalmi big data módszereket. A big data – jelentése „nagy adat”–, de, ez nem csak a nagyságára vonatkozik, nem csak a volumenére az adatbázisnak, hanem sok más jellemzője van. Az, hogy az interneten mondjuk egy web scraping technikával letöltök adatokat, vagy letöltöm a forráskódját egy honlapnak, vagy több honlapnak, vagy annyinak, amennyit csak gondolok, abból még nem lesz adat.

 

Ha ez nem adat, akkor mik azok a tulajdonságok, amiktől big datává lesz egy nagy adathalmaz?

Az egyik a volumen, ami azt jelenti, hogy nagy. De hogy mennyire nagy, mennyire hatalmas adatmennyiség ez, azt talán ki se tudnánk fejezni. Petabájtokban gondolkozhatunk. A másik tulajdonsága az, hogy nagyon változatos. Különböző forrásokból jönnek a big data adatok, ugyanakkor lehetnek strukturáltak és nem strukturáltak is. A legnagyobb különbség a hagyományos adatfelvételi módszerek esetében az, hogy azok minden esetben strukturáltak. Van mögöttük egy metaadatbázis, ami azt jelenti, hogy tudjuk annak az adatnak a tulajdonságait; tudjuk, hogy honnan származik, tudjuk, hogy milyen körülmények között vették fel, van egy meghatározott keret az adat mögött. A big data esetében kevesebb strukturált adattal tudunk dolgozni, inkább félig, vagy teljesen strukturálatlan ez az adathalmaz. A hagyományos statisztikai módszereket gyakran éri az a kritika, hogy jóval később reagálnak az eseményekre, hiszen az adatfelvétel és az adatfeldolgozás is időt vesz igénybe, akár fél, vagy egy év elcsúszással hozunk ki adatokat amelyekre sokkal korábban lett volna (vagy lehetett volna) szükség. A big data esetében akár azonnal lehetne reagálni, hiszen azonnal megvan az adat, folyamatosan áramlik felénk, ezt a sebességet viszont meg kell tanulni kezelni. Az adatgyűjtés lényege itt az, hogy többször letöltök mondjuk egy adatot, akár egy repülőjegynek az árát az internetről. Tudjuk azt, hogy bizonyos napszakokban a jegy még olcsóbb lehet, este például, amikor mindenki a gép előtt ül és jegyet vásárolna, akkor pedig drágább. Tehát igenis van értelme annak, hogy egy nap többször is ellenőrizzük egy repülőjegynek az árát, viszont ezt az adatmennyiséget kezelni kell, tárolni kell, ki kell szűrni az outliereket, duplikátumokat, ugyanakkor ez a gondolat átvezet a negyedik tulajdonságához a big datanak, ez pedig a megbízhatóság. A cél minden esetben  az, hogy jó minőségű adatot kell produkálni. A statisztikával – a hivatalos statisztikával – szemben a megbízhatóság, a jó minőségű adat az egyik legfőbb követelmény, ezért sem fogja tökéletesen felváltani a big data a hagyományos statisztikai eljárásokat. És akkor mi a lényege –mert, ígértem, hogy mondok rá példákat. Ha alapvetően a taxonómiáját nézzük a rendszernek, három csoportba sorolhatók ezek az adatok; egyrészt a social networks adatok, az emberi eredetű adatok; ezekkel mindenki találkozik, tulajdonképpen ez emberi tapasztalatoknak a szubjektív rekordjai. Aztán léteznek az úgynevezett folyamateredetű adatok, ezek az üzleti folyamatoknak az adatai, például egy bankolás esetében, amikor átutalom az összeget akár az ELMŰ-nek, akár a Vízműveknek. Ezek az adatok már kicsit strukturáltabbak. Végül vannak a gépi eredetű adatok. Ezek a különböző szenzoroknak az adatai, vagy számítógépes fájlok, ezeknek a lényege az, hogy nagyon jól strukturált adatok, viszont a mennyiségük és a gyorsaságuk amivel keletkeznek, az bőven túlmutat a mostani feldolgozási lehetőségeken. Tehát azért mondtam az elején, hogy a big data tulajdonképp egy paradigmaváltás a módszertani keretek között, mert meg kell tanulunk bánni ezzel az adatmennyiséggel, másrészt meg kell találnunk azokat a módszereket, amelyeknek a segítségével a big data adathalom is elemezhetővé válik.

 

Nevezhetjük ezt pozitív fejlődésnek az adatfelvételben?

Igen, pozitív fejlődés annyiból, hogy ha magunkévá tudjuk tenni ezt a szemléletbeli váltást, akkor a big data paradigma rengeteg segítséget nyújthat a hagyományos statisztika kezelésében is. Egyrészt javítani tud annak minőségén. Hol tud javítani? Például a mintavételi keretnek a létrehozásán. Számos tanulmány – magyarul is megjelent tanulmány- azt állítja, hogy a big data esetében az n, ami az alapsokaság, vagy a mintavételünknek a sokasága, az egyenlő az all-al, tehát a mindennel, ami azonban nem igaz. Az első kritika a hagyományos adatfelvétellel szemben az, hogy ha mintát veszünk, nem tudjuk a teljes sokaságot vizsgálni, de a big data sem képes erre

Ritka esetek vannak, például a népszámlálás, amikor a teljes sokaságot tudjuk vizsgálni. Ám ez nem túl költséghatékony, nehezen kivitelezhető, sok időt vesz igénybe, míg a big data esetében levesszük az adatokat, vagy követjük a mobiltelefonoknak a gps-koordinátáit, ami a tracking módszer, , de ez sem a teljes sokaság. Eleve nincs mindenkinek – elég csak egyszerű példákat hozni- olyan telefonja, ami geo-lokál. Honnan tudjuk, hogy kinek van ilyen telefonja? Sehonnan. Vannak bizonyos metaadatbázisok emögött is, amiből lehetne azonosítani azt, hogy milyen az adott alapsokaság, ez viszont rengeteg további kérdést vet fel. Személyiségi problémákat, jogi problémákat. Ezzel kapcsolatban a hagyományos statisztika is rengeteg problémával küzd. zt szoktam mondani, hogy az emberek gyakorlatilag mindenhol otthagyják azadataikat. Gondoljuk egy kiállítás, vagy nyereményjáték regisztrációjára. Meg kell adnunk a címünket, a nevünket, az e-mail címünket, a telefonszámunkat – két kézzel szórjuk tehát a személyes adatainkat, de akkor, amikor statisztikára kellenének, és ezt oda is rakják az orrunk elé, hogy »statisztikai célra történik az adatgyűjtés, a válaszadás önkéntes”, akkor »ja, hát statisztikát, nem, azt biztos, hogy nem!” jön a válasz.

 

De miért nem?

Ezt az emberektől kell megkérdezni, de az biztos, hogy a nem-válaszolási arányokból látjuk azt, hogy egyre kevésbé szeretnek az emberek statisztikai célra adatot szolgáltatni, holott pont ez lenne az izgalmas, ez lenne az egyik feladata a KSH-nak, hogy beláttassa az emberekkel, hogy elhiggyék végre, valóban kizárólag statisztikai célra gyűjtünk adatot. Semmilyen összekapcsolást nem tudunk tenni különböző szervezetekkel, nálunk anonimizált adatok vannak. Amivel mi dolgozunk azok ezek az attribútumok: nő/férfi, ennyi a kora, ilyen iskolai végzettsége van, mást nem látunk az emberekről, meg a vélemény amit kérdeztünk, de pont az lenne az izgalmas benne. Visszatérve az előző kérdésedre a big dataval kapcsolatban a big data használatával várhatóan jobb mintákat tudunk tervezni, esetlegesen a nem-válaszolási arányt is tudjuk vele csökkenteni. Amikor az embereket a hagyományos módszerekkel kérdezzük, akkor nagy arányban nem válaszolnak, de ha ott kell hagyni az adataikat egy honlapon, akkor boldogan kitöltik annak minden kis rubrikáját.  Jobb, mivel több adatunk van, több inputálást, jobb kalibrálást tudunk végezni. Ugyanakkor egészen más módszert kell alkalmazni. A hagyományos módszer esetében a top to down, vagyis felülről lefelé paradigmát alkalmazzuk: megvan az adattervezés, kiválasztjuk a célsokaságot, meghatározzuk a változónkat – ez ugye a kérdőív-, meghatározzuk a definíciónkat hozzá, osztályozás, listák, regiszterek, alapsokaság elérése, és aztán meghatározzuk az előrejelzési célokat, a hipotézist, hogy mit szeretnénk vizsgálni, felépítjük a modellt, és megadjuk a becslést, előrejelzést vagy az adatot. A big data paradigma esetében ez pont fordítva érvényesül. Ez az úgynevezett bottom up paradigma, a lentről felfelé építkezés. Ennek a lényege az, hogy itt az adat már megvan, hiszen mindenütt ott van. A legnagyobb kihívás, hogy hogyan gyűjtjük be ezt az adatot, hogy mi az, ami hozzáférhető, és ebből kell meghatároznunk azt, hogy mi az, amit ki tudunk hozni belőlük. Tehát míg az első, hagyományos módszer esetében egy hipotézistesztelést végzünk, itt a meglévő adatokból próbálunk következtetéseket levonni, mintázatokat keresni, vagyis utólagosan próbálunk meg mintázatokat keresni. Ez az egyik legnagyobb kihívása a big data módszertannak.

 

Van a klasszikus mérésnek olyan problémája, amit a big data oldhat meg?

A mintavételi keretnek a létrehozása, vagy a jobb mintatervezés, a nem-válaszolási arány csökkentése – ez az egyik része. A big dataval inkább gondok vannak. Egyrészt a reprezentativitás. Amíg egy hagyományos mintavétel esetében tudjuk biztosítani a reprezentativitást, a big data esetében erre nincs túl sok hatásunk. Onnan van adat, ahonnan van adat, vagy akitől van adat. Klasszikus big data elemzési lehetőség a tweeteknek az elemzése. Magyarországon azért nem szerencsés, mert alig tweetel valaki. Az USA-ban biztos, hogy rengeteg mintázatot lehet találni a tweetek elemzéséből; nálunk hiába próbálnánk egy modellt felállítani arra, hogy milyen típusú emberek tweetelnek, rengeteg kérdést kellene előtte megválaszolnunk. A spanyolok készítettek elemzést tweetekből a munkanélküliség a becslésére, és remek mintázatokat találtak. Ezt megpróbálták az USA-beli tweet adatokon is előállítani, és nem ment. Egyszerűen nem sikerült meghatározni azt, hogy milyen mintázatokat követnek a munkanélküliek, illetve azok, akik dolgoznak. Aztán kiderült, hogy a spanyoloknál egy tipikus csoport – amit egyébként más statisztikákból tudunk és ismerünk- a fiatalok munkanélküliek, jellemzően ők tweetelnek. Olyan meghatározottságok vannak a big data adatok mögött – ez most a reprezentativitásra mondom példaként – amiket meg kell tanulni kezelni. Ismeretlen a célpopuláció, nem tiszta az, hogy mi az mintaegységeknek a kiléte, mi-léte. A tweet adatok elemzésénél például a profile-okat kell elsőként elemezni, és azonosítani, ugyanis ezekből nyerhetők ki a klasszikus statisztikai háttérváltozók, nem kor, iskolai végzettség, családi állapot stb.Nemrég jártam Rómában egy háromnapos big data szemináriumon, ahol láttam, hogy a holland és az olasz statisztikusok már jócskán előrehaladtak a tweet profil-ok adatainak kezelésében, azonosításában. Nekik például sikerül olyan mintázatokat találni, amivel jó biztonsággal tudják azonosítani, hogy a tweetelő nő vagy férfi, milyen iskolai végzettségű, milyen a státusza a családon belül, hány gyereke van. Ezek a szociodemográfiai jellemzők, ami társadalomtudományi elemzések szempontjából viszont elengedhetetlenek. Ha nem tudom, hogy ki mondja, akkor nem tudok sokra menni az adattal, korrelációkat tudok csak felállítani. Ez a másik nagy nehézsége a big data adatok értelmezésének, hogy gyakorlatilag a legjobban használható eszköz az a korreláció, amivel az adatok együttmozgását lehet vizsgálni (..de ugye a korreláció nem csak együttmozgás, az egy picit más is..), viszont itt nagyon végig kell gondolni, hogy mi mivel korrelál, hiszen fennállhat az ökológiai tév következtetés  veszélye. Nagyon fontos még, például a médiaadatok elemzésénél, mondjuk a robotoknak a kiszűrése, ezek mögött az információk mögött ugye nincs valós adat. Sokszor mondják, hogy a big data alkalmazása gyakorlatilag az okozat a halála. Hát nem tudom, az biztos, hogy használatával egészen új lehetőségek nyílnak meg a hivatalos statisztikában és a társadalomtudományi kutatásokban egyaránt, de még inkább problémákkal szembesülünk. Ennek ellenére, belevágtunk.

 

Mi kell a jó kutatómunkához, és volt, van-e meghatározó kutatásod?

Minden kutatás az. Nincs olyan kutatás, ami nem meghatározó. A szenvedély, az kell egy kutatómunkához, az hogy az ember napokig nem fekszik le, mert mindenképpen látni akarja az eredményt, vagy megírni: mert nem jött ki, vagy kijött éppen, amire számított, és akkorvégig kell gondolni, vagy újra kell gondolni.

Ami most nagyon-nagyon foglalkoztat, az a presztízs kutatás. Ez a már emlegetett népszámlálási, pontosabban a mikrocenzushoz kapcsolódó kiegészítő kérdőív lesz, és Huszár Ákossal együtt dogozunk. Ákos a társadalmi rétegződés részét viszi, én pedig a foglalkozási presztízst. A két téma szorosan összetartozik. A foglalkozási presztízs kérdőívben megkérjük az embereket, az egyes foglalkozásokat rendezzék sorba azok presztízse szerint, de olyan izgalmas kérdéseket is felteszünk, amivel a társadalmi igazságosság kérdését tudjuk feszegetni. Rákérdezünk arra, hogy az emberek szerint mennyit keresnek a felsővezetők, és ezt igazságosnak tarják-e. Pontosabban úgy kérdezzük meg, hogy mi lenne az igazságos kereset a felsővezetők számára. Megkérdezzük azt, hogy mennyit keres egy segédmunkás, és hogy számukra mennyi lenne az igazságos jövedelem, és azt is hogy mennyit keresnek ők (mennyi a saját fizetésük, és hogy gondolják, számukra mi lenne az igazságos jövedelem. Volt már ilyen kutatás korábban is, így az eredmények idősorba illeszthetők lesznek.

 

És jól látom, hogy össze lehet vonni előző kutatási eredményekkel? Tehát hogyha látjuk azt, hogy mondjuk egy középvezetőnek mennyi az átlagbére, akkor mellé lehet rakni a presztízs kutatást is, hogy az emberek mit gondolnak, mennyi, és hogy mennyit érdemelne?

Abszolút. De nem így, hanem foglalkozásonként, a hivatalos bérekkel összevetve ezt meg lehet nézni, sőt idősorban is meg lehet nézni. Sőt a presztízs kérdőívben még olyasmire is rákérdezünk, hogy vannak-e még olyan generációk, vagy olyan családok, ahol a fiatalok tovább örökítik az előző generációknak a foglalkozását. Ez több szempontból izgalmas: egyrészt ugye a klasszikus foglalkozási mobilitás szempontjából, másrészt a human capital, az emberi tőke szempontjából, ami most szintén egy izgalmas kérdés egész Európán belül, nem csak Magyarországon, hanem az EU-ban is.

[sam id="10" name="mnb2" codes="false"]