Hírek

Adatok és szekértáborok

A Google vezető közgazdásza, Hal R. Varian (akinek a neve sok közgazdász olvasónknak a tankönyvekről ismerős lehet) még 2009-ben úgy fogalmazott, hogy „a következő 10 év szexi munkája a statisztikus lesz”.

Ez a jóslat részben kiállta az időpróbáját, de csak némi pontosítással. A statisztikus fizetések USA-ban mért átlaga 2009 és 2022 között kevésbé növekedett, mint maga az átlagfizetés, azonban megjelent egy új foglalkozás (legalábbis a statisztikai nyilvántartás számára új), aminek a felemelkedésére Varian igazából gondolhatott. Ők nem mások, mint az adattudósok, akik fizetését 2022-ben már csak a menedzserek és jogi alkalmazottak átlagfizetése előzte meg.

Átlagos óránként bér alakulása az USA-ban foglalkozásonként

Forrás: U.S. Bureau of Labor Statistics

De miért is ennyire értékes egy adattudós? És miért lesz egyre értékesebb?

Egyrészt a mindennapjaink során egyre több adatot gyártunk, amiből következik, hogy egyre több területen van igény az adatok feldolgozására. Ezt tovább erősíti, hogy nem csak egyre több az adat, amit rögzítünk, de a tudomány fejlődésével egyre többféle adatot is tudunk elemezni. Ez származik egyrészt abból, hogy a számítási kapacitásaink évről évre magasabbak, így nem kell elriadni a magas komplexitást jelentő feladatoktól, másrészt egyre több adatelemzéssel kapcsolatos kezelendő problémára találunk módszertani megoldást.

A megkülönböztetés a statisztikai nyilvántartásában a statisztikus és adattudós között a következőkön alapul (U. S. Bureau of Labor Statistics 2022). A statisztikusok feladatköre “matematikai vagy statisztikai elméletek és módszerek kidolgozása vagy alkalmazása a numerikus adatok összegyűjtésére, rendszerezésére, értelmezésére és összegzésére, hogy használható információkat biztosítsanak.” Ezzel szemben az adattudós “kifejleszt és végrehajt egy sor technikát vagy elemző alkalmazást a nyers adatok értelmes információvá alakításához adatorientált programozási nyelvek és vizualizációs szoftverek segítségével. Alkalmaz adatbányászatot, adatmodellezést, természetes nyelvi feldolgozást és gépi tanulást a nagy strukturált és strukturálatlan adatkészletekből származó információk kinyerésére és elemzésére.”

Ez a megközelítés megegyezik azzal, amit Breiman (2001) az évszázad elején felvetett. A szerző az adatokkal foglalkozó kutatókat két nagy táborra osztotta: sztochasztikus modellezőkre (Data Modeling Culture, DMC) és algoritmikus modellezőkre (Algorithmic Modeling Culture, AMC). A különbség a két csoport között, hogy miként közelítik meg a változók közötti kapcsolatot. Az első tábor feltételez valamilyen kapcsolatot a két változó között, amit úgy ír le, hogy x generálja y-t, de valamennyi zaj (nem megmagyarázott véletlen tényező) is kerül bele. Breiman (2001) szerint írásakor a statisztikusok 98%-a ezt az irányt követte annak ellenére, hogy a statisztikai tudomány minden más területén már régen az AMC irány dominált.

A másik tábor (AMC) ezzel szemben nem kívánja leírni azt az “adatgeneráló folyamatot, amely megadja, hogy x-ből miként következik y, hanem egy olyan algoritmust készít, amely pontosan becsli meg a célváltozót. Ide tartoznak a 80-as években újdonságnak számító neurális hálók és fa alapú modellek. Ezek az eszközök már az évszázad elején eljutottak arra a szintre, hogy beszédfelismerésre, képfelismerésre, nemlineáris idősorok predikciójára legyenek képesek, míg a DMC tábor eszközei erre sosem lennének alkalmasak.

A két megközelítésbeli különbséget a hamis kártyás kiszúrásának szemléltető példájával lehet leírni. A DMC-t követő elemző csak kevés változóra figyel, és azt keresi, hogy egy feltételezett adatgeneráló folyamat – ami jelen esetben a krupié (osztó) keze – mellett mennyire lehetséges, hogy az alábbi realizáció (lapjárás) bekövetkezik. Ötlapospóker esetén tudjuk, hogy annak a valószínűsége, hogy egy pár vagy erősebb kombináció legyen a másik kezében az közel 50%. Egy tipikus DMC játékos csalónak kiáltana ki minket, ha az első 5 játékban nem fordul elő olyan, hogy párunk sincsen, hiszen ennek a valószínűsége mindössze 3%, feltéve, hogy valóban csak az osztótól véletlen módon kapjuk a kártyákat és nem bújik meg néhány az ingujjunkban.

Ezzel szemben az AMC játékos minden lehetséges információt felhasznál annak érdekében, hogy a legjobb becslést adja: a játékos életkorát, akcentusát, ingujjának bőségét, italkortyolások számát. A becsléshez egyszerűen megnézi, hogy korábban mely játékosok csaltak, és mintázatokat keres, amely alapján ki tudja szúrni a hamiskártyásokat.

Mindkét iránynak megvan a maga előnye és hátránya. A DMC egy konkrét elméletet tesztel – emiatt is ez a vezető irány a tudományos diskurzusokban (tudományos hipotézis dedukció). Persze ebben a táborban is megvan, hogy ha egy elmélet nem tűnik igazoltnak, akkor változtat a függvény felírásán és újabb tesztet hajt végre[1], azonban a kitűzött cél mindig az elmélet tesztelése és az interpretáció.

Az AMC játékos célja, hogy olyan algoritmust készítsen, ami a legtöbb esetben eltalálja, hogy csalóval állunk-e szemben, kevesebb fontosságot tulajdonítva annak, hogy mi az oka annak amiért csalónak gondoljuk. Erre mondják sokan, hogy egy fekete dobozba kerülnek a bemeneti adatok. Ez a megközelítés azonban a “gyakorlatban” többször bizonyosul hasznosnak, mert rendelkezünk rengeteg historikus adattal, amire lehet építkezni, míg komplex folyamatok mögötti adatgeneráló folyamatot kitalálni jellemzően félrevezető. Bár ez a kultúra is már a kezdetektől alkalmaz technikákat a folyamatok megértésére – például a változó fontosság (Variable ImPortance, VIP) mutatók sem újdonságok (már Breiman (2001) is említette őket) –, ezek mégsem tudják olyan könnyen interpretálható módon megragadni az adatgenerálást leíró függvényt, hogy “hány egységgel nő várhatóan y, ha x egy egységgel növekszik”.

A Breiman által leírt “kultúrák közötti különbség” 20 évvel későbbre részben megváltozott. Daoud and Dubhashi (2020) reflektáló cikke arról ír részletesen, hogy az elmúlt évtizedekben csökkent a DMC domináns szerepe és megjelent egy új hibrid kultúra. Ez az új irány már alkalmaz gépi tanulási eszközöket kauzális (oksági) hatások elemzésére és kidolgozott technikákat arra, hogy könnyen interpretálhatóvá tegye az eredményeket, így felvéve a verseny azon területeken is, amelyeken korábban csak a DMC irány adott kielégítő válaszokat.

Bármely megközelítést is válasszuk, fontos a módszertanok alapos ismerete, mert buktatók mindenhol vannak. A statisztikai programcsomagok elterjedése a ’70-es évek idején kezdődött, amivel egyidőben megjelent a szoftveres reprodukálhatóság igénye (Diggle 2015). Egy bonyolult problémára adott válasz publikálása egy csupán kevés szakmabeli által olvasott lapban már nem megoldás többé. Megjelent a nyílt hozzáférésű, mindenki által újrafelhasználható megoldásokra való igény és nyomás. Ma már számos bonyolult algoritmusnak létezik olyan felhasználóbarát implementációja, amely lehetővé teszi számunkra, hogy eredményeket gyártsunk úgy, hogy csupán az intuícióját értjük a programnak, vagy akár annyit sem[2].

Ez utóbbi számos probléma forrása. A gépi tanulási eszközök megfontolás nélküli, de kényelmes alkalmazása hasonlóan sok hibás eredményhez[3] vezethet, mint azon konklúziók levonása, ahol a p-érték az 5 százalékos szignifikancia szint alatt volt, de a valós adatgeneráló folyamat egyáltalán nem felelt meg a modell feltevéseinek[4]. Emiatt fontos, hogy az adatelemzést végzők képzettek legyenek a maguk területén.

Napjainkban tehát az adatelemzési eljárások egyre komplexebbé válnak annak érdekében, hogy egyre több problémára kínáljanak megoldást. Aki pedig lépést tud tartani ezen modellek fejlődésével, annak tudására egyre növekvő kereslet vár.

Granát Marcell


Hivatkozások:

Breiman, Leo. 2001. “Statistical Modeling: The Two Cultures.” Statistical Science 16 (3). https://doi.org/10.1214/ss/1009213726.

Daoud, Adel, and Devdatt Dubhashi. 2020. “Statistical Modeling: The Three Cultures.” https://doi.org/10.48550/ARXIV.2012.04570.

Diggle, Peter J. 2015. “Statistics: A Data Science for the 21st Century.” Journal of the Royal Statistical Society: Series A (Statistics in Society) 178 (4): 793–813. https://doi.org/10.1111/rssa.12132.

Maddala, G. S. 2001. Introduction to Econometrics. 3rd ed. Chichester ; New York: John Wiley.

U. S. Bureau of Labor Statistics. 2022. “Occupational Employment and Wages.” https://www.bls.gov/oes/.


[1] “Az ökonometria nem pusztán a közgazdasági elmélet alázatos szolgálóleánya.” (Maddala 2001)

[2] Erre egy példa az R programozási nyelvben implementált parsnip kiegészítő, amely segítéségével a felhasználónak már csak egy menüvezérelt felületen kell kiválasztani, hogy milyen modell(eke)t szeretne alkalmazni, és már szinte készen is van.

[3] Például a fa alapú modellek időben nem állandó idősorokkal való találkozás esetén kimondottan rossz előrejelzést generálnak, annak ellenére, hogy “normál esetben” az előrejelző bajnokságok élén járnak.

[4] Képzeljük el például, hogy úgy játsszuk az ötlapos pókert, hogy 2 lapot meg lehet tartani minden kör végén. Ebben az esetben 50 százalékos valószínűséggel (az első körben kapott párt nem rakjuk vissza sosem) hamiskártyásnak fognak minket mondani, ha továbbra is az a feltétel, hogy legyen legalább egy olyan kör, amikor nincs párunk.


Főoldali kép forrása: pixabay.com

The post Adatok és szekértáborok appeared first on Economania blog.

Ez a weboldal sütiket („cookie”) használ
Ez a weboldal sütiket használ a kényelmesebb böngészés érdekében. A honlap használatával Ön elfogadja, hogy az oldal sütiket használ. Kérjük, olvassa el Sütitájékoztatónkat, amelyben további információkat olvashat a sütikről és azt is megtudhatja, hogyan tudja kikapcsolni vagy törölni őket. View more
Cookies settings
Elfogadom
Nem fogadom el
Adatvédelmi és Cookie szabályzat
Privacy & Cookies policy
Cookie name Active
Hogyan törölheti a cookie-kat, és hogyan tilthatja le azokat: Kérjük, olvassa el Sütitájékoztatónkat, amelyben további információkat olvashat a sütikről és azt is megtudhatja, hogyan tudja kikapcsolni vagy törölni őket. Amennyiben nem szeretné, hogy cookie-kat használjunk, letilthatja azokat. A letiltás böngészőfüggő, és különböző módon történhet. A legnépszerűbb böngészőkben a letiltás mikéntjéről az alábbi linkeken szerezhet tudomást:
Save settings
Cookies settings