A tudományos életben és publikációkban gyakran élünk hipotézisekkel, feltevésekkel. Az általunk feltett kérdés megválaszolására sok esetben statisztikai módszereket veszünk igénybe. A gyakorlatban ez úgy történik, hogy megfogalmazunk egy állítást (nullhipotézist) és egy ennek ellentmondó állítást (alternatív hipotézist) úgy, hogy egymást kizárják és az egyiknek igaznak kelljen lennie. Ezután „megmérjük”, hogy a tényekkel melyik állítás van inkább összhangban. Így el tudjuk dönteni, hogy kezdeti feltételezésünk igaz vagy hamis.
Azonban teljesen biztos eredmény nem létezik, még a legjobb esetben is számolni kell a hiba lehetőségével. Statisztikai következtetéseknél ezek a hibák a legjobb szándék ellenére is előfordulnak. Emellett ráadásul szándékosan is torzíthatják eredményeiket azok a kutatók, akiken publikációs kényszer van.
Tekintsük először a nem szándékolt hibákat, amelyek a módszertanból következnek. Aki tanult statisztikát és hipotézisvizsgálatot, tudja, hogy az α- és p-értéknek mekkora szerepe van a hipotézisek tesztelése során. Korábban említettem, hogy nincs biztos eredmény, ami abból adódik, hogy mintákon végzett próbák esetén sohasem lehetünk biztosak abban, hogy az eredmény nem a mintavételi hiba miatt, azaz véletlenül következett be. Ezért általában előre meghatározzuk azt a szintet, amekkora valószínűséggel elutasíthatjuk a nullhipotézist annak ellenére, hogy az a valóságban igaz. Ez az érték az α, amelyet szignifikanciaszintnek nevezünk. A p-érték ezzel szemben annak a valószínűsége, hogy a teszt olyan értéket ad, ami legalább annyira extrém, mint amit a mintából kaptunk a nullhipotézist igaznak feltételezve, vagyis hogy mekkora a valószínűsége annak, hogy az eredmény csak a véletlen miatt következett be. Ha a kapott p-érték kisebb, mint a meghatározott szignifikanciaszint (α), elutasítjuk a nullhipotézist és elfogadjuk az alternatív hipotézist. Azt mondjuk, hogy a kezdeti feltételezésünket adott megbízhatósági szint mellett elutasítjuk, mivel túl kicsi az esély arra, hogy az eredmény a véletlen műve.
Az α értéket leggyakrabban 5 százaléknak szokás választani, amiből azt gondolhatnánk, hogy 100 kutatásból 5 hamis következtetésre jut. A valóságban ugyanakkor ez a szám az 5-nek sokszorosa lehet. Korábban említettem, hogy az α annak a valószínűsége, hogy a nullhipotézist elutasítjuk annak ellenére, hogy az valójában igaz. Ez azonban csak az elkövethető hiba egy része – úgy is hibázhatunk, hogy elfogadjuk a nullhipotézist annak ellenére, hogy az a valóságban hamis, amit másodfajú hibának vagy β-nak nevezünk. A két típusú hiba elkövetésének valószínűsége csak egymás rovására csökkenthető, és a másodfajú hiba valószínűségét nem tudjuk meghatározni. Csak a mintaelemszám növelésével és a szignifikanciaszint egyidejű csökkentésével minimalizálható minkét hiba együttes elkövetésének valószínűsége. A gyakorlatban azonban a mintaelemszám többnyire nem növelhető tetszőlegesen.
Tegyük fel, hogy egy területen az igaz hipotézisek aránya x, ebből következően a hamisak aránya 1-x. A hipotézisvizsgálat során meghozható döntéseket az alábbi táblázat foglalja össze:
valóság döntés | Elfogad | Elutasít |
Igaz (x) | Helyes döntés (1-α) | Elsőfajú hiba (α) |
Hamis (1-x) | Másodfajú hiba (β) | Helyes döntés (1-β) |
A teljes hiba mértéke több paraméter függvénye, amit egy illusztratív példával szemléltetek. Tegyük fel, hogy 1000 hipotézisből a valóságban 200 igaz és 800 hamis, továbbá a választott szignifikanciaszint 5%, és a másodfajú hiba elkövetésének valószínűsége 15%. Ebben az estben a 200 igazból 10 hipotézist (5%) tévesen elutasítunk és a 800 hamisból 120 darabot (15%) tévesen elfogadunk. 1000 esetből összesen 130 alkalommal hibáztunk, ami 13%, közel háromszor annyi, mint a szignifikanciaszint alapján gondolt 5%.
A fentiekből látható, hogy abban az esetben is, ha mindent megfelelően csinálunk az esetek x*α+(1-x) *β százalékában hibás következtetést fogunk levonni. Ezen hibák a módszertanból adódnak és nem szándékoltak. Ugyanakkor vannak olyan hibák is, amelyek szándékos torzítás eredményeként állnak elő. Az egyik ilyen torzítás az úgynevezett „p-hacking”.
A p-hacking a becslési eljárás olyan, szándékos manipulálása, melynek célja szignifikáns eredmények kimutatása olyan esetekben is, amikor a valóságban nincs szignifikáns kapcsolat. A kapott p-értéket befolyásolhatjuk a hipotézis átfogalmazásával, a mintaméret változtatásával, extra változók szerepeltetésével vagy elhagyásával, interakciók bevonásával, kategóriák képzésével vagy elhagyásával és egyéb módszerekkel.
A jelenség mögött többféle motiváció fedezhető fel. A kutatókon publikációs nyomás van, és a folyóiratok nagyobb valószínűséggel publikálnak szignifikáns és nem várt eredményeket. A lebukás esélye kicsi, megismételt kutatásokat csak kevés esetben publikálnak. Ioannidis (2005) 6 olyan estet azonosított, amikor a kutatók nagyobb valószínűséggel publikálnak téves eredményt, mint igazat. Ezen esetek:
- Ha kisebb a mintaméret
- Ha a hatásnagyság kisebb (a hatásnagyság összefügg a másodfajú hiba elkövetésének valószínűségével)
- Ha a szelekciós kritériumok manipulálhatóak (olyan mintát választunk, amelyen igaz a hipotézisünk)
- Ha a kutatás rugalmas (a rugalmasság növeli az adatmanipulálás esélyét)
- Ha pénzügyi vagy egyéb érdek, előítélet fűződik az eredményhez
- Ha az adott terület felkapott (erősebb az eredmények publikálásának kényszere mások előtt)
A probléma viszonylag széleskörű, leginkább az orvosi kutatásokat és klinikai teszteket érinti. Az Open Science Collaboration (2015) cikkében 100 olyan kísérletet ismételtek meg, amelyeket 2008 folyamán publikáltak három magasan jegyzett pszichológiával foglalkozó folyóiratban. Az eredmény lesújtó volt, az átlagos reprodukált hatásnagyság a korábban publikált hatásnagyság fele volt. A publikált kutatások 97 százalékban mutattak szignifikáns eredményt, míg a megismételt kutatások csak 36-ban.
Head és szerzőtársai (2015) szövegelemzési módszerekkel szintén hasonló eredményre jutottak számos tudományterületet vizsgálva. Eredményeik alapján a p-hacking széleskörű, ugyanakkor leginkább a pszichológia területére koncentrálódik. További következtetésük, hogy a jelenség a metaanalízisek következtetéseit csak kisebb mértékben befolyásolja.
Mi ebből a tanulság? A tévedés lehetősége nem zárható ki, ezért ne higgyünk el mindent csak azért, mert az eredmény szignifikáns vagy valahol publikálták. A statisztikai szignifikancia nem jelenti azt, hogy valami a valóságban is fontos. Legyünk kritikusak, tájékozódjunk több forrásból, és gondoljuk végig, hogy a kapott következtetésnek van-e értelme.
Kotymán Alex
MNB Intézet
Kotymán Alex mesterszakos diplomáját 2022-ben szerezte meg a Budapesti Corvinus Egyetem befektetés-elemzés szakirányán. 2022-ben csatlakozott az MNB Intézethez ahol kutatással foglalkozik és az intézet munkáját támogatja.
Hivatkozások:
Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8), e124.
Főoldali kép forrása: pixabay.com
The post Miért ne higgyünk a szemünknek, avagy a statisztika „hibái” appeared first on Economania blog.