Hírek

A szignifikanciatesztelés logikája

Egy viselkedéses közgazdaságtan területén végzett kutatás során arra voltak kíváncsiak a kutatók, hogy a reptéri piszoárok belsejébe ragasztott legyet ábrázoló matrica növeli-e annak az esélyét, hogy a reptér látogatói beletalálnak-e a piszoárba a használat során. Ez a nudge intervenció azt feltételezi, hogy a vizelés közben a férfiak a csésze belsejében elhelyezett legyet veszik majd célba (Thaler és Sunstein, 2008). Célpont hiányában pedig elkalandoznak a gondolataik, aminek könnyen baleset lehet a vége. Az elmélet szerint ezzel az egyszerű beavatkozással nagymértékben csökkenthető a reptéri férfi mosdók takarítására fordítandó összeg.

Tegyük fel, hogy mi is elvégzünk egy hasonló kísérletet a Budapest Liszt Ferenc Nemzetközi Repülőtéren, ahol minden második férfi piszoár csészéjébe egy legyet ragasztunk, a nap végén pedig megmérjük valamilyen módon, hogy mennyire vizeltek a férfiak az egyes piszoárok mellé. Ezután az adatainkat összesítve a két kondícióban két átlagot és a hozzájuk tartozó szórást kapunk. Egy független mintás t-próba segítségével meg tudjuk vizsgálni, hogy valóban van-e hatása az intervenciónak. A statisztikai próba eredménye t(102) = 3,5, p = 0,01. Milyen helyes következtetéseket vonhatunk le a kapott p-érték alapján? A következőkben felsorolunk pár lehetséges következtetést. Próbáljuk meg minden állításról eldönteni, hogy igaz-e. Figyeljünk rá, hogy több állítás is lehet helyes!

  1. A kapott p-érték megmutatja, hogy mekkora annak a valószínűsége, hogy a nullhipotézis igaz. Tehát 1% annak a valószínűsége, hogy a nullhipotézis igaz.
  2. Mivel a p-értékünk nagyon kicsi, így valószínű, hogy nagyon nagy különbség van a két vizsgált kondíció között, tehát a populáció szintjén a vizsgált hatás nagy.
  3. Mivel a p-értékünk nagyon kicsi, biztosabbak lehetünk abban, hogy jól döntöttünk, amikor elvetettük a nullhipotézist.

Mennyire vagyunk magabiztosak abban, hogy mindegyik állításról el tudtuk dönteni, hogy valóban helyes-e? A feladat első látásra egyszerűnek tűnhet, hiszen bármilyen empirikus képzésre jártunk, egy biztos, a p-értékről és a szignifikancia fogalmáról sok szó esett. A p-érték és a nullhipotézis szignifikancia tesztelés (továbbiakban NHST) helyes értelmezése azonban nem egy egyszerű feladat. Kutatók körében végzett kutatások azt mutatták, hogy a megkérdezett kutatók 89 százaléka követett el hibát a p-érték interpretálása során (Lyu és szerzőtársai, 2020).

Mit is jelent valóban a p-érték és mi a statisztikai szignifikancia? Valóban helyesen értelmezzük a szignifikáns eredményeket? Vagy inkább megtévesztjük magunkat? A következőkben ezekre a kérdésekre próbálunk meg választ adni a fenti állítások közelebbi vizsgálatán keresztül.

Az állítások igazságának eldöntéséhez szükséges azonban a p-érték pontos definíciójának ismerete. A helyes definíció szerint a p-érték megmutatja, hogy ha feltesszük, hogy a nullhipotézis helyes és minden feltétel adott, akkor milyen gyakorisággal kapunk hosszú távon ilyen vagy ennél extrémebb eredményeket. Az NHST során ezen felül még a teszt elvégzése előtt meg kell határozzuk az alfát, vagyis a szignifikanciaküszöböt. Hagyományosan a kutatások ezt 0,05-nél határozzák meg. Az NHST módszerét követve arra vagyunk kíváncsiak, hogy a kapott p-érték alacsonyabb-e, mint az előre meghatározott szignifikancia küszöb. Ha feltételezzük, hogy a nullhipotézis igaz és a p-értékünk kisebb, mint 0,05 (ha ez a szignifikanciaküszöbünk), akkor hosszú távon az esetek 5 százalékában tévedünk, vagyis elvetjük a nullhipotézist, pedig az a valóságban igaz.

Mindezek fényében az 1. állítás hamis, hiszen a p-érték nem a hipotézis valószínűségére vonatkozik. Ha a p-érték definícióját közelebbről megvizsgáljuk, akkor láthatjuk, hogy az az eredmények hosszú távú gyakoriságáról beszél akkor, ha a nullhipotézis igaz voltát adottnak vesszük. Tehát a valószínűség az eredmények előfordulási valószínűségére vonatkozik hosszú távon (amennyiben a nullhipotézis igaz), nem a hipotézisére. A kettő nem felcserélhető. Dienes Zoltan (2008) egy példája ezt jól szemlélteti. Mekkora annak a valószínűsége, hogy ha leharapja a fejünk egy cápa, akkor meghalunk? A valószínűség egy, teljesen biztos. Megfordítva a képlet így hangzik: mekkora a valószínűsége, hogy úgy halunk meg, hogy egy cápa leharapja a fejünket? Ennek kiszámításához el kell osztanunk azoknak az embereknek a számát, akik azért haltak meg, mert leharapta egy cápa a fejüket, a történelem során eddig meghalt összes ember számával. A kapott valószínűség közel nullával lesz egyenlő.

Másrészt a definíció alapján láthatjuk, hogy a p-érték hosszú távú gyakoriságra vonatkozik, azt nem tudjuk tehát megmondani, hogy ebben az adott esetben igaz-e a nullhipotézisünk vagy sem. A valóságban ebben az esetben a nullhipotézis vagy igaz vagy nem.

Végezetül a p-érték definíciójánál abból a felvetésből indultunk ki, hogy a nullhipotézis igaz. Ha azzal próbáljuk alátámasztani, hogy a valóságban a nullhipotézis igaz, hogy feltételezzük, hogy a nullhipotézis nem igaz, logikai önellentmondásba kerülünk. Máshogy fogalmazva: a nullhipotézis valószínűsége nem lehet egyszerre 0,1 és 1.

A 2. állítás sem igaz sajnos. A p-értéket nem lehet egy folytonos evidenciamutatóként értelmezni. Ha a példakutatásunkban kellően nagy a minta mérete, tehát nagyon sok piszoárral végeztük el a kísérletet, akkor nagyon kis különbségeket is szignifikánsnak fogunk találni, mert a nagy mintaméret miatt az adatokban lévő szórás kicsi lesz. Mindezért csupán egy szignifikáns eredmény nem jelenti azt, hogy minden közvécében érdemes lenne legyeket ábrázoló matricát ragasztani a piszoárokba. Ennek eldöntéséhez sokkal több egyéb faktort is meg kell vizsgálnia a kutatóknak és a döntéshozóknak. Például, hogy 1) mekkora volt a tényleges hatás (egy csepp volt a különbség a két kondíció között vagy több liter); 2) mekkora volt az elemszám (egy piszoárral vették fel a kísérletet a kutatók vagy több ezerrel); 3) miből épült fel a minta (nem biztos, hogy ha csak a Liszt Ferenc reptéren tesztelték az intervenciót, akkor az a londoni Heathrow reptéren is működni fog). Ezért legyünk nagyon óvatosak, amikor valaki csak szignifikancia mentén próbál minket meggyőzni arról, hogy a javaslatai policy szinten érdekesek lehetnek.

A 3. állítás is helytelen. A p-érték önmagában nem értelmezhető. Az NHST során a p-érték mindig az előre meghatározott szignifikancia szint (alfa) fényében kap értelmet. A p-érték egy döntési folyamat része; ha kisebb, mint a szignifikanciaküszöb, akkor elvetjük a nullhipotézist, ha nagyobb, akkor nem vetjük el. Ilyen szempontból a p = 0,049 és a p = 0,051 között csak akkor van lényegi különbség, ha az előre kiválasztott szignifikancia szintünk 0,05. Ha az előre kiválasztott szignifikanciaszint esetleg 0,1, a két p-érték között semmilyen lényegi különbség nincs. Ahogy a 2. Állítás vizsgálatánál is említettük, a p-értéket nem lehet folytonos evidenciamutatóként értelmezni. Éppen ezért, a szignifikanciaszintet kis mértékben túllépő p-értékeket marginálisan szignifikánsnak hívni vagy szignifikanciatrendről beszélni helytelen.

Ugyanígy nem helyes azt mondani, hogy egy kapott eredmény nagyon szignifikáns. Részben ezért nem helyes az sem, amikor statisztikai eredményeket tartalmazó táblázatokban csillagokkal jelölik a p-értékek mellett a szerzők, hogy milyen szignifikanciaszinten lenne szignifikáns az adott eredmény (***p <0,01, **p < 0,05, *p < 0,1). Azon kívül, hogy a kapott p-érték a küszöb felett vagy alatt van, nem tudunk következtetést levonni a méretéből. A p-érték pontos méretének transzparens riportálása azért fontos, mert koherensebbé és ellenőrizhetővé teszi az eredményeket. Ez különösen fontos akkor, amikor a szignifikanciaküszöbhöz közeli p-értékekről beszélünk. Egy kerekítési hiba meg tudja változtatni, hogy milyen döntést hozunk az eredményeinkkel kapcsolatban.

A fentiekben a p-érték és a szignifikancia három gyakori téves értelmezést soroltuk fel. Ezeken kívül sokkal többel találkozhatunk a publikált szakirodalomban vagy akár statisztikatankönyvekben. Kutatóként alapvetően arra vagyunk kíváncsiak, hogy igazolni tudjuk-e a hipotéziseinket vagy sem. Nem arra, hogy ha a nullhipotézis igaz lenne, akkor hosszútávon milyen gyakorisággal kapnánk ilyen vagy ennél extrémebb eredményeket. Ilyen szempontból az NHST logikája szembe megy a kutatók intuíciójával. Szerencsére azonban nem ez az egyetlen statisztikai keretrendszer, amiben inferenciális döntéseket tudunk hozni a kutatásunk eredményeit illetően. Egyre több tudományos folyóirat javasolja a bayesi statisztikai módszerek használatát, amelynek segítségével meg tudjuk határozni a nullhipotézis és az alternatív hipotézis mellett szóló relatív evidenciát.

Kovács Márton

MNB Intézet

<img fetchpriority="high" decoding="async" width="998" height="1024" data-attachment-id="6321" data-permalink="https://economaniablog.hu/2023/10/10/az-ember-a-tudos-mogott/marton_kovacs_22/" data-orig-file="https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?fit=3697%2C3793&ssl=1" data-orig-size="3697,3793" data-comments-opened="0" data-image-meta="{"aperture":"4.5","credit":"DASUN_WIJEWARDENA","camera":"NIKON Z 6","caption":"?????????????????","created_timestamp":"1664244603","copyright":"DASUN_WIJEWARDENA +4917676211696","focal_length":"40","iso":"400","shutter_speed":"0.005","title":"","orientation":"0"}" data-image-title="marton_kovacs_22" data-image-description="" data-image-caption="

?????????????????

” data-medium-file=”https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?fit=292%2C300&ssl=1″ data-large-file=”https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?fit=998%2C1024&ssl=1″ tabindex=”0″ role=”button” src=”https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?resize=998%2C1024&ssl=1″ alt=”” class=”wp-image-6321″ style=”width:193px;height:auto” srcset=”https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?resize=998%2C1024&ssl=1 998w, https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?resize=292%2C300&ssl=1 292w, https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?resize=768%2C788&ssl=1 768w, https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?resize=1497%2C1536&ssl=1 1497w, https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?resize=1996%2C2048&ssl=1 1996w, https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?resize=1200%2C1231&ssl=1 1200w, https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?resize=1100%2C1129&ssl=1 1100w, https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?w=2200&ssl=1 2200w, https://i0.wp.com/economaniablog.hu/wp-content/uploads/2023/10/marton_kovacs_22.jpg?w=3300&ssl=1 3300w” sizes=”(max-width: 998px) 100vw, 998px” data-recalc-dims=”1″ />

Kovács Márton a ELTE PPK pszichológia szakán szerezte mesterdiplomáját, ugyanitt jelenleg doktori tanulmányokat folytat. Az MNB Intézethez 2023-ban csatlakozott. Elsősorban kutatóként dolgozik a metatudomány területén, ahol a tudományos hatékonyságot és megbízhatóságot vizsgálja.



Hivatkozások:

Dienes, Z. (2008). Understanding psychology as a science: An introduction to scientific and statistical inference. Bloomsbury Publishing.

Gigerenzer, G., Krauss, S., & Vitouch, O. (2004). The null ritual. What you always wanted to know about significance testing but were afraid to ask. W: Kaplan D.(red.).

Lyu, X. K., Xu, Y., Zhao, X. F., Zuo, X. N., & Hu, C. P. (2020). Beyond psychology: Prevalence of p value and confidence interval misinterpretation across different fields. Journal of Pacific Rim Psychology, 14, e6.

Thaler, R. H., & Sunstein, C. R. (2008). Nudge: Improving decisions about health, wealth, and happiness. Yale University Press.


Borítókép: pixabay.com

The post A szignifikanciatesztelés logikája appeared first on Economania blog.

Ez a weboldal sütiket („cookie”) használ
Ez a weboldal sütiket használ a kényelmesebb böngészés érdekében. A honlap használatával Ön elfogadja, hogy az oldal sütiket használ. Kérjük, olvassa el Sütitájékoztatónkat, amelyben további információkat olvashat a sütikről és azt is megtudhatja, hogyan tudja kikapcsolni vagy törölni őket. View more
Cookies settings
Elfogadom
Nem fogadom el
Adatvédelmi és Cookie szabályzat
Privacy & Cookies policy
Cookie name Active
Hogyan törölheti a cookie-kat, és hogyan tilthatja le azokat: Kérjük, olvassa el Sütitájékoztatónkat, amelyben további információkat olvashat a sütikről és azt is megtudhatja, hogyan tudja kikapcsolni vagy törölni őket. Amennyiben nem szeretné, hogy cookie-kat használjunk, letilthatja azokat. A letiltás böngészőfüggő, és különböző módon történhet. A legnépszerűbb böngészőkben a letiltás mikéntjéről az alábbi linkeken szerezhet tudomást:
Save settings
Cookies settings