Data fishing - förbjudet och vedertaget
- Olov Aronson
- Feb 13, 2023
- 2 min read
Signifkansvärden kan verka övertygande om man bortser från det faktum att de flesta forskare testar otaliga statistiska analyser innan de slutligen presenterar sina resultat. Låt mig förklara, kortfattat, varför detta är ett problem.
Vi kan utgå från ett hypotetiskt exempel i vilket en forskare vill undersöka om det finns ett samband mellan en viss terapeutisk intervention och minskad psykisk ohälsa. Forskaren som genomför undersökningen söker aktivt efter (starka) signifikanta resultat eftersom icke-signifikanta resultat i allmänhet inte blir publicerade (då de inte betyder något). För att hitta signifikanta resultat testar forskaren en mängd olika statistiska modeller och analyser tills han eller hon finner det som han eller hon söker.
Det är inte svårt att hitta olika statistiska modeller och analyser som forskaren kan testa eftersom både den terapeutiska interventionen och psykisk ohälsa kan mätas på många olika sätt. Det finns också otaliga kontrollvariabler och modelldesigner att välja mellan.
Så vad är problemet? Jo, för varje analys som forskaren genomför ökar risken att han eller hon hittar ett resultat som är produkt av ren slump och alltså inte alls är representativt för den population som undersöks. De flesta forskare utgår från att resultat är signifikanta om p-värdet (den påstådda sannolikheten att ett resultat hade kunnat uppstå av en slump vid urvalet) är mindre än 0,05. Det låter ju toppen - men det gäller bara om forskaren genomför en analys vid ett tillfälle! För varje ytterligare analys forskaren genomför, desto större blir sannolikheten att han eller hon hittar, och feltolkar, något som i själva verket är slumpmässigt.
Låt säga att en forskare testar 10 olika analyser. Då blir sannoliketen att han eller hon hittar ett signifikant resultat som beror på slumpen 1 - 0,95^10 = 0.40. Alltså, redan efter 10 försök är sannolikheten 40 % att en forskare hittar ett signifikant resultat som inte alls är representativt för populationen! Med tanke på att de flesta forskare testar hundratals analyser är sannolikheten nästan 100 % att de hittar flera signifikanta resultat som enbart beror på slumpen. Detta kallas för data fishing - en formellt förbjuden men i praktiken allmänt vedertagen forskningspraktik.
En forskare som testar många olika analyser för att försöka hitta signifikanta samband mellan en terapeutisk intervention och minskad psykisk ohälsa kommer alltså nästan alltid att lyckas - även om det inte finns något verkligt samband mellan interventionen och minskad psykisk ohälsa. Den som söker, den finner.
Detta är såklart en av förklaringarna till varför de flesta "vetenskapliga" resultat inte kan reproduceras av andra forskare.
/Olov
