Verktyg: Så väljer du rätt statistisk metod för att analysera dina variabler
Statistiska samband analyseras med flera olika typer av statistik
Det finns ingen universell metod för statistisk analys som alltid fungerar. Samband mellan variabler måste analyseras med olika statistiska analysmetoder beroende på vilka skalnivåer variablerna tillhör. Om ett samband mellan två variabler med olika skalnivå undersöks måste forskaren dessutom anpassa sitt val av statistisk analysmetod utifrån vilken variabel som han eller hon antar är orsaken (den oberoende variabeln) och vilken variabel som han eller hon antar är utfallet (den beroende variabeln).
På denna sida introduceras skalnivåerna och ett par viktiga undergrupper till dem. Därefter presenteras verktyget som du kan använda för att välja rätt typ av statistisk analymetod utifrån ditt val av beroende och oberoende variabler. Om du använder dig av informationen om skalnivåer eller av verktyget får du gärna referera till här sidan. Du kan i så fall använda följande referens:
Aronson, O. (2023). Verktyg: Så väljer du rätt statistisk metod för att analysera dina variabler. Kvantila. https://www.kvantila.com/valj-ratt-statistisk-analys
Skalnivåer och undergrupper
Nominalskalan
Variabler på nominalskalan har svarsalternativ som är kvalitativt olika och som inte kan rangordnas. Två exempel på sådana är variabler är kön och bostadsort. Man kan inte rangordna kön (dvs. ett kön är inte mer kön än ett annat) och man kan heller inte rangordna bostadsorter enbart utifrån vilka de är (man skulle såklart kunna rangordna dem utifrån storlek, men då är den en annan typ av fråga man ställer).
Variabler på nominalskalan analyseras på mycket olika sätt beroende på om de har två eller fler svarsalternativ. Nominalskalevariabler med enbart två svarsalternativ kallas binära eller dikotoma. För enkelhetens skull kommer denna undergrupp av nominalskalevariabler att kallas binära i resterande text på denna sida. Binära variabler kan analyseras på många olika sätt, tillsammans med variabler på många olika skalnivåer.
En annan undergrupp av nominalskalevariabler utgörs av de som har tre eller fler svarsalternativ. Dessa nominalskalevariabler kan inte analyseras på lika många sätt tillsammans med andra variabler. För att förenkla analyser omkodas ibland nominalskalevariabler med fler än två svarsalternativ till binära variabler genom att flera svarskategorier slås samman. I vissa fall genomförs så kallad dummy coding av nominalskalevariabler med fler än två svarsalternativ för att de ska kunna inkluderas som oberoende variabler i till exempel regressionsanalyser.
Ordinalskalan
Variabler på ordinalskalan har svarsalternativ som kan rangordnas. För variabler på ordinalskalan är det dock inte möjligt att säga exakt hur stor skillnad det är mellan olika svarsalternativ och det går därför inte att säga att det är lika stor skillnad mellan det första och andra svarsalternativet som mellan det andra och tredje eller det tredje och fjärde.
En vanligt förekommande typ av ordinalskalevariabel är den som man får genom att använda så kallade Likert-frågor i enkäter. En Likert-fråga utgörs av ett påstående som enkätdeltagaren tar ställning till. Till exempel kan ett påstående lyda "Jag gillar att äta prinskorv." Svarsalternativen till påståendet är "Stämmer inte alls", "Stämmer delvis inte", "Varken eller", "Stämmer delvis" och "Stämmer helt". När svaren från enkäten kodas in i en datafil så anges siffran 1 för första svarsalternativet, siffran 2 för andra svarsalternativet och så vidare. Även om svaren kodas in med siffror är det viktigt att förstå att det rör sig om en ordinalskalevariabel och att det därför inte alls är säkert att det skiljer lika mycket mellan, till exempel, första och andra svarsalternativet som mellan andra och tredje svarsalternativet.
Det finns två olika undergrupper av ordinalskalevariabler som kan analyseras på delvis olika sätt beroende på vilka antaganden forskaren eller studenten är villig att göra. I den första undergruppen ingår de ordinalskalevariabler som enbart har tre eller fyra svarsalternativ och i den andra undergruppen ingår de ordinalskalevariabler som har fem eller fler svarsalternativ. Variabler som enbart har två svarsalternativ betraktas i allmänhet inte som ordinalskalevariabler utan som binära nominalskalevariabler, även om dessa har två svarsalternativ som kan rangordnas. Undergruppen med ordinalskalevariabler som har tre eller fyra svarsalternativ kan analyseras med relativt få analysmetoder tillsammans med andra variabler. Undergruppen med ordinalskalevariabler som har fem eller fler svarsalternativ kan analyseras på betydligt fler olika sätt om forskaren eller studenten är villig att göra antagandet att dessa ordinalskalevariabler kan betraktas som approximativa (ungefärliga) kvotskalevariabler (se förklaring av kvotskalevariabler nedan). I strikt mening kan ju ordinalskalor aldrig vara kvotskalor, men när ordinalskalor har många svarsalternativ så väljer ändå många forskare att analysera dem som om de vore kvotskalor eftersom praktisk forskningserfarenhet har visat att detta ofta fungerar ganska bra.
Intervallskalan
Variabler på intervallskalan har svarsalternativ som kan rangordnas och för vilka man kan ange exakta storleksskillnader. Dock saknas det en naturlig eller självklar nollpunkt för dessa variabler och det är därför inte möjligt att uttala sig om proportioner genom att jämföra svarsalternativens värden. På en intervallskala ska värdet 4 alltså inte tolkas som dubbelt så stort som värdet 2.
Relativt få variabler befinner sig på intervallskalan. Några exempel på intervallskalevariabler är temperatur och årtal (för vilka nollpunkterna är godtyckligt utsatta). De flesta intervallskalevariabler analyseras som, eller görs om till, kvotskalevariabler (se nedan). I flera statistiska program, såsom SPSS, anges inte en särskild skalnivå för intervallskalevariabler utan de benämns då tillsammans med kvotskalevariabler med beteckningarna "scale" eller "continuous". I verktyget för att välja statistiska analyser för olika kombinationer av oberoende och beroende variabler, som presenteras nedan, kommer intervall- och kvotskalevariabler nämnas i samma variabelkategori, med samma föreslagna statistiska analysmetoder.
Kvotskalan
Variabler på kvotskalan har svarsalternativ som kan rangordnas, har exakta storlekskillnader och kan ställas i relation till en given nollpunkt. Kvotskalevariabler kan analyseras på många olika sätt och, vid behov, omkodas till andra variabeltyper. Exempel på kvotskalevariabler är ålder och månadsinkomst. En person som är 25 år gammal är exakt 5 år äldre än den som är 20 år. Det är lika stor åldersskillnad mellan de som är 20 och 25 år som mellan de som är 25 och 30 år. Det finns en naturlig nollpunkt vid födseln, vilket innebär att det är rimligt att hävda att den som är 40 år är dubbelt så gammal som den som är 20 år.
Det är viktigt att tillägga att svarsalternativ till kvotskalevariabler inte ska utgöras av intervall eller förutbestämda kategorier. Om en enkät till exempel låter deltagarna bocka för färdiga svarsalternativ som anger ålders- eller inkomstintervall, såsom 20-24 år eller 30000-34999, kan inte svaren längre betraktas som kvotskalevariabler. Dessa variabler är i så fall att betrakta som ordinalskalevariabler eftersom det är osäkert exakt hur stor skillnaden är mellan två olika svarsalternativ. Ett allmänt tips är därför att, i största möjliga mån, undvika förutbestämda intervall i enkätfrågor och istället låta enkätdeltagare svara med exakta siffror (som de själva skriver in utan färdiga svarsalternativ).
Verktyg för att välja rätt statistisk analys till oberoende variabler och beroende variabler på specifika skalnivåer
Verktyget nedan kan användas för att avgöra vilka statistiska analyser som är lämpliga för en viss kombination av oberoende och beroende variabler på specifika skalnivåer. Fyll i den typ av oberoende variabel som du arbetar med i rullgardinsmenyn till vänster och fyll sedan i den typ av beroende variabel som du arbetar med i rullgardinsmenyn till höger. När du har fyllt i en viss kombination av variabler så visas förslag på lämpliga statistiska analysmetoder. Kom ihåg att det spelar roll vilken variabeltyp som anges som oberoende och beroende – du kan inte alltid använda samma statistiska analys om du vänder dem "bak och fram".