Grundläggande oförståelse för statistik

illustration av medianvärdeJag är mycket fascinerad över att så många verkar ha svårt att förstå grundläggande statistik, som till exempel metoderna medianvärde och genomsnitt. Med många menar jag primärt politiker och journalister.

Så här gör du för att räkna ut ett medelvärde. Du slår samman alla värden (X) och delar dem på antal enheter (n) du slagit samman. (X1 + X2 + X3 +Xn)/n

Exempel:

Erik har 5 bananer

Lisa har 4 bananer

Max har 3 äpplen

Mehmet har 7 äpplen

Vivianne har 3 päron.

5 + 4 + 3 + 7 + 3 = 22 frukter

5 personer = 22/5.

I genomsnitt har alltså människorna i gruppen 4,4 frukter. Det säger mycket lite om hur många frukter enskilda personer har, speciellt om gruppen är stor och ägandet skiljer sig åt. Säg till exempel att Vivianne istället hade haft 113 päron, då hade människorna i gruppen haft 26,4 frukter i genomsnitt.

Genomsnitt kan vara rimligt om man till exempel skall räkna ut vad man lägger per månad på telefoni. Det varierar lite mellan månaderna, men för att göra budget räcker det med att veta vad genomsnittskostnaden är.

Genomsnittsvärde är en dålig metod om jämförelsevärdena skiljer sig mycket åt. Om till exempel någon har väldigt lite, några har väldigt mycket och ganska många har en del. Genomsnittet kommer att säga väldigt lite om vad folk i allmänhet har och påverkas av extremerna i topp eller botten. Genomsnitt förutsätter också att du har alla data. Om Erik till exempel inte har köpt sin frukt än går det inte att räkna på ett genomsnitt där Erik ingår.

Säg att du istället för att räkna på frukt vill räkna på hur länge människor i en generation lever och många har dött, men inte alla.  Det låter sig inte göras. Vilken siffra skulle man räkna med?

Istället använder man ofta medianvärde som innebär att man tar alla data och ställer dem i storleksordning och så letar man upp mitten.

För frukt exemplet innebär det att man tar  3, 3, 4, 5 och 7 och konstaterar att 4 ligger i mitten och är medianvärdet. Hade det varit jämt antal hade man slagit samman de två i mitten och delat dem på 2. 4 är en hyfsat rimlig beskrivning av hur många frukter människorna i gruppen har. Om vi nu växlar till exemplet där Vivianne hade 113 frukter istället för 3, blir medianvärdet istället 5. Också en fullt rimlig beskrivning.

Medianvärde fungerar också i fler situationer där du saknar data, som när du räknar på livslängd. Då vet du att du har en eller flera personer som blir äldre än vad de är nu och kan således sätta in dem i ordningen och få medianvärdet. Medianvärdet, när du räknar på ålder, kommer heller inte förändras så mycket av att några få dör väldigt tidigt och några få blir väldigt gamla.

Varför spelar då det här roll? Jo, i media diskuteras emellanåt hur länge invandrare är arbetslösa. Såväl politiker som journalister säger allt som oftast att invandrare har jobb i genomsnitt efter 7 år, vilket inte stämmer eftersom det är medianvärdet som ligger på 7 år. Eftersom många aldrig får ett jobb så går det inte att räkna på genomsnitt och skulle man ändå ha den datan så skulle värdet, räknat på genomsnitt blir avsevärt mycket högre.

Det innebär att för att få ett snittvärde på 7 år, med många långtidsarbetslösa (längre än 7 år!!!) så måste man också ha många som har jobb på en gång. Om det däremot är ett medianvärde så kan 49% få jobb efter 6,7 år och 49% aldrig ha ett jobb och ändå är medianvärdet 7 år.

Att politiker och journalister inte skiljer på de olika statistiska formerna är skrämmande, och innan någon kommer farande med anklagelser om förakt mot arbetarklass och akademisk snobbism så kan ni hålla i tanke att det här tillhör kunskaperna man borde ha med sig från matematiken i klass 7 och vi har allmän och obligatorisk skolgång till och med klass 9.

Vid sidan om denna okunskap som snedvrider diskussionen så uppmärksammades jag idag, på Thomas Gürs Facebookprofil, om hur man definierar sysselsättning i de här sammanhangen. De flesta av oss tänker ju instinktivt att det handlar om försörjning, som en anställning eller motsvarande. Så är det inte alls. Istället menar man, enligt SCB [PDF], med sysselsättning:

”Sysselsatta omfattar följande grupper:
– personer som under en viss vecka (referensveckan) utförde något arbete (minst en timme), antingen som avlönade arbetstagare, som egna företagare (inklusive fria yrkesutövare) eller oavlönade medhjälpare i företag tillhörande make/maka eller annan medlem av samma hushåll (=sysselsatta, i arbete).
– personer som inte utförde något arbete enligt ovan, men som hade anställning, arbete som medhjälpande hushållsmedlem eller egen företagare (inklusive fria yrkesutövare) och var tillfälligt frånvarande under hela referensveckan. Frånvaron räknas oavsett om den varit betald eller inte (=sysselsatta, frånvarande från arbetet). Orsak till frånvaron kan vara sjukdom, semester, tjänstledighet, (t.ex. för vård av barn eller studier), värnpliktstjänstgöring, arbetskonflikt eller ledighet av annan anledning.
– personer som deltar i vissa arbetsmarknadspolitiska program räknas som sysselsatta. Det kan gälla t.ex. offentligt skyddat arbete, Samhall, start av näringsverksamhet eller anställning med lönebidrag eller anställningsstöd.”

Under minst en timme, aktuell vecka utförde någon form av arbete eller uppfyllde ett arbetsmarknadsprogram som inte behöver leda till försörjning.

Det är minst sagt kassa resultat.

Jämför med att man tog alla som gick ut gymnasiet och ställer dem i en kö ordnad efter hur snart de har haft en timmas obetald sysselsättning och kollar hur lång tid det dröjde för den som står precis mitt emellan den som var snabbast och den som aldrig lyckades och fick 7 år som resultat samt efter det värderade skolans resultat. Sannolikt skulle man lägga ned skolan.

Nu kan man inte lägga ned invandring. Speciellt inte flyktingmottagning (med tillhörande anhöriginvandring) som är den andel invandring som gör att vi landar på 7 år. Man måste ändra någonting annat. Men det inser man ju inte om man inte kan ta till sig fakta i målet.

Sverige behöver ett kunskapslyft hos beslutsfattare och granskare.

Sverige behöver sluta räkna sysselsättning och räkna försörjning istället, för det är den som är avgörande för samhället.

Sverige behöver en arbetsmarknad som släpper in folk omedelbart, inte efter många år. Även de som inte har 13 årig svensk skola med efterföljande svensk universitetsutbildning.

Läs även andra bloggares åsikter om , , , , , , ,

MediaCreeper Creeper