Lykkesmeden > Statistik og uvidenhed

Indeks Hjælp
Shopping USA, UK, Canada, Deutschland, France
Dictionary A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z

Det eneste signifikante i statistik-baseret forskning er ofte forskerens egen uvidenhed om statistikkens grundprincipper. Ikke-specialister forvirres let af mystiske tal med mange decimaler, hvor det er svært at gennemskue vrøvlet, men når der bores i de fremlagte påstande, kan det nemt vise sig at intet holder. Heldigvis bevarer størsteparten af befolkningen sin sunde fornuft og nærer en forståelig mistillid til "statistiske resultater".

Dagpressen omtaler ofte statistiske analyser, men da enhver kan kalde sig "forsker" og avisartikler normalt trykkes samme dag som de er skrevet, er der næppe mulighed for at kontrollere de statistiske metoders gyldighed inden trykningen. I de følgende afsnit vises f. eks. hvordan en bestemt type "forskning" bør anses for totalt ugyldig trods dens til tider betydelige udbredelse i pressemedierne, samt forbløffende støtte fra mindre kritiske dele af den offentlige forvaltning.

Fordi statistik ofte misbruges til skumle formål, er dens anseelse i befolkningen stærkt forringet, hvilket imidlertid er ufortjent. Der er ikke noget galt med statistikken i sig selv, men med den måde den til tider bliver anvendt. Statistik er en videnskab, som tillader at drage gyldige slutninger, forudsat de nødvendige spilleregler respekteres. Anerkendte videnskabelige publikationer stiller f. eks. krav om at der kun anvendes metoder som er egnede til de foreliggende data, og at resultaterne er mindst 95% sikre.

Den analyse af danskernes livskvalitet, som fremlægges i Lykkesmeden, hviler på strengere krav, idet teksten er filtreret gennem stærkt signifikante Chi 2-tests (Chi-i-anden-testen for variablers uafhængighed), hvilket betyder at sikkerheden altid er højere end 99%.

Skalatyper

Der er mange kendte faldgruber indenfor fortolkningen af statistiske data, som nemt kan medføre at alle konklusionerne bliver ugyldige. Den største klassiske fælde er nok at fejlbedømme skalatypen som data er målt på. Der findes to typer skalaer: de parametriske, som forudsætter at alle punkterne på skalaen er udtrykt som tal og målt præcist, mens de ikke-parametriske skalaer ikke stiller krav om talmæssig præcision.

De parametriske skalaer kan inddeles i to grupper: intervalskalaen, hvor alle afstande skal være nøjagtigt éns, og ratioskalaen, hvor punkterne er brøker som er målt præcist. Punkterne på en ikke-parametrisk skala behøver derimod ikke at være udtrykt som tal. Der findes to typer ikke-parametriske skalaer: ordinalskalaen, hvor punkterne er ordnet éntydigt i forhold til en bestemt faktor, og nominalskalaen, som ikke stiller dette krav.

Disse sondringer har stor betydning for hvilke statistiske metoder det vil være fornuftigt at anvende til at analysere et givent sæt data. Det giver f. eks. ingen mening at regne videre på tal der ikke er målt præcist.

En skala hvor punkterne er tekstudtryk som ulykkelig, lykkelig, eller meget lykkelig, er ikke-parametrisk, da den ikke indeholder et eneste tal. Man kan altså ikke fortolke denne type data som om de var tal, og fejlagtigt afbilde besvarelserne til besvarelserne henholdsvis 30%, 70% og 90% "Lykke", for at opnå samme regnemuligheder som en talskala hvor afstandene mellem punkterne er præcist lige store.

Der er nemlig intet grundlag for at antage at afstanden mellem meget ulykkelig og ulykkelig skulle være den samme som afstanden mellem lykkelig og meget lykkelig. Afstandene på en sådan skala kan ikke erkendes præcist, og denne skalatype kaldes ikke-parametrisk, idet den ikke giver mulighed for at anvende parametriske beregningsmetoder.

Selv parametriske data som Alder, Højde og Vægt kræver ikke-parametriske metoder, når man vil undersøge deres sammenhæng med de ikke-parametriske livskvalitetsdata.

Når en variabel som f. eks. Lykken har ukendte afstande, kan man ikke beregne et gennemsnit. Dette har alvorlige konsekvenser, da man så er afskåret fra at benytte statistiske mål, der er baseret på gennemsnit: uden gennemsnit kan man f. eks. ikke beregne standardafvigelsen. Uden standardafvigelse kan man ikke estimere standardfejlen ("standard error"). Uden kendskab til standardfejl, kan man ikke angive konfidensintervaller.

Man kunne måske beregne "den gennemsnitlige lykke" hvis data var tal fra starten, hvilket er muligt når personerne f. eks. selv angiver i procenter hvor lykkelige de føler sig. Men hvis der kun er benyttet en tekstskala med 4 intervaller, er der to problemer: afbildningen til tal er grebet ud af den blå luft, og der er for få trin på skalaen til at indkredse personernes tilstand med præcision. I et sådant tilfælde kan man ikke udregne et gennemsnit, og slet ikke angive det med flere decimaler. Det giver ingen mening at sammensætte et hjemmebrygget livskvalitetsmål med faktorer som Lykke, Tilfredshed, o.s.v., på ugyldig vis oversat til tal, og ganget med arbitrært fastsatte vægte. Denne type "forskning" hviler på tal uden forbindelse til virkeligheden, som kun fremkommer ved en meget usikker fortolkning af tekstudtryk. De oplagte indvendinger mod denne fremgangsmåde er overvældende, så der er ingen grund til at interessere sig for eventuelle konklusioner som er draget derfra.

Enhver forestilling om at kunne udtrykke Lykken ved tal vækker heldigvis helt naturligt en sund skepsis hos de fleste seriøse forskere. For eksempel kalder norske dr. med. Torgeir Bruun Wyller den eksplosive vækst i antallet af publikationer om "Quality of Life", hvor livskvalitet udtrykkes ved tal, for et af de største bluffnumre indenfor medicinen i 1990'erne. I et interview til Oslo Universitets tidskrift Apollon, nr. 98-1, forklarer medicineren blandt andet, hvordan det bliver direkte skandaløst når et amatørmæssigt begreb som "kvalitetsjusterede leveår" danner grundlag for teknokratiske prioriteringer indenfor sygevæsenet, eller for afgørelser om hvorvidt en given patient kan få en behandling.

Et almindeligt forsvar for den fejlagtige afbildning fra tekstudtryk til tal, er at den benyttes af mange forfattere indenfor "social science". Hertil kan der svares at de vildleder deres læsere, og muligvis sig selv (hvilket ikke altid kan udelukkes p.g.a. den ovenfor omtalte udbredte uvidenhed). Der findes desværre et utal af kommercielle institutter som tilbyder tvivlsomme "analyser" af menneskelige evner udtrykt i procenter eller afbildet i diagrammer, i mange tilfælde uden nogen sinde at anvende en gyldig metode.

Sammenhænge

Der er flere andre grunde til at parametriske metoder er uegnede til at analysere livskvalitetsdata. Mange parametriske metoder som f. eks. Pearson's korrelation eller lineær regression giver kun mening ved sammenhænge der både er lineære og monotone, d.v.s. hvor to faktorer viser en retlinet samvariation, som kun stiger, eller kun falder, således at f. eks. enhver forbedring af den ene faktor altid medfører en forbedring af den anden faktor. En kurve er derimod udtryk for en ikke-lineær sammenhæng. Når kurven er flerpuklet, er sammenhængen ikke-monoton, og anvendelsen af lineære metoder bliver meningsløs.

Et eksempel på en ikke-monoton sammenhæng er samvariationen mellem Lykke og Parforholdets varighed, hvor lykken er høj i starten af parforholdet, daler efter det første år, men stiger igen og kulminerer ved den første graviditet, daler igen ved den udbredte femteårs-krise, for derefter atter at stige. Et forskningscenter har offentliggjort en analyse af denne samvariation, hvor korrelationen angives til -0.0054, med 0.74 signifikans. Signifikans er sandsynligheden for at det ville være forkert at påstå at der ikke er nogen sammenhæng mellem faktorerne. Et "resultat" som ovenstående, der har 74% chancer for at være forkert, er ganske uegnet til publikation, da videnskaben ikke beskæftiger sig med påstande hvor signifikansen overstiger 0.05, d.v.s. 5% sandsynlighed for at tage fejl.

Det er velkendt at korrelationsbaserede analyser tilslører non-lineære sammenhænge, så i visse tilfælde er der er ingen grund til overraskelse når pressen offentliggør meddelelser om forskning der ingen sammenhænge har fundet mellem de undersøgte faktorer. Dette resultat kan nemlig være givet på forhånd, når de anvendte metoder ikke giver mulighed for at finde noget.

Fejlslutninger

Fordi der ikke er fundet noget, drages desværre ofte den forhastede slutning at sammenhængene ikke eksisterer, hvilket naturligvis er ganske grundløst. Logisk set svarer dette til at påstå at, fordi man ingen kinesere har set idag, så eksisterer kineserne ikke. Når man ovenikøbet søger efter kinesere, hvor der ingen sandsynlighed er for at finde nogen, svarer det til at sige at, fordi man ikke har fundet kinesere i køleskabet, så findes de ikke. Fremlagt på denne måde lyder påstanden selvfølgeligt tosset, men pakket ind i tilpas "smart" tågesnak, og krydret med grafer og uigennemskuelige tal, viser det sig at visse medier er villige til at sluge en hel del af denne slags.

Hvis udgangspunktet i en teori er falsk, bliver enhver konklusion mulig, hvilket betyder at man ikke længere kan skelne mellem sandt og falsk. Teorien bliver uinteressant, idet den intet kan sige om det emne som skulle undersøges.

Ugyldige teorier kan dog bruges til at fortælle os noget om de organismer som frembringer, støtter, eller spreder de ugyldige udsagn. Ugyldig forskning skyldes ofte uvidenhed, men dens viderebringelse i bestemte medier (disinformation) kan være forbundet med stiltiende hensigter, som f. eks. at fremme givne synspunkter. Den mest effektive vej ud af den almindelige forvirring er træning i klassisk logik. Matematikkens mængdelære er en omformulering af den klassiske logik i vendinger som er tilgængelige for alle.

Fordelinger

De fleste parametriske metoder kræver at data ikke blot er parametriske, men også at de er normaltfordelte.

Normalfordelingen er en klokkeformet kurve som topper i midten af skalaen, og hvor begge sider er symmetriske. Denne betingelse er heller ikke opfyldt i de foreliggende data, hvor de fleste fordelingskurver topper ved det næstbedste svar, og de resterende kurver topper ved skalaens bedste svar, hvilket vil sige at livskvalitetsdata altid er skævt fordelte, med et markant tyngdepunkt enten til højre eller venstre, og aldrig normaltfordelte.

Det synes faktisk umuligt at konstruere livskvalitetskalaer hvor besvarelserne vil toppe i midten, idet de fleste besvarelser viser sig at have en naturlig tendens til at ligge ved det næstbedste svar på skalaen, uanset svarenes ordlyd. For eksempel, i en undersøgelse hvor det bedst mulige svar på et spørgsmål om tilfredshed var 'meget tilfreds', topper kurven ved 'tilfreds'. I undersøgelsen som det aktuelle system hviler på, er svarmuligheden 'kunne ikke være bedre' tilføjet, og besvarelserne topper ved 'meget tilfreds', som nu er det næstbedste svar.

I en normal befolkning har de fleste det godt. Hvis man forsøger at konstruere en skala hvor godt ligger i midten, kommer skalaen til at savne nuancer på den dårlige side, og alligevel er det langtfra sikkert at befolkningsfordelingen bliver symmetrisk. I denne udgave af Lykkesmeden er de mindste besvarelsesgrupper lagt sammen, således at fordelingerne bliver delvist normaliseret, men en del kurver forbliver dog asymmetriske. Derfor er det nok bedst simpelthen at akceptere at livskvalitetsdata kun sjældent vil være normaltfordelte. Dette begrænser valget af mulige redskaber til at analysere de givne data, men heldigvis findes der stadigvæk glimrende metoder som er særdeles velegnede til formålet.

Passende metoder

Efter at vi har udelukket alle parametriske metoder, må vi prøve at finde en ikke-parametrisk metode, der kan anvendes på det foreliggende datasæt.

Ikke-parametriske skalaer kan enten være ordinal- eller nominalskalaer. Skalaerne i den foreliggende undersøgelse har en overfladisk lighed med ordinalskalaer, idet svarmulighederne er ordnet ifølge et ordenstal (f. eks. fra 1 til 5), hvilket i princippet burde give mulighed for at anvende ikke-parametriske metoder baseret på rangordning, som f. eks Mann-Whitney's U-test. Denne metode kræver ikke lige afstande mellem skalapunkterne, men kun at at de forskellige punkter er rangordnet éntydigt i forhold til en bestemt faktor, og metoden er derfor velegnet i mange tilfælde.

Men betingelsen om éntydig ordning er ikke altid opfyldt, idet opfattelsen af bestemte udtryk kan variere mellem sprogbrugere. Ved spørgsmålet: Hvor romantisk er jeres forhold for tiden? , er svarmuligheden 'hverken eller' placeret mellem 'lidt' og 'meget'. Denne rangordning er forvirrende, da nogle vil finde at 'lidt' er mere positivt end det neutrale svar 'hverken eller'.

Et andet, og muligvis mere tydeligt eksempel på uorden i en tilsyneladende ordnet skala, er spørgsmålet: Hvordan er din opfattelse af orgasmen, når du får den sammen med din partner ?, hvor svarmulighederne 'ikke noget særligt' og 'små, ubetydelige oplevelser' ikke kan rangordnes i forhold til hinanden, da de stort set har samme betydning. Her ville en interval-analyses forudsætning om éns afstande overalt i skalaen føre til det absurde, da den samlede afstand i skalaen så måtte antages at være næsten ingenting.

Desuden er undersøgelsen foretaget i 1996, på et tidspunkt hvor gradbøjningsadverbiet 'meget' ikke nødvendigvis har en forstærkende betydning, men derimod i mange tilfælde bruges som et svækkende udtryk, således at 'meget lykkelig' udtrykker mindre "Lykke" end blot 'lykkelig'. I mange af undersøgelsens skalaer er 'meget' benyttet til at betegne skalaens yderpunkter, hvilket ikke understøttes af tidens sprogbrug. Derved væltes rangordningen i en grad der skaber betænkelighed ved anvendelsen af metoder som kræver éntydig orden.

Ved spørgsmålet Hvordan går det med at sove?, har vi svarmulighederne jeg vågner af og til, og jeg har svært ved at falde i søvn, altså to forskellige problemer, uden mulighed for indbyrdes rangordning.

For visse af de undersøgte faktorer som f. eks. Boligform, Ægteskabelig status, eller Ansættelsesform, kan der slet ikke tales om rangordning, da man ikke kan hævde at f. eks. Offentlig betyder mere "Ansættelse" end Privat. Sådanne skalaer kaldes nominale, fordi udtrykkene kun kan tages for pålydende.

Undersøgelsen indeholder desuden mange dichotomier, d.v.s. spørgsmål som kun besvares med ja eller nej. Det kan diskuteres, hvorvidt nogle af disse dichotomier kunne anses for ordinale: ved f. eks. Jeg har besvær med trapper, er der ingen tvivl om at Ja udtrykker mere besvær end Nej. Men med kun to kategorier har vi ikke et tilstrækkeligt nuanceret grundlag til at kunne fastslå v.h.a. en ordinal metode, hvornår besværet med trapper stiger eller falder. Vi er altså igen henvist til at betragte data som nominale.

De foreliggende data indeholder således et mindre antal klart nominale skalaer, mange nominale dichotomier, samt mange tvivlsomme ordinalskalaer, som det vil være mest sikkert at fortolke nominalt.

Dermed er vores metodevalg nu indskrænket til en delmængde af de ikke-parametriske metoder, rettet mod nominale data. Blandt disse metoder er Chi 2 (Chi-i-anden-testen for variablers uafhængighed) den mest anvendte. Metoden stiller ingen krav om normalfordeling eller rangordning, men består tværtimod netop i at sammenligne de observerede befolkningsfrekvenser med de tal man kunne forvente udfra normale sandsynligheder. En stor afvigelse fra forventningerne udtrykker en sammenhæng mellem de undersøgte faktorer. Chi 2-testen tager svarene for pålydende, således at f. eks. 'lykkelig' simpelthen fortolkes som lykkelig. Chi 2 giver meget pålidelige resultater, hvilket forklarer dens store udbredelse blandt seriøse forskere. Metoden er behandlet i alle statistikbøger, og Internet rummer mange gode tekster om Chi 2, som kan findes ved f. eks. at søge udtrykket "chi-square" på en international søgemaskine. "Chi-square" er den engelske betegnelse for chi-i-anden. Udvalgte referencer er angivet nedenfor, i denne sides bibliografiske afsnit.

Signifikansen i den foreliggende udgave af Lykkesmeden hviler på Chi 2-tests, uden den omstridte Yates' correction for continuity. Yates' korrektion blev tidligere anset for nødvendig ved små forventede frekvenser (når en af grupperne tæller få personer: 5 ifølge nogle forfattere, 10 hos andre). I denne udgave af Lykkesmeden er de mindste svargrupper sammenlagt, således at ingen af de forventede frekvenser ligger under 5, og Yates' correction bliver derfor unødvendig.

Chi 2 måler sandsynligheden for at en sammenhæng fundet i et datasæt gælder for hele befolkningen. Men metoden fortæller ikke direkte hvor stor sammenhængen er. Afledte metoder, beregnet udfra Chi 2 kan måle samvariationen ('Shared Variance') mellem to faktorer, d.v.s. hvilken andel af den ene faktors variation, som hænger sammen med variationen af den anden faktor. Her angives samvariationens styrke med Cramer's V, som er den mest populære variant af det ikke-parametriske Phi-mål. D. Cramer viste at det teoretiske maksimum for Chi 2 er lig med befolkningstallet ganget med m-1, hvor m er minimum blandt antallet af rækker og kolonner. Derfor definerede han sin Phi-variant som Chi 2 divideret med dens teoretiske maksimum, således at Cramer's V varierer mellem 0 og 1.

Det bør understreges at en statistisk sammenhæng mellem to variabler ikke nødvendigvis betyder at variationerne af den ene faktor er en direkte årsag til variationer af den anden faktor. Den konstaterede samvariation mellem variablerne kan eventuelt skyldes at de har en fælles, skjult årsag. Denne udgave af Lykkesmeden benytter to retningsbestemte statistiske mål, som kan medvirke til at afklare forholdet mellem årsag og virkning: Henri Theil's Uncertainty Coefficient (Theil's U), samt Goodman og Kruskal's Lambda*. Disse asymmetriske metoder er udledt fra teoremer i den betingede sandsynlighedsregning (Conditional Probabilities). Lambda* er en Lambda-variant som er uafhængig af rand-totaler, og fokuserer på de modale kategorier (typetal), mens Theil's U tager hensyn til hele tabellen. Gini D (en anden Lambda-variant) benyttes til at måle forskelle mellem to kategorier. Disse metoder kan bruges til at indikere et kausalitetsforhold, men de udgør ikke i sig selv et tilstrækkeligt grundlag til at fastslå kausalitet med sikkerhed. I den seneste udgave introduceres på forsøgsbasis Delta*, en stærkere Kausalitets Indikator baseret på Lambda*, og derfor genstand for tilsvarende filosofiske forbehold.

Der findes en lang række andre metoder som det kunne være forsvarligt at anvende, f. eks. odds-ratio, Fisher's exact probability test, eller Conditional Association. Selv om disse metoder er anbefalelsesværdige, kan de ikke tilføje noget i forhold til den brede vifte af metoder som allerede er anvendt i Lykkesmeden. Odds-ratio er f.eks. meget fintfølende, men savner Chi 2's indbyggede mulighed for signifikansbestemmelse. Når man kun er interesseret i en rangordning af resultaterne, er der ingen fordel i at anvende alternative metoder der foretager den samme rangordning som Chi 2. Hvis man så benytter Chi 2 til at filtrere usikre beregninger væk, bliver resultatet nemlig det samme som ved kun at bruge Chi 2.

Sammenfatning

Vi har set at anvendelsen af parametriske metoder er fuldstændigt udelukket, da de foreliggende data hverken er numeriske eller normaltfordelte. Da svarmulighedernes rangordning ofte halter, er det bedst også at afstå fra at benytte visse ikke-parametriske metoder, som kræver mere gedigne ordinalskalaer. Dermed er vores valg indskrænket til metoder som er egnede til at analysere nominale data. Blandt disse metoder, er det umuligt at komme udenom Chi 2-testen, og Lykkesmeden hviler derfor hovedsageligt på Chi 2-tests, uden Yates's correction.

De anvendte metoder er særdeles velegnede til datasættet, og giver mange interessante resultater, som alle opfylder mindstekravet om stærk signifikans (0.01 niveau). Generelt ville dette betyde at mindst 99% af tekstens udsagn er sikre, mens en ud af 100 blandt de fundne sammenhænge sandsynligvis skyldes en tilfældighed. I praksis er sikkerheden dog langt højere, da teksten kun indeholder sammenhænge hvor styrken overstiger 10% (og 30% i Internet-udgaven), målt med Cramer's V. Hyperteksten hviler på en udtømmende evaluering af alle de mulige hypoteser, og alle resultaterne er symmetriske.

Bibliografi

I artiklen Pitfalls of Data Analysis (or How to Avoid Lies and Damned Lies), giver Clay Helberg gode anvisninger i hvordan man kan undgå de kendte faldgruber i statistisk analyse.

Georgetown University's websted har en omfattende tekstsamling om Chi 2-testen ved Profs. Catherine N. Ball og Jeff Connor-Linton, deriblandt en lettilgængelig introduktion, samt en Chi 2-kalkulator.

Et udvidet panorama over relevante metoder findes i Professor G. David Garson's kursusmateriale om Quantitative Research in Public Administration, ved North Carolina State University.

Reference-værket om samvariation og krydstabulering er Goodman, Leo A. and W. H. Kruskal , Measures of association for cross-classifications, I, II, III og IV, Journal of the American Statistical Association, 49: 732-764, 54: 123-163, 58: 310-364, og 67: 415-421 (1954, 1959, 1963 og 1972). Den fjerde artikel behandler Henri Theil's Uncertainty Coefficient.

Et udvalg af de bedste nominale metoder gennemgås på Richard B. Darlington's websider om Measures of association in crosstab tables, ved Cornell University.

Det klassiske referenceværk om ikke-parametrisk statistik er stadig Siegel, Sidney: Nonparametric statistics for the behavioral sciences, 1956, McGraw-Hill, New York.

Et andet klassisk værk er Ferguson, G.A.: Statistical Analysis in Psychology and Education, 1971, McGraw-Hill, New York.

På et filosofikursus ved University of California, San Diego, Introduction to Causal Reasoning, forklarer Professor Jason Alexander hvordan man skelner mellem årsag og sammenhæng.

Professor William M.K. Trochim fra Cornell University har sammensat en bred vidensbase om forskningsmetoder, med store mængder solidt baggrundsmateriale vedrørende anvendelsen af statistik i social videnskab.

Michael Friendly fra York University har skabt et oplysende og underholdende websted, med eksempler på både det bedste og det værste indenfor statistisk grafik.

© 1999-2005 MegaDoc · Gyldig XHTML · Kontakt os