Kan man stole på forskning, der bygger på nationale test?

I årevis er der blevet sat spørgsmålstegn ved de nationale tests måleegenskaber, men testdata bliver stadig brugt til vigtig skoleforskning. En førende testekspert er betænkelig ved, at forskerne ifølge ham undervurderer, hvor usikre - og dermed vildledende - de pædagogiske testdata er.

Publiceret Senest opdateret

Lider skolebørns faglighed under forældres skilsmisse? Bliver eleverne bedre i skolen, når der er flere lærere i klassen? Gør nationale test i sig selv eleverne bedre til at tage test?

Sådan lyder nogle af de interessante spørgsmål, som forskningsrapporterne har givet svar på ved hjælp af data fra de nationale test i læsning og matematik. Men forskernes brug af data fra testene giver så uklare og upålidelige resultater, at konklusionerne minder mere om gætværk og vildledning end om videnskabelige resultater.

Det mener professor emeritus fra Københavns Universitet Svend Kreiner, der er en af de førende danske eksperter i test, og som selv var med til at udvikle folkeskolens nationale test i sin tid.

“Konklusionerne er i bedste fald ligegyldige og i værste fald misvisende”, siger Svend Kreiner, som i et nyt notat foretager en kritisk gennemgang af fire videnskabelige artikler, der begår de fejl, som professoren “støder på igen og igen” i rapporter baseret på data fra de nationale test, som han siger.

Når forskerne i en rapport, der er baseret på data fra nationale test, når frem til, at et eller andet har en effekt på elevernes dygtighed, så kan det meget vel være rigtigt, at der er en effekt, forklarer Svend Kreiner. Men om det er en betydelig eller en helt ubetydelig effekt, kan man ikke vurdere ud fra det, der står i rapporten. Og det ved forskerne sandsynligvis heller ikke selv, vurderer han.

I et 27 sider langt notat gennemgår Svend Kreiner fire forskningsrapporter, der er publiceret af Trygfondens Børneforskningscenter og Rockwool Fonden. I notatet redegør han kort fortalt for, hvordan data fra nationale test er forbundet med meget stor usikkerhed, som selv de mest anerkendte økonomer og andre forskere sjældent formår at tage højde for.

SAGEN KORT

Folkeskolen gennemførte i foråret et dobbeltinterview med professor emeritus Svend Kreiner og Rasmus Landersø, chef for forskning i uddannelse og familie i Rockwool Fondens Forskningsenhed. De to repræsenterer hver sin side i en faglig uenighed, der har stået på siden 2019, om hvorvidt og hvordan man kan basere forskning på nationale testdata. Parterne kunne efter to timer ikke nå til enighed.

Derfor har vi bedt Svend Kreiner om at skrive sine kritiske argumenter ned. Resultatet er et notat på 27 sider, som kan læses her. Denne artikel og de kritiserede parters modsvar er et forsøg på at formidle de uenige parters argumentationer i en lettere tilgængelig form.

Og det er problematisk, mener han, for selv om noget kan have en effekt på elevers resultater i de nationale test, er det ikke til at sige, hvor stor effekten er, forklarer han.

”Det er fuldstændig usynligt, hvor store forskellene er, og det gør resultaterne uinteressante. Det er ærgerligt, for det er jo relevante spørgsmål, som forskerne stiller i deres rapporter”, siger Svend Kreiner.

Risiko for vildledende resultater

Svend Kreiner er ekspert i psykometri, som er navnet på den videnskab, der beskæftiger sig med målinger af menneskers mentale evner. Professoren har igennem tiden set adskillige rapporter, der begår de samme fejl, og han har tidligere har påpeget problemerne i offentligheden.

HVAD ER PSYKOMETRI?

Psykometri er en videnskabsgren, der beskæftiger sig med generelle teoretiske og metodologiske principper ved måling (kvantificering) af mentale egenskaber og tilstande hos det enkelte individ. Det kan for eksempel være personens intelligensniveau, personlighedstræk, hukommelsesspændvidde med videre. I bred forstand dækker betegnelsen psykometri enhver anvendelse af matematik og statistikpsykologiske data.

Psykometriens overvejende praktiske opgave er at levere metoder til konstruktion og videnskabelig afprøvning af psykologiske test. Det sker ved hjælp af kvantitative, statistiske teknikker, som f.eks. skal afgøre i hvilken grad en test måler præcist og giver gyldige resultater.

”Det er et generelt problem, og det er derfor vigtigt, at forskere forstår det her. Folk bliver ved med at bruge de data forkert. Det er uklogt, og det risikerer at give vildledende resultater”, siger Svend Kreiner.

Svend Kreiner fremførte sin kritik så sent som i januar, da Rockwool Fondens Forskningsenhed publicerede en forskningsartikel, der konkluderede, at delebørns præstation i nationale test i dansk daler stødt, fra det tidspunkt deres forældre flytter hver til sit.

I kølvandet på kritikken gennemførte Folkeskolen et dobbeltinterview med Svend Kreiner og Rasmus Landersø, der er chef for forskning i uddannelse og familie i Rockwool Fonden i et forsøg på at komme til bunds i de faglige argumenter. Uden held. Vi har derfor bedt Svend Kreiner om at nedfælde sin kritik, og det er altså blevet til det omtalte notat, der på 27 sider blandt andet gennemgår Rockwool Fondens artikel om skilsmisse og elevers faglighed.

Hundredvis af projekter bygger på omdiskuterede data 

I juni udgav Rockwool Fondens Forskningsenhed endnu en rapport baseret på data fra de nationale test. Rapporten konkluderer, at flygtningebørn i klasserne ikke har en negativ effekt på de øvrige elevers præstationer i dansk læsning og matematik.

Brugen af de omdiskuterede data fortsætter med andre ord, og Rockwool Fonden er langtfra alene om det.

En aktindsigt hos Styrelsen for It og Læring (Stil) viser, at styrelsen har givet forskere bag 227 forskningsprojekter adgang til data om danske elevers resultater i de nationale test siden 2015, hvilket åbner op for mange potentielt fejlagtige videnskabelige konklusioner.

“Det er mange projekter, der potentielt er fulde af fejl, fordi forskerne generelt ikke ved, hvad de har med at gøre”, siger Svend Kreiner.

Folkeskolen har sendt Svend Kreiners notat til to forskere med ekspertise inden for psykometri, og her er der bred opbakning til hans kritik.

“Generelt bakker jeg op om Svend Kreiners kritik, og jeg er enig med ham i, at det ikke er en særlig god måde, data bliver anvendt på i de her fire rapporter”, siger ph.d. Daniel Bergh, der er lektor på Göteborg Universitet.

Han mener, at gennemgangen af de fire rapporter bør sætte tanker i gang hos de skole- og uddannelsesforskere, der har benyttet data fra de nationale test i deres forskning.

“Som forsker må jeg jo være interesseret i at vide, om det resultat, jeg kommer frem til, er korrekt. Her drejer det sig jo om data om børns kundskaber, og resultaterne kan få konsekvenser i forskellige sammenhænge. For forskning om præstationer i skolen leder til politiske beslutninger, som påvirker børnene, og det er derfor vigtigt, at man får undersøgt det her og får afdækket, hvor store de her problemer er”, siger Daniel Bergh.

Psykolog og ph.d. Tine Nielsen er ekspert i psykometri og sidder desuden med i den ekspertgruppe, der skal komme med anbefalinger til de nye nationale test, som er ved at blive udviklet. Hun er “i det store hele enig i Svend Kreiners kritik”, siger hun.

“Kritikken er efter min faglige overbevisning berettiget”, skriver Tine Nielsen i en skriftlig vurdering af Svend Kreiners notat, der kan downloades her.

Fejlbehæftede data kommer med en advarsel

Men hvad er det for nogle fejl, som kenderne af psykometri mener, at selv erfarne og anerkendte forskere begår, når de prøver at beregne effekten af et tiltag i skolen eller en begivenhed i børns liv ved hjælp af resultaterne i de nationale test?

En vigtig pointe i notatet er, at den måde, testscorerne oprindeligt blev opgjort på i de nationale test, havde systematiske fejl indbygget i sig, som gjorde data upålidelige. Problemet blev opdaget og påpeget af Svend Kreiner og professor Jeppe Bundsgaard, Danmarks Institut for Pædagogik og Uddannelse, i 2019, og året efter genberegnede Styrelsen for It og Læring (Stil) på den baggrund det meste data fra de nationale test. Dog med undtagelse af data fra de test, der er blevet foretaget i perioden 2010-2014.

De systematiske fejl betyder ifølge Svend Kreiner, at data, der ikke er blevet omregnet, hverken kan “benyttes pædagogisk i klassen eller til den form for statistiske opgørelser, som ministeriet (og forskerne, redaktionen) har brug for, medmindre fejlene bliver rettet”, som han skriver i sit notat.

De tidlige testdata er mere usikre end de senere, og de to datasæt kan desuden ikke umiddelbart sammenlignes. Når forskere anmoder om at få adgang til de omdiskuterede data, der bliver administreret af Stil, følger der derfor også en advarsel med, forklarer styrelsen i en mail til Folkeskolen.

Sagens notater og replikker

  • Professor Emeritus Svend Kreiner har skrevet et kritisk notat om forskeres brug af data fra nationale test i forskning.
  • Lektor Tine Nielsen har skrevet en vurdering af Svend Kreiners notat.
  • Otte kritiserede forskere har skrevet et fælles svar på Svend Kreiners kritik.

Når forskere ansøger om udlevering af data fra de nationale test, udleveres som udgangspunkt udelukkende de genberegnede elevdygtigheder fra 2015 og frem. STIL gør tydeligt opmærksom på, at testresultater fra 2010 til 2014 ikke direkte kan sammenlignes med testresultater fra 2015 til 2022. Dette fremgår også af den datadokumentation, der medfølger ved udlevering”, står der i mailen.

Flere af Rockwool Fondens projekter fra 2023 er netop baseret på de omdiskuterede data fra før 2015. Svend Kreiner roser i sit notat forskerne bag én af Rockwool Fondens rapporter for deres regnemetoder, der forsøger at korrigere for datafejlene. Rapporten handler om forældres skilsmisse og dens påvirkning på elevers dygtighed i skolen. Men han konstaterer også, at forskerne bag ikke tager godt nok højde for de systematiske fejl i data.

“Det betyder igen, at det er uklart, hvor langt konklusionerne holder. Rapporternes metoder bygger på forudsætninger, som ikke er opfyldt, og i rapporten er den risiko slet ikke nævnt”, siger Svend Kreiner undrende.

Generelt mener han, at for mange forskere undervurderer, hvor usikre pædagogiske testdata er.

Hvis det havde været nogle af mine studerende, der havde gjort det, var de dumpet.

Svend Kreiner, professor emeritus og ekspert i psykometri

Oplysninger om elevers færdigheder baseret på data fra pædagogiske test er ikke nødvendigvis objektive på samme måde som målinger af blodtryk og vægt eller oplysninger om personers årsindkomst, eller hvor mange biler de ejer, forklarer Svend Kreiner. Men det ignorerer forskerne bag de analyserede rapporter, og konsekvensen af den usikkerhed, som testresultater er behæftet med er, “at de statistiske metoder, som rapporterne baseres på, hviler på forudsætninger, som ikke er opfyldt”, siger han og tilføjer:

“Tallene bliver håndteret på en så forsimplet måde, at resultaterne ville være uinteressante, også selv om de ikke byggede på fejlbehæftede data”.

Topforskere laver alvorlige fodfejl

Forskerne bag de fire rapporter begår desuden nogle alvorlige fodfejl, når de forsøger at omregne den enkelte elevs pointscore i de nationale test til et samlet tal, der skal kunne bruges i forskernes beregninger. Efter en række omregninger og såkaldte standardiseringer er de oprindelige tal kort fortalt så forsimplede, at de er ubrugelige, forklarer Svend Kreiner.

“Det er ganske enkelt umuligt at vurdere den usikkerhed, der er forbundet med elevernes læsescore, og det er fuldstændigt umuligt at vurdere, hvad et enkelt point på den nye skala fortæller om forskelle i læsefærdigheder”, skriver Svend Kreiner, der kalder forskernes valg af metode “uklog”.

“Det er elementære, banale analyser, de laver, hvor de standardiserer resultaterne for at gøre det nemmere for sig selv. Hvis det havde været nogle af mine studerende, der havde gjort det, var de dumpet. Jeg fatter ikke, at de forskere stadig gør det”, siger Svend Kreiner.

En af de fire rapporter, som Svend Kreiner gennemgår i sit notat, er udgivet i 2017 fra Aarhus Universitet. Rapporten mener at kunne påvise, at elevers resultater i nationale test i høj grad kan forudsige deres resultater i 9. klasses afgangseksamen. Den mener desuden at påvise, at børn med en dårligere socioøkonomisk familiebaggrund klarer sig fagligt dårligere end gennemsnittet. Om rapporten skriver Svend Kreiner:

“Det er umuligt for mig at finde noget positivt at sige om den måde, de (forfatterne, redaktionen) har analyseret deres data på. Og det ville være ulykkeligt, hvis deres artikel har inspireret andre til at håndtere DNT-data (de nationale test-data) på samme måde”.

Økonom og psykometristuderende på Oslo Universitet Morten Puck har også læst Svend Kreiners notat, og han er på mange områder enig i kritikken. Blandt andet deler han Svend Kreiners bekymring for, at de problematiske metoder kan sprede sig.

“Svend Kreiner er bekymret for, om forfatterne bag rapporten skaber præcedens med deres metoder, og der må man sige, at flere har gjort det samme som dem og dét, der er værre, siden deres rapport udkom”, siger Morten Puck.

Forfatterne bag rapporten er medafsendere på et fælles skriftligt svar på Svend Kreiners kritiske notat Tilføjet 24/8: Anne Brink Nandrup skriver til Folkeskolen, at hun ikke har mere at tilføje på nuværende tidspunkt.

Forfatterne takker professor på Aarhus Universitet Simon Calmar Andersen for ”hjælpsomme kommentarer” i arbejdet med rapporten. Simon Calmar Andersen er desuden medforfatter på to af de fire rapporter, som Svend Kreiner har gennemgået, og Folkeskolen har derfor bedt ham om at komme med et svar på Svend Kreiners kritik

Vi har desuden spurgt Rasmus Landersø fra Rockwool Fondens forskningsenhed om, hvorfor enheden bliver ved med at bruge de kritiserede data til forskning.