”Man har valgt en adaptiv test med det ene formål at reducere usikkerheden mest muligt. Så er det jo helt ude i hampen at acceptere en så stor sikkerhed”, siger Svend Kreiner.

Her er problemerne i de nationale test

Sværhedsgrader er forældede, test stopper for tidligt, og elevers dygtighed vurderes forkert. Det er tre af de fem fatale punkter i de nationale test, som professorerne Svend Kreiner og Jeppe Bundsgaard peger på.

Publiceret

De femkritikpunkter

Analyserne viser:

a) at itemsværhedsgraderne som nationale tests algoritme bruger,ikke stemmer med de oplevede sværhedsgrader i 2017

b) at dygtighederne for nogle elevers vedkommende estimeresforkert

c) at nationale test for mange elevers vedkommende ikke måler såpræcist som lovet,

d) at en for stor andel af elevernes testforløb ikke stemmer medforudsætningerne i Rasch-modellen, samt

e) at algoritmen udviser tegn på stiafhængighed (eller stopperfor tidligt i processen).

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

En grundig analyse af læsetesten i 8. klasse har fået de to forskere Svend Kreiner og Jeppe Bundsgaard til at anbefale, at man fuldstændig dropper de nationale test. De har fem hovedkritikpunkter, som gør testene ubrugelige, ikke kun som pædagogisk redskab, som det tidligere har været fremført, men også som måleredskab.

Ny undersøgelse: Nationale test måler både forkert og usikkert

For at få et så sikkert resultat som muligt er testen adaptiv, så testen hele tiden ændrer sig efter elevens niveau. Opbygningen er, at elevens først får tre opgaver, som elevens dygtighed udregnes ud fra. Derefter får eleven en opgave, der ligger så tæt på estimatet af dygtighed som muligt. Så udregnes et nyt estimat. Hvis det er lavere end 'Sem' - som er standardfejlen på estimatet af dygtighed, som gerne skal ende på 0,30, vil testen være ovre. Hvis ikke, vil eleven igen få en ny opgave, der ligger så tæt på estimatet som muligt. Og sådan fortsætter testen til den har et sikkert estimat.

Den opbygning er der ikke noget galt med. Men den kræver en række faktorer, som ifølge de to forskere ikke har været i orden.

Sværhedsgraderne er forældede

For at få et så klart billede af elevens niveau som muligt, skal de optimalt set hele tiden have spørgsmål, som der er 50 procents sandsynlighed for, at de kan svare rigtigt på. Problemet er, at sværhedsgraderne på spørgsmål er forældede. De to professorer har haft adgang til alle elever i 8. klasses besvarelser på alle opgaver i læsning i 2017 og har ud fra dem beregnet sværhedsgraderne på opgaverne, sådan som eleverne i 2017 oplevede dem. Dem har de sammenlignet med de sværhedsgrader, som nationale test benytter, som er udregnet for næsten 10 år siden. Analyserne viser, at der mange steder er meget store forskelle på, hvor svære opgaverne er for eleverne.

"Man kan ikke teste med forkerte sværhedsgrader, det giver helt forkerte resultater", siger Svend Kreiner. Han kan ikke sige præcis, hvorfor de samme opgaver er sværere eller lettere for eleverne i dag, end de var på et andet tidspunkt.

"Det kan vi kun have hypoteser om. Men der er to ting, jeg har været bekymret over hele tiden. Det ene er, at situationen for eleverne, da testen blev udviklet var en anden. Det var en low stakes situation. Det er helt anderledes for dem nu, hvor det er high stakes, fordi de ved, at resultaterne har betydning for deres fremtid. Det andet er, at vi jo ved, at der foregår teaching to the test, hvor man øver den type opgaver, som man finder i de nationale test. Man skal være meget optimistisk, hvis man tror, at det ikke påvirker sværhedsgraderne".

Nogle elevers dygtighed vurderes forkert

Det leder videre til en anden udfordring, nemlig at estimeringen af elevernes dygtighed, som har betydning for, hvilken opgave de skal stilles overfor, er forkert.

"Det gælder for alle tre profilområder, at de mindst dygtige elever vurderes for lavt af DNT (…), og de dygtigste vurderes for højt (…). Særligt for profilområde 2 er det en meget markant tendens, men også profilområde 3 er den betydningsfuld. Nationale test producerer således systematisk forkerte estimater af elevernes dygtighed", konkluderer de to forskere i rapporten.

 

Det er forklaringen på - som nogle lærere har oplevet - at nogle elever bliver ved med at ligge på det samme niveau i lang tid, selv om de svarer rigtigt og burde rykke opad i skalaen, og ligeledes at nogle elever bliver ved med at få for svære spørgsmål, og derfor bliver meget frustrerede over testen.

Lærer reagerede: Ville ikke finde sig i skæve testresultater

Testene måler ikke så præcist som lovet

Da de nationale test blev udarbejdet, ønskede man fra ministeriets side at sikre et usikkerhedsniveau på 0,3 i den såkaldte 'Sem', som er standardfejlen på estimatet af dygtighed. Allerede fra starten har professor Svend Kreiner sat spørgsmålstegn ved, om det var en rimelig usikkerhed at acceptere. Den blev så senere rykket op til 0,5, fordi det ikke kunne lade sig gøre at ramme 0,3. Det, de to forskere nu kan påvise er, at testene ikke engang kan opfylde dette mål.

"En af årsagerne til den for store usikkerhed er, at man har ønsket at måle alt for mange ting på kort tid, og at der derfor ikke er tid til at stille særlig mange spørgsmål til hver enkelt delfærdighed. I de data, vi har analyseret, er der eksempler på, at man forsøger at måle tekstforståelse ud fra svar på ti eller færre opgaver. Det siger næsten sig selv, at man skal være meget optimistisk for at tro, man kan måle et så kompliceret fænomen med stor sikkerhed ud fra ti tilfældigt udvalgte opgaver", siger Svend Kreiner. Hvis ministeriet vil have bedre sikkerhed, må de nøjes med en profilopgave per fag, forklarer han.

"Man har valgt en adaptiv test med det ene formål at reducere usikkerheden mest muligt. Så er det jo helt ude i hampen at acceptere en så stor sikkerhed", siger Svend Kreiner.

Elevers testforløb stemmer ikke med Rasch-modellen

De nationale test beregner elevernes dygtighed ved hjælp af estimater af Rasch-modellens personparameter på samme måde som i fx Pisa. Men i stedet for at give resultaterne fra Rasch-skalaen, bliver de omsat til percentilscorer med reference til fordelingen af elever i 2010 eller 2014 og eleverne bliver derfor placeret på en skala der går fra "fremragende" til "ikke tilstrækkelig". Men fordi sværhedsgraden er forkert, bliver eleverne forkert placeret i raschmodellen.

"Hvis modellen skal regne rigtigt, så skal svarene på opgaverne kun afspejle, hvor godt eleven svarer på opgaven. Det vi kan se er, at der for mange elever er problemer i starten. De har ikke fundet ud af hvad der foregår eller får for vanskelige opgaver, fordi sværhedsgraden ikke er rigtig. Så vælter Raschmodellen og dermed også vurderingen af dygtighed", forklarer Svend Kreiner.

Riisager: Nationale test skal til reparation, men ikke droppes 

Algoritmen er stiafhængig eller stopper for tidligt

Endelig er der en udfordring, der hvor en elev får en særligt dårlig eller særligt god start på testen, , fordi estimatet baseret på besvarelsen af de første opgaver komme til at tælle for meget. Der er tale om såkaldt 'stiafhængighed', hvor det bliver svært for eleven at ændre niveauet.

"Dette skyldes to forhold. For det første at fire fejl i de første opgaver, af årsager der intet har med elevens færdigheder at gøre, under alle omstændigheder vil trække den samlede vurdering af dygtigheden ned. Det vil se slemt ud i starten, men efterhånden som eleven svarer på nye opgaver på en måde, der (kun) afhænger af, hvor dygtig eleven er, vil det samlede estimat blive realistisk om end en smule for lavt på grund af starten. Præcis hvor mange ekstra opgaver der skal til, er så vidt vi ved ikke undersøgt, men der er ingen grund til at tro at forløb med 10-20 opgaver kan kompensere for en mislykket start med fire eller flere fejlslagne svar på opgaver", lyder det i rapporten. Og på den måde testene er skruet sammen nu, vil eleven ikke kunne nå tilstrækkeligt mange opgaver til at korrigere.

SF kalder ministeren i samråd om nationale test 

Problemerne bliver større i en adaptiv test

Svend Kreiner forklarer, at en del af de problemer, de peger på, også ville have været alvorlige i en almindelig test, men de bliver ekstra store, fordi testen er adaptiv.

"Hvis en elev tog testen to gange, så ville eleven få forskellige opgaver, og dermed potentielt to forskellige typer af fejl. Så når man sammenligner testresultaterne bliver fejlene endnu større og år for år mere utroværdige".

Han mener godt, at man vil kunne ændre på fejlene, men spørgsmålet er, om man mener, at det er pengene værd, for det vil blive dyrt.

"Det er jo ikke noget, jeg har spekuleret på, da jeg var med i opstarten af testene. Men Rambøll lavede en evaluering i 2013, hvor de bemærkede, at ministeriet havde valgt et testsystem, som det ville være meget dyrt at udvikle og vedligeholde og forbedre. Det er rigtigt. Det kan gode være, at adaptive test er gode, men det er et meget, meget dyrt redskab. Det vil koste dem frygteligt mange penge fremover, hvis de vil vedligeholde det. Når man så ser på, hvor gavnligt det er for lærerne, og hvor dårligt det er formidlet for lærerne, så må jeg personligt sige, at det er for mange penge", siger han.