Det er ikke klart, hvad nationale test måler fagligt set, og testen måler med så stor usikkerhed, at elevens dygtighed kan befinde sig i tre eller flere af de seks niveauer, konkluderer professor Jeppe Bundsgaard i en ny forskningsartikel.

Nu skal det evalueres, om de nationale test måler rigtigt, og om lærerne kan bruge dem til noget

Har testene nogen nytteværdi for læreren, og måler de rigtigt? Det er noget af de vigtigste at undersøge i den kommende evaluering af de nationale test, siger en rådgivningsgruppe til undervisningsminister Merete Riisager.

Karen Ravn

Offentliggjort 16.11.2018 - 07:00

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

"Oplever lærerne, at den information som de nationale test producerer, er nyttig og handlingsvejledende i det pædagogiske arbejde?"

Dét spørgsmål er den store, bredt sammensatte rådgivningsgruppe af eksperter og skolefolk nået frem til som det højest prioriterede af en hel række spørgsmål, de mener, den kommende evaluering af de nationale test skal tage fat på.

Lærere og kritikere er med i gruppe, der skal sikre gennemlysning af nationale test

"Jeg er glad for, at gruppen er nået frem til denne indstilling. Jeg synes, det er et fint oplæg, som hverken er for langt eller for kort. Jeg glæder mig til at se, i hvilket omfang de mange gode spørgsmål i indstillingen kommer til at præge det kommende evalueringsarbejde", siger evalueringsgruppens formand Peter Dahler-Larsen om det samlede papir (se link under artiklen).

Læs også

De andre spørgsmål, som rådgivningsgruppen vil prioritere højt, handler blandt andet om de problemer med målesikkerheden, som lærere og forskere gentagne gange har konstateret.

Nationale test: 12 procent af eleverne svinger overraskende fra test til test

Samlet har rådgivningsgruppen besluttet, at der skal søges svar på 12 hovedspørgsmål:

1) Regner de nationale test rigtigt? Det ikke er sikkert, de mange tusinde opgaver i opgavebanken stadig har den sværhedsgrad, som de er angivet til i databasen, og som testenes adaptive algoritme bruger. I værste fald passer opgaverne ikke længere til den såkaldte Rasch-model, som er altafgørende for hele det adaptive princip, som gør, man skal kunne sammenligne elevernes præstationer, selvom de besvarer forskellige opgaver.

2) Kan sikkerheden i målingerne af elevernes færdigheder forbedres ved at kombinere resultater fra forskellige profilområder?

3) Findes der test i Danmark eller andre lande, som

med samme tidsforbrug måler mere præcist end de nationale test?
har større målingsvaliditet i forhold til, hvad der i Danmark er beskrevet i rammedokumenter som skolens formål og målsætninger

4) I hvilket omfang er der sammenhæng mellem skolens formål og målsætninger og indholdet i de nationale test?

5) Hvordan forstår lærerne, hvad testresultaterne viser?

6) Når de nationale test fokuserer på delaspekter af specifikke fagområder, hvordan præger valget af disse delaspekter så den måde som det enkelte fag opfattes, realiseres og prioriteres? Hvordan oplever lærerne, at det nationale test (testens eksistens, indhold og form) påvirker lærernes undervisning, dels i klassen, dels i forhold til den enkelte elev?

7) Hvordan er evalueringspraksis på skolerne? Hvad er læreres oplevelse af sammenhængen mellem testene på den ene side og på den anden side det pædagogiske arbejde og skolens evalueringspraksis i øvrigt?

8) I hvilket omfang og hvordan arbejder skoleledere og lærere sammen, eventuelt under inddragelse af vejledere og konsulenter om at tolke testresultater og bruge dem i forhold til udvikling af den pædagogiske praksis?

9) Hvordan anvender og oplever skoleledelsen de nationale test i ledelsesarbejdet og i skolens evalueringspraksis i øvrigt?

10) Hvad er elevernes oplevelse af, hvordan lærerne forklarer om testene, og hvordan er sammenhængen med elevernes oplevelse i testsituationen?

11) Får eleverne feedback efter test? Og i så fald, kan de bruge den i forhold til deres egen læring?

12) Hvordan vurderer forældre fordele og ulemper?

Analyse: 2018 kan blive et skæbneår for nationale test

Ikke noget pædagogisk redskab

Ét af medlemmerne i rådgivningsgruppen er professor Jeppe Bundsgaard, som netop har offentliggjort en artikel i det norske forskningstidsskrift Sakprosa om den pædagogiske brug af de danske nationale test.

Input til lærerens undervisning var nemlig et af hovedformålene for de politikere, der indførte dem i 2006. Men hans konklusion er, at et sådant redskab har lærerne ikke fået med nationale test.

Han gennemgår testene på seks punkter, som han mener, at de skal besvare, hvis læreren skal kunne bruge testresultaterne som et pædagogisk redskab. Blandt andet skal læreren forstå, hvad testen måler, se, hvordan eleverne klarer sig i forhold til andre og i forhold til tidligere, hvilke elever der har problemer, og hvad elevernes nærmeste udviklingszone er.

Og han er ikke begejstret for, hvad han finder. Først og fremmest er der ikke opgaver nok til en sikker og præcis bedømmelse af hver enkelt elev.

Den røde horisontale streg angiver konfidensintervallet, dvs. at elevens resultat ligger inden for det interval med 68 procents sandsynlighed. Procentsatserne, der er angivet i nogle af kategorierne i scoren til højre, angiver hvor stor sandsynligheden er for, at elevens dygtighed ligger i en af disse kategorier. Der er således ret stor sandsynlighed for, at den pågældende elevs dygtighed reelt er god, jævn eller mangelfuld.

"Man kan med god ret spørge, hvordan et sådant resultat kan bruges pædagogisk. Hvis resultatet ligger omkring, hvad læreren ventede, så får læreren bekræftet sin antagelse. Men hvis resultatet ligger langt fra, hvad læreren ventede, er det så blot, fordi usikkerheden er så stor, at elevens reelle dygtighed ligger i yderpunktet af konfidensintervallet? Eller er der faktisk behov for at læreren tager initiativer i forhold til denne elev?", skriver han med udgangspunkt i ministeriets egen visning af usikkerheden.

Lærerne får ikke nogen information om, hvilke typer af faglige udfordringer eleverne på forskellige kritierieniveauer i testresulaterne har, og der findes ingen egentlige vejledninger eller læremidler, der kan hjælpe lærerne med at arbejde fagligt på baggrund af nationale test

Man kan dog godt nogenlunde regne med, at elever, der havner i den allernederste kategori efter al sandsynlighed vil have store vanskeligheder med at følge med i undervisningen. Men yderligere information skal indhentes fra egentlige diagnostiske test, understreger Styrelsen for It og Læring.

"Det er ikke klart, hvad nationale test måler fagligt set, testen måler med så stor usikkerhed, at elevens dygtighed kan befinde sig i tre eller flere af de seks niveauer, testen er af samme grund ikke i stand til at vise progression, læreren får ikke viden om hvad elever på de forskellige niveauer er i stand til og har af udfordringer, og læreren får ikke hjælp fra vejledninger eller læremidler til at planlægge undervisning der tager udgangspunkt i den viden der produceres i nationale test", konstaterer Jeppe Bundsgaard i sin artikel og kigger også på, hvordan Undervisningsministeriet så forholder sig til dette.

Upræcise målinger handler ikke om 'testadfærd'

Og ministeriet henviser i høj grad lærerne til at kigge på det, der kaldes 'elevernes testadfærd'. Lærere, der oplever, at en elev klarer sig anderledes end forventet kan gå ind og undersøge elevens testforløb.

Har eleven pludselig brugt væsentligt mindre tid på opgaverne, svarer hun pludselig forkert på lette opgaver osv. Men set fra et statistisk perspektiv er elevernes testadfærd dog ikke en primær medvirkende årsag til testens usikkerhed, og lærerne vil derfor ikke få ret meget ud af det, mener Jeppe Bundsgaard:

"Resultatet er ikke upræcist, det er upålideligt - der er faktisk en stor forskel dér, for for de andre elever er resultatet rigtigt, bare inden for et interval. For denne elev kan resultatet principielt være i den modsatte ende af dygtigheden", forklarer han til folkeskolen.dk.

"Men systemet kunne bare give læreren fit-tallet (tallet for, hvor godt passer besvarelsen til forventningerne) eller en fortolkning af dette: Denne elev har svaret så uforudsigeligt, så vi ikke kan have tillid til resultatet. Denne elev har svaret så vi skal være forsigtige med at stole på resultatet. Denne elev har svaret som forventet. Usikkerheden på elevens resultat er X", foreslår Jeppe Bundsgaard.