Det brede lyseblå felt på hver side af stregen er den statistiske sikkerhedsmargen. På næste billede ses en tidligere version af grafen med den mindre statistiske usikkerhed, man troede var gældende. Bemærk, at skalaen er forskellig på de to grafer.

Kilde: Uni-C: Notat om den adaptive algoritme i de nationale test

Ups – de nationale test måler ikke så præcist som lovet

Undervisningsministeriet erkender nu, at en fejl i systemet bag de nationale test betyder, at den statistiske usikkerhed i bedømmelsen af hver enkelt elevs dygtighed er godt 80 procent større, end det var tænkt og præsenteret.

Karen Ravn

Offentliggjort 27.01.2014 - 10:00

Den statistiske usikkerhed, som den tidligere blev præsenteret. Den lille pil for neden markerer, hvornår eleven resultater bedømmes med en mindre usikkerhed end 0,3. Reelt var den 0,5.

FAKTA - NATIONALE TEST

Der er nationale test i de danske folkeskoler lige nu -testperioden ligger i 2014 fra 20. januar til 30. april

•Alle elever skal tage 10 nationale test i løbet af deresskoletid. Læetest i 2., 4., 6. og 8. klasse, matematik i 3. og 6.,engelsk i 7. og geografi, biologi og fysik/kemi i 8. klasse.Testene varer 45 minutter ved en computer, og testene tilpasser sigundervejs den enkelte elev, så man får sværere opgaver, når mansvarer rigtigt, og lettere opgaver, når man svarer forkert.
•Testene blev efter nogle turbulente år med forsinkelser ogtekniske sammenbrud obligatoriske fra foråret 2010.
•De konkrete opgaver må ikke diskuteres offentligt, da deligesom elevernes testresultater er omfattet aftavshedspligt.

forligskredsen

På onsdag den 29. januar skalforligskredsen bag folkeskoleloven diskutere de nationale test.Undervisningsminister Christine Antorini afleverede før jul enredegørelse til Folketinget om testene inklusive Rambøllsevaluering fra oktober.Her erkendte hun også, at den statistiskeusikkerhed på elevniveau var større end antaget. Først i dag harministeriet imidlertid løftet sløret for, hvor meget størreusikkerheden er.

test og reform

I fredags udløb høringsfristen for tredje del affolkeskolereformen - den del, der tildeler de nationale test enafgørende rolle for styringen af fremtidens folkeskole med tremål:

• Mindst 80 procent af eleverne skal være gode til at læse ogregne i de nationale test.

• Andelen af de allerdygtigste elever i dansk og matematik skalstige år for år.

• Andelen af elever med dårlige resultater i de nationale testfor læsning og matematik uanset social baggrund skal reduceres årfor år.

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Systemet skulle sikre, at eleverne i løbet af testen hele tiden fik nye opgaver, indtil den statistiske usikkerhed var nede på 0,3, hvorefter systemet havde beregnet elevens score. Men reelt stopper systemet testningen, når usikkerheden er 0,55, har Uni-C opdaget.

"Jeg har også undret mig over de 0,3", siger professor i pædagogisk statistik Peter Allerup. "Jeg har lavet et simuleringskompleks, og jeg kunne ikke se, hvordan man skulle kunne nå helt ned på 0,3 på 45 minutter".

Der er som bekendt afsat 45 minutter til hver elevtest, hvor eleven skal have en statistisk valid bedømmelse inden for tre forskellige profilområder i et givet fag. Undervejs skruer systemet op og ned for sværhedsgraden i opgaverne for at komme så tæt som muligt på elevens dygtighed. Når den fastlagte grænse for den statistiske sikkerhed er nået for alle tre profilområder, bliver testen "grøn", og eleven kan rejse sig. Problemet er bare - har Uni-C's statistikere opdaget, efter at de har overtaget driften af systemet efter Cowi - at systemet ved en fejl er sat til at blive "grøn" ved en usikkerhed på 0,55 i stedet for 0,3. Som det fremgår af grafen ovenfor, bliver den statistiske usikkerhed gradvist mindre, jo flere opgaver eleven besvarer, og forbedringen af sikkerheden bliver stadig langsommere.

Startproblemer med nationale test ikke løst endnu

Læs også

Er en statistisk usikkerhed på SEM 0,55 i orden, rent fagligt?

"Jeg tror for så vidt, at 0,5 er okay", vurderer Peter Allerup.

Den bedømmelse, der sker, mens eleverne sidder ved computeren, er en bedømmelse af elevens dygtighed på basis af, hvordan han eller hun har besvaret opgaver inden for bestemte sværhedsgradintervaller. Det er bedømmelsen af dygtigheden, der har vist sig en del mere usikker end lovet. Scoren herfra omsættes dernæst til en percentilskala, efter hvor mange elever i en referencegruppe, der har opnået den samme score.

De nederste 10 procent kommer i kategorien "klart under middel", de næste 25 procent "under middel", de midterste 30 procent "omkring middel". De næstøverste 25 procent hedder "over middel" og de øverste 10 procent "klart over middel". At den statistiske usikkerhed er meget større end antaget, øger risikoen for, at en elev placeres i en forkert kategori. Fordi grupperne af de dygtigste og de svageste elever er mindre end den store midtergruppe, er risikoen for en forkert placering også større for de dygtigste og de svageste elever end for den store midtergruppe.

Peter Allerup påpeger, at der gennem hele perioden med nationale test har været for få svære opgaver i opgavebanken, og det betyder, at den statistiske usikkerhed er særligt stor for de dygtigste elever, som risikerer at tømme opgavebanken.

På torsdag tager han og andre eksperter til Odense for at undervise ministeriets opgavekommissioner i at skrive opgaver til de nationale test, og her vil man blandt andet arbejde på at få produceret flere svære opgaver, der kan udfordre de dygtigste elever. Hvis den adaptive algoritme skal fungere som planlagt, skal alle elever nemlig i princippet svare forkert på 50 procent af de opgaver, de får - også de allerdygtigste elever. Hvis de svarer rigtigt på næsten alle opgaver, kan systemet ikke give en sikker bedømmelse af deres dygtighed.

DLF: Drop ny lov om resultatstyring