Ups – de nationale test måler ikke så præcist som lovet

Systemet skulle sikre, at eleverne i løbet af testen hele tiden fik nye opgaver, indtil den statistiske usikkerhed var nede på 0,3, hvorefter systemet havde beregnet elevens score. Men reelt stopper systemet testningen, når usikkerheden er 0,55, har Uni-C opdaget.

"Jeg har også undret mig over de 0,3", siger professor i pædagogisk statistik Peter Allerup. "Jeg har lavet et simuleringskompleks, og jeg kunne ikke se, hvordan man skulle kunne nå helt ned på 0,3 på 45 minutter".

Der er som bekendt afsat 45 minutter til hver elevtest, hvor eleven skal have en statistisk valid bedømmelse inden for tre forskellige profilområder i et givet fag. Undervejs skruer systemet op og ned for sværhedsgraden i opgaverne for at komme så tæt som muligt på elevens dygtighed. Når den fastlagte grænse for den statistiske sikkerhed er nået for alle tre profilområder, bliver testen "grøn", og eleven kan rejse sig. Problemet er bare - har Uni-C's statistikere opdaget, efter at de har overtaget driften af systemet efter Cowi - at systemet ved en fejl er sat til at blive "grøn" ved en usikkerhed på 0,55 i stedet for 0,3. Som det fremgår af grafen ovenfor, bliver den statistiske usikkerhed gradvist mindre, jo flere opgaver eleven besvarer, og forbedringen af sikkerheden bliver stadig langsommere.

Startproblemer med nationale test ikke løst endnu

Er en statistisk usikkerhed på SEM 0,55 i orden, rent fagligt?

"Jeg tror for så vidt, at 0,5 er okay", vurderer Peter Allerup.

Den bedømmelse, der sker, mens eleverne sidder ved computeren, er en bedømmelse af elevens dygtighed på basis af, hvordan han eller hun har besvaret opgaver inden for bestemte sværhedsgradintervaller. Det er bedømmelsen af dygtigheden, der har vist sig en del mere usikker end lovet. Scoren herfra omsættes dernæst til en percentilskala, efter hvor mange elever i en referencegruppe, der har opnået den samme score.

De nederste 10 procent kommer i kategorien "klart under middel", de næste 25 procent "under middel", de midterste 30 procent "omkring middel". De næstøverste 25 procent hedder "over middel" og de øverste 10 procent "klart over middel". At den statistiske usikkerhed er meget større end antaget, øger risikoen for, at en elev placeres i en forkert kategori. Fordi grupperne af de dygtigste og de svageste elever er mindre end den store midtergruppe, er risikoen for en forkert placering også større for de dygtigste og de svageste elever end for den store midtergruppe.

Peter Allerup påpeger, at der gennem hele perioden med nationale test har været for få svære opgaver i opgavebanken, og det betyder, at den statistiske usikkerhed er særligt stor for de dygtigste elever, som risikerer at tømme opgavebanken.

På torsdag tager han og andre eksperter til Odense for at undervise ministeriets opgavekommissioner i at skrive opgaver til de nationale test, og her vil man blandt andet arbejde på at få produceret flere svære opgaver, der kan udfordre de dygtigste elever. Hvis den adaptive algoritme skal fungere som planlagt, skal alle elever nemlig i princippet svare forkert på 50 procent af de opgaver, de får - også de allerdygtigste elever. Hvis de svarer rigtigt på næsten alle opgaver, kan systemet ikke give en sikker bedømmelse af deres dygtighed.

DLF: Drop ny lov om resultatstyring