Nationale test

Norske elevers dyk blev overset i flere år på grund af forældet statistikprogram

Nationale prøver i Norge har i årevis vist et stabilt fagligt niveau, men nu har det norske undervisningsministerium erkendt, at statistikprogrammet bag resultaterne har været fejlbehæftet.

Publiceret

Mens elevernes præstationer i de nationale test i både Danmark og Norge stort ikke har forandret sig over årene, viste Pisa-undersøgelsen for nylig et helt andet billede. Danske unges matematikpræstationer har aldrig været ringere, og i læsning var der også tilbagegang. Og i Norge var billedet endnu værre. 

Nu viser det sig, at nordmændene allerede for længst kunne have kendt til det faldende faglige niveau i skolen, hvis landets undervisningsministerium ikke havde benyttet sig af et temmelig gammelt og temmelig billigt amerikansk it-system, som ingen har udviklet på siden 2011. 

Den årlige statistik over resultaterne af de 'nasjonale prøver' i norsk grundskole har skjult den reelle udvikling i elevernes præstationer. Blandt andet at andelen af 8.-klasseelever (som svarer til dansk 7. klasse, redaktionen) på de laveste niveauer i matematik er øget med 40 procent på seks år. 

For et år siden opdagede forskere fra Frischsenteret i Oslo, at deres opgørelse af udviklingen i de norske nationale test fra 2014 til 2021 ikke stemte overens med Utdanningsdirektoratets. 

Direktoratet under ministeriet henviste til, at de bruger det amerikanske firma Assessment Systems program XCalibre til at beregne udviklingen over tid. 

Billigt program

Men det amerikanske firmas direktør Nathan Thompson kunne heller ikke hjælpe. "The guy (...) left in 2011", forklarer han i en mail til forskerne, skriver Aftenposten.  

Den eneste medarbejder, der kunne udvikle på XCalibre-programmet, forlod firmaet for 13 år siden, et par år før Utdanningsdirektoratet indkøbte programmet. Den amerikanske direktør bekræftede dog forskernes mistanke om, at den officielle statistik over testresultaterne er fejlbehæftet og forklarede også, at der er tale om et meget billigt program. 

Nu erkender Utdanningsdirektoratet, at programmet har underestimeret udviklingen over tid, skriver Aftenposten. 

Direktoratet skiftede beregningsmetode i 2022 og er også i gang med en genberegning af testresultaterne fra perioden 2014 til 2021. Men forskerne fra Frischcentret har altså allerede regnet på resultaterne. De kan se, at niveauet har været for nedadgående i læsning og i matematik siden 2016, mens det er steget markant i engelsk. 

I en forskningsartikel forklarer de, hvad det er, der er gået galt: 

"Prøverne bliver rapporteret på en fælles skala ved hjælp af et design, hvor en tilfældig undergruppe af elever ("ankerelever") får dele af opgavesættet byttet ud med hemmeligholdte opgaver, som bruges over flere år ("ankeropgaver"). Vi påviser, at de tilfældigt udtrukne ankerelever i gennemsnit gør det lige så godt som deres medelever på de årsspecifikke opgaver, men systematisk anderledes end ankerelever fra andre år, når vi ser på sammenfaldende ankeropgaver". 

"Programmet, som Utdanningsdirektoratet har brugt (XCalibre) lægger til grund, at færdighederne hvert år afspejler en standardiseret færdighedsfordeling. Det er åbenlyst umuligt at afdække ændringer i færdigheder på tværs af årgange, hvis man på forhånd antager, at årgangene er helt lige".

Bruges ikke til danske nationale test

De norske nationale test bygger ligesom de danske på den såkaldte item response theory, oprindeligt udtænkt af danske Georg Rasch, hvor man bruger opgavernes sværhedsgrad til at beregne elevens faglige niveau. 

Det danske Børne- og Undervisningsministerium oplyser til Folkeskolen, at ministeriet ikke bruger XCalibre til sine resultatstatistikker, hverken for nationale test eller afgangsprøver.

I de danske test har opgaverne været udtrukket fra en stor opgavebank, der gik igen fra år til år, mens man i Norge har givet nye opgaver hvert år bortset fra de hemmelige "ankeropgaver". 

Planen er, at man også i Danmark skal have nye test hvert år fra 2026, efter at også de danske test har vist sig at være præget af en række problemer med målesikkerheden.