Test-evaluering giver ingen svar på, om testene duer

Om kort tid bliver evalueringen af folkeskolens nationale test offentliggjort. Men evalueringen kommer ikke til at give svar på, om testene holder rent videnskabeligt.

Publiceret

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Evalueringsfirmaet Rambøll har hyret professor i pædagogisk statistik Peter Allerup til den del af evalueringen, der handler om selve det adaptive princip, som er kernen i testenes funktion. For at kunne vurdere, om de adaptive test giver en sikker bedømmelse af elevernes kundskaber har Peter Allerup derfor bedt om udtræk fra databasen - men den del af tilbuddet har Kvalitets- og Tilsynsstyrelsen takket nej til.

I den nye folkeskolereform skal folkeskolen målstyres efter elevernes resultater i de nationale test. Blandt andet skal mindst 80 procent af eleverne skal være gode til at læse og regne i de nationale test, og andelen af de allerdygtigste elever i dansk og matematik skal stige år for år. Testene skal have en ny såkaldt "kriteriebaseret" skala, som er inspireret af den internationale Pisa-undersøgelse, som i ti år har været med til at definere skolepolitikken i mange lande.

Men spørgsmålet er, om man overhovedet kan regne med, at de it-baserede adaptive test, som er enestående i verden, giver en korrekt måling af elevernes niveau. Danmarks anden ekspert i pædagogik statistik, professor Svend Kreiner, fik for nylig optaget en artikel i et internationalt anerkendt tidsskrift, som viser, at Pisa-testene ret beset er ubrugelige til at sammenligne lande. Og blandt andet på folkeskolen.dk har der været rejst tilsvarende mistanker mod de nationale test for ikke at være psykometrisk valide. Men testopgaver og data er fortrolige, og nu kommer der altså heller ikke en forskningsmæssig vurdering.

Statistik-guru: Pisa holder ikke

"Det er ærgerligt", mener professor Peter Allerup. "Så vil de fortsat være åben for al mulig kritik, som man ikke vil kunne belyse med baggrund i sådan en evaluering, som jeg kunne have lavet".

Peter Allerup var med til at gennemføre et review af de nationale test i 2007, da nogle få test var gennemført for første gang. Han var generelt positiv over for princippet bag testene, men havde også en hel række kritikpunkter. Peter Allerup havde derfor set frem til dels at få sikkerhed for, at kritikpunkterne er rettet op, dels at se om testenes validitet stadig holder, nu hvor testene har været gennemført i fuldt omfang gennem flere år.  I Rambølls tilbud på evalueringsopgaven beder han derfor om 18 forskellige dataudtræk for at kunne se, om testene faktisk giver en korrekt bedømmelse af, hvad eleverne kan. Men han har ikke modtaget et eneste udtræk.

Kritiker oprørt over nej til forsker-kig i testene

Deskresearch i stedet

"Så jeg har måttet lave litteraturstudier - deskresearch - i stedet for benytte den side af min hjerne/mine hænder, der handler om empiriske data", fortæller Peter Allerup.

Det er en misforståelse, at evalueringen skulle belyse teknikken i testene, siger Kvalitets- og Tilsynsstyrelsen.

"Vi har fulgt kravspecifikationen fra udbuddet, hvor der står, at vi gerne vil have en beskrivelse af fordele og ulemper ved det adaptive princip", forklarer kontorchef i styrelsen Tine Bak. "Og det havde Peter Allerup så misforstået - han troede, det var en analyse, hvor man skulle ind at kigge den statistiske virkemåde. Men det er jo slet ikke det, der er perspektivet for evalueringen".

Tine Bak forklarer, at evalueringen af de nationale test har til formål at give Folketinget en tilbagemelding på effekten af lovgivningen om de nationale test, så det er anvendelsen af testresultaterne i skolen, der er i fokus i den evaluering, ministeriet har bestilt hos Rambøll.

Antorini vil have svar: Har de nationale test løftet fagligheden?

"Denne her evaluering skal danne grundlag for den redegørelse, som ministeren skal lave til Folketinget, så der har vi har fulgt det, der står i lovbemærkningerne. Der er jo rigtig mange ting, man kunne undersøge med testene, men det vil bare kræve rigtig meget tid og rigtig mange penge".

Måske i næste hug

I stedet for at analysere data fra de fire år, testene nu har været gennemført i fuldt omfang er Peter Allerups del af evalueringen blevet en analyse af eksisterende forskning i adaptive test (som er test, hvor opgaverne løbende tilpasser sig elevens niveau, red.).

Men det er vel begrænset, hvad der findes af forskning, når der ikke er andre steder i verden, hvor man har adaptive it-baserede nationale test?

"Ja, men det er heller ikke et spørgsmål om at evaluere den måde, vores test er lavet på - det er mere en generel vurdering af fordele og ulemper ved adaptive test sammenlignet med lineære test (hvor alle elever går igennem de samme opgaver, red.), fordi det er en vigtig pointe i forhold til at vurdere, om de fungerer som pædagogisk værktøj for lærerne og også i forhold til alle de resurser, der er forbundet med adaptive test", forklarer Tine Bak og understreger, at det adaptive princip bruges andre steder i verden.

Men en analyse af, om testene holder statistisk er altså slet ikke på tapetet for de nationale test?

"Nej, ikke i denne omgang. Men det er jo muligt, at evalueringen viser, at der er behov for noget mere, og det vil man jo så kunne tage i næste hug, men vi har været nødt til at være meget fokuseret på at leve op til det, der står i lovbemærkningerne. Altså har de haft den ønskede effekt i forhold til forbedring af det faglige niveau og styrkelse af evalueringskulturen".

Professor Peter Allerup håber nu, at han og andre forskere kan få adgang til data fra testdatabasen til forskningsprojekter, de selv tager initiativ til. 

Powered by Labrador CMS