Nationale test: Da 'ikke statistisk signifikant' blev til 'markant' fremgang

"Forskningsprojekt: Nationale test øger elevernes faglighed markant i flere år frem", lød nyheden for nogle uger siden i Berlingske Tidende. Betyder det, at der alligevel ikke er noget galt med testene? Læs interviewet med forskeren bag.

Karen Ravn

Offentliggjort 04.11.2019 - 07:00 Sidst opdateret 26.09.2022 - 12:22

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Den forskningsartikel, Berlingske har kigget på, handler slet ikke om, hvorvidt testene måler præcist. Den er en opfølgning på den evaluering, som i 2013 skulle give daværende undervisningsminister Christine Antorini svar på, om de nationale test havde højnet elevernes faglighed.

Forsigtige konklusioner på 3 mio. kroners evaluering af de nationale test

Dengang stod evalueringsgruppen desperat og manglede en kontrolgruppe. For hvordan undersøger man effekten af noget, hele populationen har været udsat for?

Men 'heldigvis' brød hele testsystemet sammen under den første store obligatoriske testrunde i 2010, og ikke alle klasser, der var ramt af nedbruddet, fik booket en ny testtid. Her havde man altså en kontrolgruppe, der ikke tog testene i 2010, men først tog dem i 2012.

Den nye forskning baserer sig på data fra det samme testnedbrud, som indgik i den allerførste evaluering af testene. I matematik er den målte effekt af testene ikke statistisk signifikant, siger en af forskerne bag. I dansk er der derimod signifikant effekt på landsplan.

Størst effekt i afkodning

Først lidt baggrund: I 2012 fik firmaet Rambøll professorerne Simon Calmar Andersen og Helena Skyt Nielsen til at beregne på data, og de nåede frem til, at de elever, der tog testen i læsning i 2010, klarede læsetesten i 2012 bedre end dem, der ikke gjorde.

Altså: De elever, der var med til den allerførste nationale testrunde i 2010, klarede den nationale test i det samme fag, læsning, to år senere, bedre end dem, der på grund af servernedbruddet ikke havde været med i 2012.

Dermed kunne Rambøll konkludere, at testene havde haft en effekt på elevernes læsekompetencer. Effekten var dog absolut tydeligst i profilområdet afkodning, som handler om at kunne se, at bogstaver danner ord.

Men på tværs af klassetrin og hele landet var forskellen også statistisk signifikant i de to andre profilområder i dansk: Tekstforståelse og sprogforståelse

Ikke-signifikant i matematik

Når det drejer sig om matematik, tog Rambøll forbehold for, at de pågældende elever endnu ikke var blevet testet i matematik og lovede at vende tilbage med en ny måling. Året efter kom så et tillæg til den oprindelige evaluering.

Også her var der tendens til, at de elever, der havde taget matematiktesten i 2010, klarede sig en smule bedre ved næste matematiktest end dem, der ikke havde. Men forskellen var ikke statistisk signifikant.

Ingen signifikant effekt af national test i matematik

Det er præcis de data, som professor Simon Calmar Andersen og professor Helena Skyt Nielsen fra Trygfondens Børneforskningscenter på Aarhus Universitet er vendt tilbage til i en ny forskningsartikel.

Den danner baggrund for Berlingskes artikel i 2019, netop som børne- og undervisningsministeren har meddelt, at testene skal skiftes ud.

Forsker: Markant afhænger af sammenhængen

Simon Calmar Andersen vil gerne have nogle test, som fagligt set måler bedre, men han fastholder, at resultaterne af sammenligningen mellem testede og ikke-testede holder stik.

For når man måler begge grupper med samme værktøj, vil man godt kunne måle, om der er forskel, forklarer han i dette interview med Folkeskolen.

Hvad tænker du om Berlingske-overskriften 'Forskningsprojekt: Nationale test øger elevernes faglighed markant i flere år frem'?

"Den har været genstand for en del fortolkning", siger Simon Calmar Andersen.

"Med hensyn til ordet 'markant' kan man sige, at det afhænger af, hvad man sammenligner med. Hvis man sammenligner med, hvor meget børn ellers flytter sig i løbet af to år, er det måske ikke så meget".

"Men hvis man sammenligner med effekter af andre indsatser, vi har undersøgt - som effekten af en ekstra lærer i klassen eller mindre klasser eller flere undervisningstimer - så er det i samme boldgade som en ekstra lærer i klasseværelset eller væsentligt færre elever i klassen. Og i det lys er det en pæn effekt".

I evalueringen af testene i 2013, var der kun statistisk signifikant effekt på sprogforståelse og tekstforståelse, når man lagde klassetrinnene sammen, og den samlede konklusion tog forbehold for, at man ikke havde data for matematik.

I 2014 fulgte man så op med matematik og måtte konstatere, at her var der ikke nogen statistisk signifikant effekt. Hvad har forandret sig siden dengang, som kan få jer til at konkludere så klart nu på de samme data?

"Det er heller ikke os, der siger 'markant'. Men vi har generelt opdateret analyserne, og vi har signifikante effekter på alle tre profilområder i dansk".

Og hvad med matematik?

"Der har vi ikke signifikant effekt".

Forhåndskendskab til test kan spille ind

Det er jo - af gode grunde - teståret 2010, I har måttet tage udgangspunkt i til jeres analyse. Jeg fulgte testene tæt dengang, og jeg oplevede, at både elever og lærere var rystede og forvirrede over, hvordan testene var.

De var så markant anderledes end noget, man hidtil havde prøvet i skolen, fordi de jo er bygget sådan, at alle - også de dygtigste - skal svare forkert på cirka hvert andet spørgsmål.

I årene efter blev lærerne kritiseret for ikke at instruere eleverne godt nok i, hvordan de skulle agere i testsituationen, der kom en masse ekstra instruktionsmateriale ud osv., og i dag har både lærere og elever et helt andet kendskab til, hvordan de nationale test fungerer, end de havde dengang.

For mig er det derfor ikke overraskende, at forskellen på at have prøvet en national test i læsning før og ikke at have prøvet en national test i læsning før, har betydning for, hvordan man klarer den pågældende test. Hvad siger du til det?

"Det, vi kan se ud af tallene, er selvfølgelig kun effekten af, om man har taget testen eller ikke taget den. Men hvad der er mekanismerne i det, kan vi ikke se. Om det er kendskabet til testen eller det er det resultat, som læreren og forældrene har fået tilbage og kunnet bruge til at tilpasse undervisningen til eleverne eller en blanding af begge dele. Det bliver under alle omstændigheder en fortolkning".

"Men fordi vi nu har fået data for de samme elever fire år senere, hvor det ser ud til, at der stadig er en effekt, tyder det på, at kendskab til testen ikke er hele forklaringen. Men igen - det er en fortolkning".

Calmar: Man kan godt bygge forskning på nationale test

I deres rapport fra foråret påpegede Jeppe Bundsgaard og Svend Kreiner, at de sværhedsgrader, der ligger i de nationale test, ikke længere passer.

I et adaptivt system betyder det jo ikke bare, at eleverne klarer testene bedre end tidligere - det betyder, at hele regnemaskinen regner med forkerte tal.

Er det ikke uheldigt, hvis jeres undersøgelse på mange år gamle data giver offentligheden en opfattelse af, at de nationale test i deres nuværende form er gavnlige og bør bevares?

"Det er jo to forskellige ting, vi undersøger. Men det er klart, at hvis man misforstår det, så er det uheldigt. Ligesom hvis Bundsgaards og Kreiners resultater får nogle til at tro, at man ikke kan stole på forskningsresultater, der baserer sig på nationale test".

Nationale test: Vi må ikke drage forhastede konklusioner efter en enkelt undersøgelse

Og det mener du godt, man kan - altså stole på forskningsresultater baseret på nationale test?

"Ja, de forskningsresultater jeg kender til, kan man godt stole på - jeg kan ikke se, at de skulle være påvirket af det, som deres analyser viser."

Vil I ikke hellere have nogle opdaterede og bedre test til brug i jeres forskning?

"Jo, helt sikkert. Hvis vi får nogle test, der måler mere præcist, vil vi også kunne få nogle mere præcise estimater på effekterne af de ting, vi undersøger, så det vil jo være meget attraktivt for os som forskere".

"Men vi tager højde for den usikkerhed, der er i resultaterne, ved at se de forskelle, der er mellem elever i de grupper, vi sammenligner. Her elever, der har taget testen, og elever, der ikke har taget testen".

"Hvis testen måler upræcist, vil der være en større spredning, som skyldes upræcished i målingen, og den tager vi så højde for i de signifikanstest, vi laver. Så vi siger, at det, at der er en lille forskel mellem de to grupper, er ikke nok. Vi skal også have en signifikanstest af, hvor stor sandsynligheden er for, at forskellen skyldes tilfældigheder, bl.a. tilfældigheder i målingen. Så de usikkerheder, der er i data, dem tager vi på den måde højde for".

Større usikkerhed påvirker ikke sammenligning af grupper

Men hvis testene bliver mere og mere usikre, fordi der sker en glidning af de sværhedsgrader, der er lagt ind i systemet, så de ikke gælder længere, så bliver testene jo dårligere og dårligere for hvert år, der går. Er det ikke nødvendigt at rette op på det?

"Det har ikke noget med vores studie her at gøre. Og det er vigtigt for mig at sige, at det her og andre studier ikke er ramt af den problematik. For eksempel er der ikke noget i Kreiners og Bundsgaards rapport, der peger på, at de elever, der var udtrukket tilfældigt til at have en tolærerordning, blev målt mere skævt end dem, der ikke havde en tolærerordning", fremhæver Simon Calmar med henvisning til en af de undersøgelser, han tidligere har lavet med brug af de nationale test til effektmåling.

Han understreger, at hans studier netop er baseret på sammenligninger mellem grupper - og så længe begge grupper bliver udsat for det samme, vil en sammenligning give mening.

"Det er vigtigt for mig, fordi - apropos det at man kan misforstå - de jo skrevet en formulering i stil med, at alle beslutninger, der er taget på basis af de nationale test, herunder al forskning, må tages om".

Læs også

Læs mere

Berlingske

"Og det kunne jo godt give det indtryk, at vores forskningsresultater ville se anderledes ud, hvis lavede dem igen. Den anden side af sagen er så: Kunne vi ønske os, at testene blev bedre og mere præcise? Ja, helt klart. Og jo mere upræcise, de er, jo større gevinst vil der være ved at få nogle, der er mere præcise".