Debat

Mange skoler har aldrig lært at anvende de nationale test - derfor er det heller ikke rimeligt at forvente at, de kan det

De nationale test er et måleredskab. Ligesom alle andre måleredskaber giver de anledning til usikre eller endog fejlvisende konklusioner, hvis de bliver anvendt forkert og/eller resultaterne fejlfortolket. I debatten fører dette jævnligt til forslag, om at testene skal afskaffes og/eller erstattes med andre og mindre egnede redskaber. Men det at anvende testene professionelt er noget mange skoler og kommuner arbejder på at implementere. I modsætning til mange andre, der ytrer sig i debatten, har vi faktisk adgang til skolers testdata. Det er ikke svært at få, hvis man val at mærke har en legitim forsknings/statistik opgave, der skal løses fx for kommunerne. Dette indlæg er skrevet på opfodring fra flere forskellige sider, der har efterspurgt nuancering på grundlag af fakta.

Publiceret Senest opdateret

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Måling af menneskelige egenskaber opfattes ofte som kontroversielt. Dette gælder, når det handler om måling af læring med test og det samme gælder, når man fx måler temperatur på hospitalet, jf. http://www.dsr.dk/Sygeplejersken/Sider/SY-2004-23-24-1-Klinisk_sygepleje_2004.aspx hvor man kan læse følgende ”I daglig klinisk praksis er metoder til at måle temperatur et kontroversielt emne, præget af forskellige meninger og holdninger. Det kan øge risikoen for fejldiagnosticering og over- eller underbehandling.” 

Kunne man tænke sig dette som argument for at afskaffe temperaturmåling og termometre i sundhedssektoren? Nej vel??

Ved enhver form for måling er der kilder til fejlkonklusioner – principielt kan de opdeles i tre typer:

Vær med i samtalen

Klik her for at indsende dit indlæg til folkeskolen.dk - medsend gerne et portrætfoto, som kan bringes sammen med indlægget

  1. Fejl i måleudstyret
  2. Fejl i anvendelsen
  3. Fortolkningsfejl af resultater

Ad 1. Fejl i testene. En åbenlys fejlkilde er, hvis måleredskabet er fejlbehæftet. Ved de nationale test er måleredskabet testopgaver. Disse er systematisk afprøvede efter videnskabelige kriteriers ”gold standard” – Raschmodellen. Eksperternes vurdering i folkeskolen.dk https://www.folkeskolen.dk/572813/eksperter-dumper-de-nationale-test er da også, at det næppe er opgaverne, den er gal med.

De to andre fejlkilder fremhæver Svend Kreiner:

Ad 2. Fejl i anvendelsen. Anvendelsen af måleredskabet kan i sig selv give usikre resultater. Når der testes 3 profilområder på 45 minutter, kommer der for få besvarelser i kassen til at der kan gives en meget sikker vurdering. Dette gælder især hvis eleverne besvarer opgaverne langsomt.

Ad 3. Fortolkningsfejl (fx på grund af skalaspørgsmål). Det kan bero på at percentilskalaerne har områder med meget stor følsomhed – især på midten af skalaen.

Forener man de to sidstnævnte fejlkilder, får man et væsentligt bidrag til en plausibel forklaring på fænomenet: Hvis halvdelen af eleverne er tæt på lige dygtige til at læse, er forskellen mellem elever på 30- og 70-percentilen begrænset, også selvom den er signifikant. Men hvis man samtidigt accepterer en relativt stor usikkerhed på testresultatet (og det gør man, hvis der er få besvarede opgaver), så kan en elev den ene dag godt score 30 og den næste dag 70, uden at der er noget galt med hverken testen eller elevens præstation.

Det gode spørgsmål er nu: Kan vi gøre noget ved de to fejlkilder, så vi ikke skal leve med en så stor usikkerhed?? Den gode nyhed er, at svaret er ja.

I begge tilfælde vil det kræve, at dem der anvender testene (især lærerne) arbejder proaktivt for at reducere risiko for målefejl og fejlfortolkning.

Bedre anvendelse kan føre til pålidelige resultater

Her kan uden ekstraarbejde og ressourceanvendelse direkte gøres noget meget effektivt: Der er skrevet en lærervejledning, som kan downloades her: http://nordicmetrics.com/wp-content/uploads/2014/05/Hvad_enhver_laerer_boer_vide_om_at_gennemfoere_DNT.pdf

Hovedpointen er, at eleverne på danske folkeskoler gennemgående besvarer relativt få opgaver og ofte bruger for lang tid på det. Ministeriet har udsendt vejledninger (bl.a. en pjece i 2010), der eksplicit har understreget, at testen bør tage hele lektionen, og at der skal svares grundigt, men ikke for langsomt. Alligevel har de fleste lærere fået den opfattelse, at de skulle stoppe testen når den ”går i grøn” (normalt efter 30 til 40 opgaver) og at testresultatet på det tidspunkt har en høj reliabilitet. Sådan er det ikke. Når testresultatet passerer fra gul til grøn, så går sikkerheden fra at være ikke acceptabel til at være lige akkurat acceptabel. Hvis målesikkerheden blev bedømt på 7-trinsskalaen, ville overgangen til grøn svare til overgangen fra karakteren 0 til 2. Når eleven fortsætter, stiger den statistiske sikkerhed.

 Brug af rette skala til formålet kan føre til korrekt fortolkning

Pecentilskalaerne er egnede, når man skal formidle testresultater som fagligt niveau, fordi der er en reference, som alle kan forholde sig til: Gennemsnitseleven. Derfor er percentilskalaer også egnede til at danne  kategorier på grundlag af (fx de nye kriteriescorer eller den gamle opdeling i forhold til middel). Men (bl.a. fordi forskellen mellem eleverne i den store midtergruppe rent læsfagligt er lille), er percentilskalaer ikke egnede til måling af progression og anden indbyrdes sammenligning af test-resultater. Her er det langt bedre at anvende en Raschskala – hvilket er det, vi gør med beregneren (se her artikel i Folkeskolen.dk http://www.folkeskolen.dk/538868/nyt-redskab-koebenhavns-laerere-kan-foelge-elevernes-udvikling-i-de-nationale-test).

Konsekvens for reliabilitet af fornuftig anvendelse og en egnet skala

Med en fornuftig instruktion af eleverne, vil de normalt kunne besvare 60-90 læseopgaver i de nationale test i løbet af en lektion. Og så bliver den statistiske sikkerhed mere rimelig. Besvarelse af 60 opgaver var minimumskravet til data (besvarelser fra godt 1.000 elever) ifm. udvikling af beregneren, hvor den samme elev indenfor én uge skulle tage to nationale test på forskelligt klassetrin (hvilket alt andet lige vil give lavere reliabilitet, end hvis det er den samme test) – her blev korrelationen målt til at være fra 76% til 83% for tekstforståelse (afhængigt af klassetrin), men noget mindre for sprogforståelse (mellem 62% og 71%, afhængigt af klassetrin).  I DNT drejer sprogforståelse sig om ordforråd og talemåder, og her kan en dygtig elev godt være uheldig og løbe ind i ord og talemåder, som han/hun tilfældigvis ikke kender den ene dag hvor det ikke er tilfældet den anden dag.

Kommentar til resultaterne fra Norddjurs

Med det forbehold at jeg ikke har se resultaterne og derfor kun kan forhold mig til det oplyste:

  • Min umiddelbare antagelse er, at testene er gennemført på en måde, som giver usikre resultater (Hvordan er eleverne instrueret? Hvordan har eleverne fået forklaret formålet med at gennemføre to identiske test? Hvad har læreren gjort for at få eleverne til at gøre deres bedste? Hvor mange opgaver er blevet besvaret? Hvor lang tid er blevet brugt?).
  • Profilområdet med den naturligt største usikkerhed (sprogforståelse) er blevet valgt til at præsentere de 3 elevers resultater på.

Og havde man valgt at sammenligne resultaterne på en Raschskalaen, ville man have nået til en betydeligt reduceret usikkerhed af rent matematiske årsager.

Konklusion

Der findes ikke andre test end DNT på det danske marked, der kan bruges til at måle progression fx i læsning på en videnskabelig skala. Dette konkluderer Rambøll, og DR kom til samme konklusion da de skulle lave udsendelsesrækken ”Folkeskolen Forfra”.

Med reference til sammenligningen med termometeret ovenfor – hvis man (som det foreslås fra forskellig side) dropper de nationale test, hvordan kan man så måle progression? Eller skal vi henvises til at stole på fornemmelser?

Alternativet kunne være at følge eksemplet fra de mange kommuner, hvor man arbejder på at lære, at bruge DNT på en fornuftig måde.

Powered by Labrador CMS