Debat

Hvornår leverer de nationale test en reliabel måling? Og hvornår er den retvisende for elevens dygtighed.

Vi har kunnet læse, at de nationale test ikke er så præcise (reliable) som først antaget. Men hvad er reliabilitet? Hvad betyder det for lærerens tillid til resultaterne? Kan læreren gøre noget selv for at forhøje reliabiliteten? Og er realibilitet en garanti for at resultatet er retvisende?

Jakob Wandall

Publiceret søndag 09. februar 2014 - 09:45 Senest opdateret søndag 09. februar 2014 - 09:45

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Problemerne med en hver form for evaluering af elevernes faglige niveau eller udbytte er at der ikke eksisterer nogen teoretisk korrekt måde at måle det på. Testen er en metode til at få systematiseret den information der ligger i de svar som eleven giver, men elever er ikke konsistente – nogle gange svarer de dygtige elever forkert på nemme opgaver og omvendt. Derfor er man nødt til at anvende statistik og dermed introduceres besværlige begreber, som fx standardfejl og realibilitet.

Både reliabilitet (og SEM - Standard Error of Measurement) er parametre man kan beregne for en elevs testforløb – det er ikke egenskaber ved testen. Og den statistiske reliabilitet siger ikke nødvendigvis noget om hvorvidt testens resultat er retvisende for elevens dygtighed – men alene noget om den statistiske sikkerhed, givet testen måler det rigtige og at eleverne har svaret op til deres bedste.

Sammenhængen mellem SEM og reliabilitet

Vær med i samtalen

Klik her for at indsende dit indlæg til folkeskolen.dk - medsend gerne et portrætfoto, som kan bringes sammen med indlægget

Standardfejlen på elevens test (Standard Error of Measurement - SEM) er et udtryk for testens statistiske pålidelighed. Der er en monoton negativ sammenhæng mellem SEM og Reliabiliteten. Forholdet mellem SEM og reliabiliteten i en raschmodel fremgår her:

SEM= kvadratrod (1-reliabilitet). Her er eksempler på sammenhængen:

Realibilitet på 0,70 svarer til en SEM på 0,55

Realibilitet på 0,80 svarer til en SEM på 0,45

Realibilitet på 0,85 svarer til en SEM på 0,39

Realibilitet på 0,90 svarer til en SEM på 0,32

Hvad minimumskravene skal være til en tests reliabilitet er der mange, der har synspunkter på. En hurtig søgning på nettet gav følgende:• Consensus Conference Follow-up: Inter-rater Reliability Assessment - http://www.cehd.umn.edu/NCEO/onlinepubs/OOLT2.html - siger, at ”The minimum acceptable reliability score is generally considered 0.7, although no fixed standard exists, and clinical scales are generally considered to have acceptable reliability in the range of 0.7 to 0.9. We chose 0.7 as our minimally acceptable reliability”• Andre er mere restriktive, fx http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3240997/ hvor der siges “Measurement precision for an achievement test is usually considered acceptable when the reliability index exceeds 0.85”.

Der er 2 forhold der påvirker den statistiske pålidelighed – SEM/reliabiliteten - af målingen:• Hvor godt opgavernes sværhed passer til elevens dygtighed (jo bedre ”targetting” des større reliabilitet)• Hvor mange spørgsmål eleven har besvaret (jo flere items des større reliabilitet)

Kravene til realibiliteten i kontrakten mellem COWI og Undervisningsministeriet var (pragmatisk) formuleret sådan, at tjenesteyder skulle gøre det så godt, som det kunne lade sig gøre når man samtidigt skulle måle tre dimensioner (profilområder) indenfor rammerne af én lektion.

Det blev formuleret som, at der skulle findes et niveau for hver test, hvor testen på et profilområde så vidt muligt skulle fortsætte, indtil SEM var reduceret så meget som 90% af eleverne kunne nå på 45 minutter (de sidste 10% af eleverne kunne afbrydes i Gult eller blive forlænget – hvor det sidste blev anbefalet). Grænsen kunne altså variere fra test til test, men indenfor den enkelte test skulle den være den samme for profilområderne. Dette niveau for SEM skulle tjenesteyder løbende vurdere og om nødvendigt regulere. Nås niveauet for SEM på et profilområde, uden at det er nået på begge de 2 andre profilområder, udtrækkes kun opgaver fra det/de profilområde(r) hvor SEM endnu lå for højt. Når SEM-niveauet blev nået for alle profilområder blev der igen udtrukket items fra alle profilområderne – det er altid læreren der bestemmer når en test er slut.

Tjenesteyder (COWI) foreslog selv, at dette komplicerede krav blev konverteret til et mere enkelt mål for hvornår monitoren markerede at testen var reliabel: Simpelthen at reducere SEM til 0,3 for alle profilområder i alle test.

Normalvis kræves godt 40 items for at nå ned på en SEM på 0,3. Derfor gav det også anledning til undren i Skolestyrelsen, at man kunne nå dette niveau med fx 15 opgaver pr. profilområde, især når det fremgik væsentligt mindre reduktioner i det oprindelige tilbuds regneeksempler baseret på de lineære naturfaglige afgangprøver. Adspurgt herom svarede COWI’s testeksperter fra Aventure, at denne høje effektivitet var en kombination to faktorer: Dels betød den adaptive mekanisme noget, men især spillede det ind at der i designfasen var introduceret en anden udgave af Raschmodellen (Partial Credit Modellen) hvor der ikke blot indgik dikotome men også polytome opgaver (hvor der er flere spørgsmål pr. opgave). Disse opgaver giver et langt større forklaringsbidrag end de dikotome – jeg har set eksempler på test med så få som 5 opgaver (der hver indeholdt mange underspørgsmål) bragte SEM ned omkring de 0,3.

Det lød som en plausibel forklaring – men jeg må nu forstå, at det snarere beroede på en regnefejl. Jeg skrev i en artikel som blev optaget i Journal of Applied Testing Technology at reliablitetskriteriet (SEM<0,3) sædvanligvis blev nået med 15 opgaver. Jeg skal være den første til at beklage, at jeg har videregivet urigtige oplysninger i denne artikel, der i øvrigt har været underlagt et review af amerikanske testeksperter.

Det er noget rigtigt skidt at informationerne ikke har været korrekte. Men det er vigtigt at holde tungen lige i munden – det vi lige skal huske på, at det faktisk ikke er selve testen den er gal med. Problemet ligger i, at monitoreringssystemet til læreren er for optimistisk mht. realibiliteten.

Konsekvensen af det offentliggjorte bør være, at lærerne under alle omstændigheder rådes til, at lade eleverne besvare flest mulige opgaver, for at få et så pålideligt resultat som muligt – dog er det meget vigtigt, at læreren holder øje med om eleverne bliver trætte i hovedet, så de kan blive stoppet før de ”forurener” deres testforløb med ukoncentrerede besvarelser.

Til brug for lærerinstruktionen til de testforløb (frivillige test, efterår 2012) som lå til grund for de ækvivaleringer der danner grundlag for Beregneren (se http://www.folkeskolen.dk/538868/nyt-redskab-koebenhavns-laerere-kan-foelge-elevernes-udvikling-i-de-nationale-test) blev der lavet en lærervejledning. Denne vejledning, som kan være til nytte for alle lærere, som ønske at få nogenlunde sikre resultater ud af testene, kan findes her http://nordicmetrics.com/Udvikling%20af%20Beregner_Testvejledning%20til%20skoler.pdf. Følges denne vejledning skulle man nå en reliabilitet på mindste 0,8 (dvs. SEM<0,45) – jo flere opgaver og større andel polytome opgaver des større reliabilitet.

Men reliabiliteten siger kun noget om den statistiske risiko for at den beregnede elevdygtighed afviger fra den faktiske. Forudsætningen for at testresultatet passer med elevens dygtighed afhænger først og fremmest af om eleven har forstået opgaven og om elevens stringens/dagsform har været i top (jo bedre lærerinstruktion og jo mere eleven svarer i overensstemmelse med sin dygtighed, des mere retvisende bliver resultatet).

Danske elever besvarer i rigtigt mange tilfælde ikke opgaverne nær så godt som de faktisk kunne hvis de gjorde sig umage. Dette skal ikke forstås som en kritik af eleverne – snarer tværtimod. Danske eleverforholder sig kritisk til det de møder, og hvis de ikke ser meningen med at gøre sig umage, så sker det ikke altid. Eleverne vil gennemgående rigtigt gerne arbejde med tingene hvis de kan se et formål med det. Det er værdier, som de er vokset op med hjemmefra og som præger unge selvstændigt tænkende mennesker i de mest avancerede velfærdssamfund, som det danske (jf. fx http://nck.au.dk/fileadmin/nck/Publikationer/NERA_2013_Soeren_Ehlers_og_Jakob_Wandall_2.pdf). Når Niels Egelund med beklagelse påstår at Danske elever ikke tager PISA-opgaverne med nær samme alvor som fx kinesere, så tror jeg at han har helt ret. Dermed siger han faktisk, at danske elever læser betydeligt bedre end PISA viser. Dette er først og fremmest et problem for dem der skal tolke på og anvende PISA-data med denne indbyggede bias.

På samme måde vil elevers svigtende koncentration eller manglende fokus på at vise hvad man kan, blive et problem for læreren i de nationale test, lige meget hvor mange opgaver, der er besvaret og ligegyldigt hvor langt ned man får nedbragt SEM/forøget den statistiske reliabilitet. Men til forskel fra PISA er der i DNT faktisk noget læreren selv kan gøre.

Læreren kan med fordel forsøge at forebygge dette ved at motivere eleverne til at gøre deres bedste. Men for at få det fulde udbytte af testene skal læreren kunne vurdere om testforløbet afspejler elevens faktiske formåen og han/hun bør tjekke forløbet hvis resultaterne ser overraskende eller besynderlige ud. Som appendiks til vejledningen til Beregneren er beskrevet et eksempel til inspiration: http://www.mitbuf.dk/sites/default/files/Appendiks_2_Vejledning_til_Beregneren-Progression_i_DNT_V3-4.pdf

Jeg har været rundt og tale om test og progression rigtigt mange steder. Jeg ser en stigende forståelse af hvad man kan brug test til og hvad de ikke kan anvendes til. Men der er stadig gode muligheder for videre udvikling. At udnytte informationerne som i de nationale test fuldt ud i en pædagogisk kontekst er ikke noget man lige finder ud af fra dag til anden – hverken fra systemets eller skolernes side. Det beror for mig at se primært på 1) videreudvikling af testsystemet og udviklingen af metoder til anvendelsesorienteret formidling af resultater herfra 2) om lærerne kan omsætte testresultater til viden om eleven og videre til pædagogisk praksis.