Debat

Fra NERA: Problematisk karaktergivning? (og hvad med konsekvenserne?)

Konferencen NERA 2015 - Marketisation and Differentiation in Education - 4-6 March 2015 er blevet afviklet. Jeg var så heldig at deltage (som studerende i et forskningsprojekt på UCSJ, præsenteret ved Brian Degn Mårtensson og Mette Bruun), og vil lægge noter fra keynotes og Papers. God læselyst.

Publiceret Senest opdateret

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Problematik:

Først vil jeg komme med egne kommentarer i forhold til denne paper, da jeg mener den afdækker afgørende forskning i forhold til karaktergivning og dens konsekvenser her i Danmark:

  • Der vil fremtidigt kun være én (censor) som afgiver karakterer på skriftlige opgaver ved 9. kl. afgangseksamen.
  • Der er etableret adgangsbegrænsning for videre studier, ligesom karakterer har en afgørende betydning for hvilke uddannelser man kan blive optaget på, både efter folkeskolen men også senere.

Vær med i samtalen

Klik her for at indsende dit indlæg til folkeskolen.dk - medsend gerne et portrætfoto, som kan bringes sammen med indlægget

Som nedenstående paper afdækker, var der (afhængigt af vurderingskriterier/type) ned til 27% sandsynlighed for at en opgave gav samme karakter (LPf94 vurderingskriterier) ved en skriftlig opgave. Selv ved den mest præcise metode (Analytisk) var der kun 43% sandsynlighed for den samme karakter.

Dette betyder kort sagt, at tildeling af karakterer efter forskellige vurderingskriterier ikke er objektiv, men især afhænger af hvilken type lærer/censor, der afgiver karakteren. I projektet var der således et spænd på op til fire karakterer for den samme opgave (fra A til D).

Mit spørgsmål er:

  • Kan vi have et uddannelsessystem der tillægger karakterer en så stor betydning, med tanke på de konsekvenser det kan få for eleverne og deres fremtid med den viden der foreligger?
  • Bør vi ikke give lærerne/censorerne bedre værktøjer og træning for at sikre en ensartet karaktergivning?
  • Bør der ikke være minimum to (eks. en lærer og en censor) ved karaktergivning, så de kan afstemme karaktergivningen?

*****

Paper:

(egen oversættelse fra engelsk paper præsenteret ved konferencen)

Black-box testoverensstemmelse: Den oversete skelnen mellem absolut og relativ testoverensstemmelses variabilitet i den kriteriestyrede politik

Af Robert Sjöberg, Göteborg Universitet

I denne paper argumenteres der for at de traditionelle definitioner af testoverensstemmelse giver mulighed for fejlfortolkning og de traditionelt anvendte teknikker som sædvanligvis anvendes er delvist vildledende og at man derfor bør genoverveje hvordan de anvendes.

Det er især afgørende fordi testoverensstemmelse målinger anvendes som beslutningsgrundlag for beslutningstagere inden for det uddannelsespolitiske felt, eksempelvis Swedish National Agency for Education and School Inspectorate.

Hovedformålet med dette paper er at uddybe validiteten og egnetheden i brugen af de mest anvendte målingsværktøjer inden for testoverensstemmelse, eks. Pearsons eller Cronbach’s Alpha, i kriteriebaserede prøver i uddannelsessektoren.

Hvilken type information giver de helt præcist? Hvorfor er disse koefficienter de eneste der anvendes? Karaktergivning har vist flere fejlkilder i målinger, og en anerkendelse af disse er nødvendige, hvis målingskriterier skal anvendes i karaktergivningen. Inden for uddannelseskontekst, er en fejlkilde overensstemmelse i variabiliteten af karaktergivning. Definitioner af reliabilitet og måleteknikker udspringer fra den psykometriske forskning og konceptet henviser til en tendens mod, at forskellige lærere giver den samme testscore for den samme præstation. En af de mest citerede inden for nutidig konceptualisering indenfor testoverenstemmelse er Stemler.

Han tilbyder en ramme hvori det skal betragtes som et multifacetteret koncept som indeholder konsensus, konsistens og målingsestimater. Men, skelnen mellem absolut og relation testoverensstemmelse giver i hans øjne problemer i forhold til udgangspunktet.

Dette paper er baseret på en webbaseret undersøgelse som omhandlede testvariabilitet i læreres karaktergivning ud fra skriftlige opgaver blandt gymnasielærere (N=27) med et fuldt krydset design. Undersøgelsen er udført i forbindelse med karaktergivning af skriftlige tyskopgaver, hvor lærere ses for at være velansete med en udpræget autonomi.

Ved anvendelse af en generaliserings analysemetode (ANOVA) viser det sig, at der er store forskelle mellem relative og absolutte testoverensstemmelser koefficienter.

Lærerne er mere konsekvente, når det handler om at rangordne opgaverne, end karakterniveauer, faktisk afviger de i svær grad.

Dette resultat lægger op til at politiske beslutningstagere, forskere og lærerprofessionen er nødt til at tage testoverensstemmelsens analyser alvorligt. Vil de relative placeringer være nok i Norden, mod de politisk styrede karakterers betydning?

*****

Mine egne noter fra præsentationen:

Hovedpointen er at reliabiliten problematiseres. Ifølge den ”klassiske teori” er:

O = T + E

Hvor

O er Observerede score (som ikke er det samme som egentlige viden, da den afhænger af konteksten)

T er True Score (kan vi aldrig kende, men ved repetition, flere tests kan man øge reliabiliteten)

E er Error (fejlkilder, fejlvarians)

Formålet er at undersøge validiteten og hensigtsmæssigheden ved karaktergivningen.

Konteksten er en del af projektet ”Fragility of assessments” da vi arbejder med mennesker.

Projektet blev udført med svenske tysklærere, som arbejdede uafhængigt og autonomt.

Kvaliteten i karaktergivningen blev vurderet ud fra, om validitet, reliablitet og gennemførlighed var truet, så generalisérbarheden kunne trues.

Et hypotetisk eksempel var tre læreres karaktergivning. De havde samme opfattelse af den relative fordeling, men når der skulle afgives karakterer, var disse fra A – C+ - D, det vil sige et stort spænd lærerne imellem.

Lærere kunne opdeles i tre typer: Den øvre (duen), middel og den nedre (ørnen). Afhængigt af hvilken lærertype der afgav karakterer, ville en opgave kunne få et karakterspænd på op til fire niveauer (fra A til D) selvom lærerne havde samme opfattelse af den relative placering opgaverne imellem.

Hvis vi tager fat på det konkrete projekt, afgav lærerne karakterer efter tre forskellige vurderingsskalaer: Lpf94 (10 point skala), Gy11 (10-point skala) og Analytisk (10 aspekter, 4-point skala).

Den relative placering lærerne imellem viste, at den Analytiske tilgang gav 70% sandsynlighed for at lærerne havde samme opfattelse af relativ placering. Modsat viste en koefficient for LPf94 absolut placering, at der kun var 27% sandsynlighed for, at lærerne gav samme karakter. Selv med den analytiske tilgang var sandsynligheden nede på 43%.

De foreløbige konklusioner af projektet:

  • Stemlers kategorisering skjuler forståelsen mellem relativ/absolut skelnen, hvilket man bør være opmærksom på, specielt når der laves vurderingskriterier
  • Reliabliteten skal suppleres med denne alvorlige målingsforskel – absolut testoverensstemmelse, når det kommer til kriteriebaseret karaktergivning.
  • Det tyder på at en psykometrisk testtradition stadig anvendes hvor konsistens er vigtigst, men denne kan ikke altid anvendes ved vurdering af kundskabsniveauer.

*****

Tak til Robert Sjöberg for at tjekke min artikel inden offentliggørelse (håber at alt blev korrekt forstået).

Yderligere information kan indhentes hos:

Robert Sjöberg, e-mail: robert.sjoberg@ped.gu.se

PhD Student at Department of Education and Special Education (IPS)/

Centre for Educational Science and Teacher Research (CUL)

Göteborg Universitet

*****

OBS: Billeder er fra Roberts præsentation af Paper fra NERA konferencen.