Bevar, men reparer de nationale test

Professor Peter Allerup vil vende testsystemet på hovedet for at skabe klarhed over antallet af opgaver i de obligatoriske test og sikre en mere brugbar målestok for elevernes dygtighed. Hans forslag til ændringer i de nationale test er også sendt til undervisningsminister Merete Riisager.

Peter Allerup

Offentliggjort 08.02.2018 - 13:26

Ekstra:

Folkeskolen nr. 03 2018

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Vi er en del, som gerne ser de grundlæggende egenskaber omkring skaleringen af elevernes færdigheder fastholdt i de obligatoriske nationale test i folkeskolen. For testene er de eneste, som i princippet tillader sammenligninger af elever på tværs og over år og på samme skala, så man kan følge en udvikling. I forlængelse af det åbne brev fra professorerne Jeppe Bundsgaard og Svend Kreiner til undervisningsminister Merete Riisager har jeg overvejet, om nogle ændringer i anvendelsen af de obligatoriske nationale test kan løse nogle af de mest kendte problemer med brugen af testene. Altså reparer - og undlad at kassere! Mine forslag, som også er sendt til ministeren, vil:

1. vende testsituationen »på hovedet« ved at gå ud fra, at eleven eller læreren på forhånd kender en del til sit eget dygtighedsniveau.

2. tillade simpel udregning af procent rigtige som mål for elevens dygtighed.

3. afskaffe nogle »myter« skabt af det adaptive system ved at benytte et fast antal opgaver i testen.

4. tydeliggøre på simpel måde, hvor sikkert vurderingen af eleven er.

5. give bedre mulighed for formativ feedback til eleven.

6. tillade frivillighed med hensyn til tidspunkt for afholdelse af test.

Først indføres en forhåndsviden om elevens færdighedsniveau, enten ved at læreren eller eleven eller dem begge mener at kunne placere eleven i én af fem faste grupper: ekstremt god, god, i midten, svag og ekstremt svag. Disse grupperinger kan rent statistisk oversættes til fem konkrete (gennemsnits)-værdier på den (Rasch)-skala, som elevernes færdigheder/mål for dygtighed placeres på. På opgavesiden inddeles opgaverne tilsvarende i fem grupper, som matcher de fem grupperinger på en sådan måde, at der er cirka halvtreds procents chance for et korrekt svar i de matchede elev-/opgavegrupper.

Testen startes, og en elev, for eksempel i kategorien god, får nu (tilfældigt udvalgt) præsenteret et antal opgaver, som vælges alene ud fra den gruppe af opgaver, som matcher elevens forhåndsvalg af dygtighedsniveau. Derved bliver hele testforløbet det samme som at kaste plat og krone med en mønt, fordi sandsynligheden for et rigtigt svar (»krone«) stort set er den samme gennem hele testforløbet. Og antal rigtige kan beskrives med en simpel statistisk binomialfordeling. Det medfører, som nævnt i punkt 2, at det nu er relevant at beregne den simple procent rigtig-størrelse som mål for elevens dygtighed.

I øjeblikket bestemmer man antallet af stillede opgaver sammen med en løbende beregning/justering af elevdygtigheden. Erfaringerne tyder på, at netop denne løbende justering via det adaptive system har været én af de uudryddelige misforståelser med hensyn til at forstå, »hvor længe« og »hvor mange opgaver« eleven skal sidde og besvare. Forslaget under punkt 3 peger på muligheden af på forhånd at bestemme antallet af opgaver.

Ved dette antal (eller fast tid) stoppes testen, og eleven og læreren kan nu beregne (eller overlade til maskinen at beregne) procent rigtigt løste opgaver.

Det åbne brevs og andre debattørers bekymringer vedrørende usikkerheden omkring udregningerne, nævnt under punkt 4, løses med mine forslag med to slags udmeldinger:

Den første ved at man på forhånd kan udregne et forventet antal rigtige for hele testforløbet (skal ligge tæt på omkring halvdelen af antallet af stillede opgaver på grund af matchteknikken). Den anden slags udmelding kan illustreres ved følgende tænkte elevs tilbagemelding på testen: »Ja, du løste 45 procent af de stillede opgaver korrekt, men med din placering i dygtighedsgruppen havde vi forventet, at du løste 53 procent rigtigt. Vi kan i øvrigt sige, at du lige så godt kunne have løst 35-65 procent af opgaverne rigtigt - det er rene tilfældigheder, som afgør, om du ender i den ene eller anden af værdierne i det interval. Alt i alt betyder det, at din placering i gruppen god er i orden. Du har klaret testen med et antal rigtigt løste opgaver, som er forventet med din placering som god«.

Grænserne på 35 og 65 procent fastlægges som de grænser, man som statistiker anvender, når man laver et statistisk test for, om de opnåede 45 procent er foreneligt med en påstand om, at elevens dygtighedsmål svarer til (Rasch)-skalaværdien for god. Proceduren er den samme for alle dygtighedsgrupper, og det forventede antal rigtigt løste opgaver er for alle elever cirka halvdelen af antallet af opgaver. Altså en ret simpel måde at formidle testusikkerheden på.

Hvis en elev, der startede testen i kategorien »god«, faktisk kun løste ti procent af opgaverne rigtigt, må man konstatere, at ti procent ligger uden for intervallet (35-65 procent), og i statistisk forstand forkaster man, at eleven har udgangsværdien god, som var grundlaget for valg af matchende opgaver. Elevens faktiske dygtighedsniveau er altså signifikant under god. I fortsættelse af det tænkte eksempel ville en passende melding i dette tilfælde måske være: »Ja, du løste ti procent af de stillede opgaver korrekt, men med din placering havde vi forventet, at du løste 53 procent rigtigt. Du har altså et lavere resultat end forventet og skal måske overveje at tage testen én gang til på et lavere niveau«.

I punkt fem fremhæves muligheden af at give bedre feedback til eleven ud over den besked, at alting er okay, som det skete i det første eksempel med eleven i kategorien god. Men både her og ved det andet eksempel, hvor man forkastede en antagelse om elevens dygtighedsniveau, er der behov for at vide, hvad det var, eleven kunne og ikke kunne, set fra et formativt feedbacksynspunkt. Med den foreslåede procedure præsenteres eleven udelukkende for opgaver med (næsten) samme sværhedsgrad. I sådanne tilfælde er det klart en mere overkommelig opgave at beskrive det faglige indhold i opgaverne ud fra didaktiske kriterier, end tilfældet er i dag. Det var vel en del af konstruktionen bag ved selve opgavebanken og forståelsen af opgavesværhedsgrad.

Som sagt forsøges det hidtidige testsystem med de anførte forslag vendt lidt på hovedet i forhold til den hidtidige praksis. I stedet for ikke at vide noget som helst om eleven og sætte testapparatet til at finde ud af, hvor dygtig eleven er, så undersøger denne beskrevne fremgangsmåde, om eleven ligger i den dygtighedsgruppe, som lærer og/eller elev på forhånd antager. Eller måske vil eleven udfordre et bestemt dygtighedsniveau? I hvert fald kan det gennemføres på frivillig basis - som det er anført i punkt 6 - på de tidspunkter, der passer eleven og læreren.