Debat

Hvad er det med PISA - kan det virkelig være sandt, at alle elevdata bliver tilført statistiske vægte, før resultatet beregnes?

PISA-resultaterne nyder stor bevågenhed i offentligheden, og derfor er det vigtigt, at undersøgelserne givet et så retvisende billede af folkeskolen, som det kan lade sig gøre.

Publiceret Senest opdateret

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

I 2009, 2012 og i den kommende PISA 2015 har man valgt et stikprøvedesign, der gør PISA-resultatet usikkert og utroværdigt. Det utroværdige stilprøvedesign er besluttet med godkendelse fra ministeriet og folketingets uddannelsesudvalg, og derfor henvender jeg mig til jer - for at beskrive og forklare konsekvenserne af jeres godkendelse af et ændret stikprøvedesign i sensommeren 2008.

Baggrunden for beslutningen om et ændret stikprøvedesign har tilsyneladende været, at man ville slå to fluer med et smæk. Man ville foretage PISA-etnisk i samme testperiode som den almindelige PISA-test. Men for at kunne foretage disse to undersøgelser i samme testperiode har det været nødvendigt at tilsidesætte fornuftige principper for god stikprøveudvælgelse.

Jeg håber med denne henvendelse at mane til eftertanke og handling hos folketingets uddannelsesudvalg og undervisningsministeriet. Det er muligt at foretage PISA-etnisk året efter PISA-testen. Hermed vil man kunne undgå det nuværende uhensigtsmæssige stikprøvedesign og opnå mere troværdige PISA-resultater.

Vær med i samtalen

Klik her for at indsende dit indlæg til folkeskolen.dk - medsend gerne et portrætfoto, som kan bringes sammen med indlægget

Stikprøvedesignet i PISA 2006

”Med udgangspunkt i et korrekt stratificeret udsnit af skoler er den videre metodik gennem tilfældig udvælgelse at finde frem til maksimalt 28 elever på hver skole”(PISA 2006)

Før 2009 foregik PISA undersøgelserne ved nøje at udvælge et elevudsnit, der i så høj grad som muligt, lignede samtlige danske 15-årige. Eleverne var repræsentative og beregningen af PISA-resultatet skete direkte ud fra disse elevers resultater.

Stikprøvedesignet PISA 2009 og 2012 - oversampling på skoleniveau

”I Danmark har man i PISA 2012 valgt, som en national option, at lave en oversampling af elever med en anden etnisk baggrund end dansk. Det gjorde man også i PISA 2009. Det betyder, at man i Danmark har udvalgt flere skoler med mange elever med anden etnisk baggrund end dansk, og at man på de deltagende skoler har udtrukket flere elever med anden etnisk baggrund end dansk. En efterfølgende vægtning af data sørger for, at data alligevel er repræsentative for populationen af 15-årige under uddannelse.” (PISA 2012)

Oversamplingen ved PISA-testene i 2009 og 2012 betød, at elever fra skoler med mindst 33 % tosprogede var markant overrepræsenterede – med endnu flere elever fra indvandrertunge skoler i 2012 end i 2009. Både i 2009 og i 2012 gik 5,6 % af landets 15-årige går på en skole med mindst 33 % tosprogede, men i PISA 2009 var 20,4 % af de elever der gennemførte testen, fra denne type skole. I 2012 var denne andel steget til 24.2 %.

Oversamplingen betød også, at elever fra skoler med under 10 % tosprogede var markant underrepræsenterede - med endnu færre elever fra almindelige danske skoler i 2012 end i 2009. 75 % af landets 15-årige går på en skole med under 10 % tosprogede, men i PISA 2009 var kun 49,2 % af de elever, der gennemførte testen, fra denne type skole. I 2012 var denne andel faldet til 45,3 %.

Når sammensætningen af de deltagende elever i PISA på ingen måde afspejler befolkningssammensætningen har det været nødvendigt at bygge det danske PISA-resultat på vægtede data. Hvert elevresultat har fået tilført en statistisk udregnet vægt ud fra deres socioøkonomiske forhold. Fx vægtes elever fra tosprogs-tunge skoler i 2012 med tal omkring 2, og elever fra traditionelle danske skoler med tal omkring 16. Denne vægtning er foretaget af PISAs internationale eksperter.

Hvorfor dog gå fra en repræsentativ stikprøve til et stikprøvedesign, der var så skævt, at det blev nødvendigt at vægte samtlige elevdata?

Det er nærliggende at tro, at der må have været akut behov nærgående analyser at indvandrerbørns danskfærdigheder, og at dette var årsagen, da PISA gik bort fra et pålideligt repræsentativt stikprøvedesign og over til at udvælge elever på en måde, der kræver at alle resultater bliver omdannet ved statistiske vægte. Men der var ikke noget behov for grundige PISA-analyser af indvandrerbørns danskfærdigheder.

PISA foretog allerede undersøgelser af indvandrerbørns danskfærdigheder i 2005 med støtte fra Rockwoolfonden. PISA etnisk blev finansieret med støtte fra Rockwool-fonden og foregik året efter den almindelige PISA-undersøgelse.

Baggrunden for at gå bort fra det repræsentative stikprøvedesign finder man i en henvendelse fra PISA til ministeriet i 2008. PISA Danmark var træt af at lave en undersøgelse af 16-17 åriges PISA-færdigheder, og ville hellere lave noget andet. Derfor foreslog PISA Danmark at man foretog en oversampling af etniske elever i forbindelse med den ordinære PISA- undersøgelse i 2009.

Når PISA henvender sig til ministeriet med et forslag om at fordoble antallet af deltagere og foretage en vidtgående oversampling af elever med indvandrerbaggrund, så ligner det et forsøg på at fastholde den gode og sikre indtjeningsmulighed for konsortiet som ministeriet hidtil har været

”Ligesom ved de hidtidige runder af PISA er der i forbindelse med den kommende runde i 2009 indgået kontrakt med PISA-konsortiet om at gennemføre en parallelundersøgelse blandt 16-17-årige. PTSA-konsortiet har imidlertid efter kontraktens indgåelse stillet forslag tal Skolestyrelsen om at undlade at gennemføre parallelundersøgelsen i 2009.” (vedlagt bilag fra kvalitets- og tilsynsstyrelsen)

”PISA-konsortiet vurderer, at de ressourcer, der anvendes til parallelundersøgelsen blandt 16-17-årige, vil kunne anvendes bedre ved at foretage en oversampling af etniske elever i forbindelse med den ordinære PISÅ- undersøgelse i 2009. En oversampling vil betyde, at der udover de ca.220 repræsentativt udvalgte skoler, som indgår i den ordinære undersøgelse, udvælges et tilsvarende antal skoler med høj koncentration af etniske elever, hvor eleverne gennemfører samme test Antallet af elever i den samlede stikprøve vil dermed blive omkring det dobbelte. De ordinære PISA-resultater vil ikke blive påvirket af oversamplingen.”(samme vedlagte bilag)

Skolestyrelsen indstiller efterfølgende til, at PISA-konsortiets forslag vedtages inden for de gældende økonomiske rammer i aftalen med PISA-konsortiet. Jeg vurderer, at denne ændring af PISAs stikprøvedesign må være blevet forelagt Folketingets uddannelsesudvalg ved vedtagelsen i 2008, da PISA er en særdeles vigtig brik i den politiske styring af folkeskolen.

PISA-resultater 2000-2012 sammenlignet med PISA-København

PISA foreslog en vidtgående oversampling, hvor halvdelen af de deltagende elever skal have indvandrerbaggrund, og lovede, at det ikke vil få indflydelse på resultatet. Men holdt dette løfte stik? Hvad skete der egentligt med PISA-resultaterne ved den første oversampling i 2009?

PISA-matematik

Sammenligner man udviklingen i de danske PISA-resultater med PISA-København, er der en markant forskel at spore i området matematik, efter PISA og PISA-etnisk blev kombineret i 2009 med tilhørende oversampling af tosprogede elever. I PISA-DAnmark 2009 ses et dramatisk fald i matematikresultaterne, der bliver bekræftet i 2012, men ser man på PISA-København, er der intet fald at spore i 2010 - tværtimod.

PISA konsortiet kan ikke komme med en fornuftig forklaring på det drastiske og vedvarende fald i matematikresultater. Der er ikke sket ændringer i folkeskolen, der forklarer et stort fald i matematik, og de internationale TIMSS-undersøgelser viser et helt andet positivt billede af elevernes udvikling.

”TIMSS 2011-undersøgelsen viser, at danske elever sammenlignet internationalt præsterer godt, også hvad angår andelen af højt præsterende elever på 4. klassetrin, og siden 1995 er resultaterne forbedret (se fx Allerup, 2012a; 2012b). Når PISA 2012 indikerer et fald for elever i udskolingen, specielt med hensyn til højt præsterende elever, tyder det på, at nogle af de højt præsterende elever i matematik i løbet af mellemskolen mister interesse og ihærdighed og ikke udnytter deres potentialer for matematiklæring. Det tyder på, at den undervisningsdifferentiering, der i dag er rettet imod de bedst præsterende elever, kunne korrigeres, og at disse elever kunne udfordres med et stærkere læringsudbytte til følge. Denne hypotese støttes i nogen grad af baggrundsvariablene omhandlende elevinvolvering, hvilket som set omfatter undervisningsdifferentiering, og som for Danmarks vedkommende også udmønter sig i at have en negativ effekt på matematikscoren i PISA 2012 (jf. tabel 5.18 i kapitel 5).”(PISA 2012)

Ser man på udvikling af karaktergennemsnit ved afgangsprøven fra 2006 og frem - så er der ingen tegn på, at eleverne skulle klare sig dårligere end tidligere i matematik. Har ministeriet modtaget nogen dokumentation fra PISA for, at der ikke kan være sket en statistisk fejlvurdering i forbindelse med det nye oversamplede stikprøvedesign fra 2009? Hvordan kan PISA begrunde, at danske elever rent faktisk er blevet dårligere til matematik siden 2006, når afgangsprøverne og en international undersøgelse viser et helt andet billede?

PISA-læsning

På læseområdet viser PISA og PISA-København to modsatrettede tendenser. PISA viser stilstand, og PISA-København et lille tilbageskridt. Den internationale undersøgelse PIRLS tegner et tredje billede.

”Siden PIRLS 2006 er de danske resultater i læsning forbedret signifikant. I 2011 er resultatet 8 scorepoint højere. Der er signifikant færre meget svage læsere i danske 4. klasser, end tilfældet var i 2006, mens andelen af meget dygtige elever er uforandret.”(Pirls 2012)

Hvordan ville PISAs resultater mon være - uden oversampling af tosprogede elever?

En måde at komme udenom PISAs oversamplede resultater i 2009 og 2012 er at kigge på resultater for private skoler og efterskoler. Her har det sandsynligvis ikke været muligt at foretage samme massive oversampling at tosprogede elever som i folkeskolen.  Tallene fra private skoler og efterskoler er derfor måske mere "ærlige", selvom elevantallet sikkert er for lille til at kunne bruges statistisk.

Jeg har forsøgt at lave et dataudtræk fra PISAs databaser og nået frem til et billede, der viser fremgang i både læsning og naturfag, og stilstand i matematik i 2009 og 2012.

Stikprøvedesignet PISA 2012 - oversampling på elevniveau

”Stikprøven for den papirbaserede test blev udtrukket som følger: På de udtrukne skoler i vægtning) blev der lavet et tilfældigt udtræk på 28 elever (TCS = 28). På de udtrukne skoler i stratum 02, 03 og 04 blev eleverne delt i to grupper, hvorfra der blev udtrukket elever. I stratum 02 blev der udtrukket 20 elever (TCS=20) med dansk etnisk baggrund, og alle eleverne med anden etnisk baggrund end dansk blev tilføjet til udtrækket. I stratum 03 blev der udtrukket 25 elever (TCS=25) med dansk etnisk baggrund, og alle eleverne med anden etnisk baggrund end dansk blev tilføjet til udtrækket. I stratum 04 blev der udtrukket 28 elever (TCS=28) med dansk etnisk baggrund, og alle eleverne med anden etnisk baggrund end dansk blev tilføjet til udtrækket..”

Jeg har oplevet dette stikprøveudtræk på den skole, hvor jeg underviser. Her blev der foretaget en tilfældig stikprøve af et antal elever, og efterfølgende blev alle elever med indvandrerbaggrund udvalgt til at deltage i undersøgelsen. Skolen er tresporet i overbygningen, og det betød, at der deltog omkring 23 etnisk danske elever og cirka 6 elever med indvandrerbaggrund i undersøgelsen.

PISA består i komplekse og krævende opgaver, der kræver ihærdighed og omhu at besvare. Er der muligt, at eleverne på min skole i testsituationen blev påvirket af, at der var betydeligt flere elever med usikre danskkundskaber end almindeligvis i lokalet? Kan dette have betydet, at nogen elever valgte at springe over de mest vanskelige opgaver, fordi de oplevede, at andre havde det svært undervejs? Betyder det noget for undersøgelsens resultater, at ikke alle blev tilfældigt udvalgt? Jeg er ikke i stand til at udregne undersøgelsernes statistiske designeffekt fra 2000 og frem, men jeg kan undre mig over resultaterne.

Min konklusion

Så længe PISA Danmark fortsætter med oversampling af elever med indvandrerbaggrund, så vil der være unødvendig usikkerhed om det danske PISA-resultat. Det er umuligt at vide, om eleverne på en eller anden måde bliver påvirket af oversamplingen i testsituationen. Det er heller ikke muligt at vide, om de tildelte vægte i udregningen af elevresultatet er hensigtsmæssige og præcise nok.

Hvis det politiske Danmark skal have tillid til PISA som internationalt måleredskab for folkeskolen, så er det afgørende vigtigt, at PISA fastholder samme testbetingelser ved alle målinger.

PISA har alt for stor politisk bevågenhed til, at der må kunne sås tvivl om de statistiske metoder. Det er ganske uansvarligt at bygge PISA resultatet på vægtede resultater, hvormed man risikerer, at statistisk taltrylleri afgør Danmarks resultatet. Når undervisningsministeriet og undervisningsudvalget har godkendt, at sammensætningen af de deltagende elever i PISA på ingen måde skal afspejle befolkningssammensætningen, så er der tale om en uklog beslutning.

Det er muligt at forske i tosprogedes skoleresultater på anden vis. Man kan adskille PISA og PISA-etnisk så de to undersøgelser foregår på hver sit tidspunkt. Dette har man tidligere gjort med støtte fra Rockwoolfonden