computer Adaptive Testing: baggrund, fordele og casestudie af et stort nationalt testprogram

Computer Adaptive Testing (CAT) er et varmt emne blandt vurderingssamfundet, men på trods af dets mange fordele er det stadig ikke meget udbredt. I denne artikel vil vi give dig et overblik over CAT, en nedslidt af nogle af fordelene og uden for meget jargon en oversigt over teknologien bag den. For at hjælpe med at kontekstualisere det, vi vil henvise til en nylig casestudie af, hvordan CAT-teknologien i overgå er blevet brugt til at levere et innovativt nationalt personaliseret vurderingsprogram, der ændrer formen på national uddannelse.

Hvad er en computer adaptiv Test?

kort sagt er en computer adaptiv Test (undertiden benævnt personlig vurdering) en test, der tilpasser sig kandidatens evne i realtid ved at vælge forskellige spørgsmål fra banken for at give et mere nøjagtigt mål for deres evneniveau i fælles skala.

Hvad er en computer adaptiv Test som for en kandidat?

en personlig vurdering trækker spørgsmål fra en stor pulje af emner, der er omhyggeligt kalibreret for at bestemme deres sværhedsgrad (mere om dette i næste afsnit).

når en kandidat begynder deres test, præsenteres de først for et element af medium vanskelighed, der anses for passende for deres årgruppe. Hvis de får det spørgsmål rigtigt, vil det næste punkt, de ser, være lidt sværere, hvis de får det forkert, vil de se en lidt lettere vare. Systemet beregner konstant kandidatens estimerede evne afhængigt af, hvad de får rigtigt og forkert, og præsenterer dem for et personligt sæt varer, indtil niveauet af tillid til evneestimatet har overskredet et foruddefineret niveau (eller det maksimale antal spørgsmål er blevet præsenteret), og testen slutter. Da hver elev tager en anden vej gennem testen med et andet sæt spørgsmål, kan de potentielt modtage prøver af forskellig længde.

i modsætning til en lineær test, der i nogle scenarier kun giver nyttige resultater for elever med gennemsnitlig evne, med en personlig vurdering, er alle de emner, der præsenteres for kandidaten, designet til at være udfordrende; antallet af lette emner, der præsenteres for kandidater med høj evne, reduceres, ligesom antallet af hårde spørgsmål til kandidater med lav evne, da ingen af dem giver en klar indikation af disse elevers evne.

da alt er scoret i realtid, kan kandidaten ved afslutningen af testen modtage øjeblikkelig feedback i form af evneerklæringer i modsætning til en rå score eller karakter, som giver faktuel information om deres styrker og svagheder baseret på de spørgsmål, de besvarede.

Hvordan fungerer en computer adaptiv Test i overgå?

for at en kat skal arbejde, har den brug for pålidelige data og en omfattende varebank med en god spredning af indholdsdækning og sværhedsgrad. Dette betyder, at varebanken først skal kalibreres gennem forprøvning. Dette er en af de vigtigste barrierer for CAT som en større varebank, og der kræves omfattende arbejde for at få pålidelige data, før der kan leveres live-tests. Den generelle regel er, at en vare skal eksponeres mindst 200 gange, før pålidelige data kan genereres. Ved hjælp af disse eksponeringsdata bruges Item Response Theory (IRT) derefter til at beregne IRT-parametre for hver af elementerne i banken. Disse IRT-parametre inkluderer varens vanskelighed og diskrimination af varen, dvs. den faktor, der bestemmer, hvor meget en stigning i en kandidats evne vil have på sandsynligheden for, at de får denne vare korrekt. I overgå, er disse værdier knyttet til elementerne som tags.

der genereres en test ‘blueprint’, der bestemmer faktorer såsom indholdsdækning af testen. Mange flere parametre kan også specificeres, herunder minimum og maksimum antal elementer til at præsentere og stoppe betingelser. Der oprettes en elementpulje, der indeholder alle de elementer, der kan vises i testen.

mens systemet med en lineær test ved, hvilke emner der vil blive leveret, før testen begynder, med en adaptiv test, vælger en algoritme det næste emne i realtid, på det tidspunkt, hvor kandidaten klikker på knappen ‘Næste’ i testdriveren. Algoritmen fungerer efter planen for at sikre god dækning af alle indholdsområder og styrer vareeksponering på tværs af banken som helhed (så nogle varer ikke præsenteres oftere end andre), hvilket betyder, at hele varebanken bruges mest effektivt. Algoritmen er i stand til at understøtte op til tre IRT – parametre-vanskeligheder, diskrimination og gætte.

i overgå, alt dette smarte logik sker i bare 300 millisekunder af den lærende vælge ‘Næste’ for at flytte til det næste spørgsmål, hvilket betyder, at der er aldrig en forsinkelse til kandidaten. Algoritmen fortsætter, indtil kandidatens evne er estimeret til det krævede nøjagtighedsniveau.

the overgå holdet har arbejdet hårdt for at sikre, at systemet kan håndtere disse store mængder data uden at påvirke ydeevnen. Microsoft-Apps er blevet brugt, som automatisk kan skaleres afhængigt af forventede volumener, og gennemstrømning (antal anmodninger pr.sekund) er blevet testet i mængder, der er meget højere end dem, der i øjeblikket leveres.

en af de vigtigste fordele ved den adaptive vurdering, der leveres gennem overgå, er, at du ikke kun kan gøre brug af standardrapporteringsfunktionaliteten, men skræddersyede rapporter kan defineres og genereres via overgå API ved hjælp af alle de rige data, der er produceret fra en adaptiv test. Rapporter kan vise individuelle kandidatrejser gennem hele testen samt rapportering på en gruppe eller klasse eller endda nationalt niveau.

hvad er fordelene ved CAT over papirbaseret test?

der er mange fordele ved CAT i forhold til papirbaseret test til formativ vurdering (forudsat at varebanken er korrekt kalibreret), herunder:

præcis information til kandidater med alle evner

traditionelle lineære tests, hvor alle kandidater modtager det samme sæt varer, udfordrer kun nogensinde den midterste tredjedel af eleverne. En kat er designet til at udfordre elever på alle niveauer, hvilket giver et nøjagtigt og nyttigt billede af slankere evne for alle.

fald i lærerbelastning

mange prøver på skoleniveau leveres stadig på papir, hvilket giver en betydelig arbejdsbyrde for lærere med markering og administration af resultater. Øjeblikkelig scoring og præcis elevspecifik feedback giver lærerne mere tid til at fokusere på undervisning og implementere feedback for at hjælpe deres elever med at komme videre.

potentiale for on-demand

med en personlig vurdering på skærmen er der ingen begrænsning at levere inden for papirtestvinduet, hvilket betyder, at de kan leveres til diagnostiske formål på ethvert tidspunkt i løbet af året, når læreren føler, at det er passende. Da hver elev modtager en personlig test, er der ikke behov for, at kohorten alle deltager i testen på nøjagtig samme tid.

mere nøjagtig feedback, der kan handles med det samme

mere nøjagtig feedback kan gives umiddelbart efter testen i form af kompetencebaserede evneudtalelser snarere end en score. Dette indikerer de kandidatområder, de har gjort godt på, og områder, de muligvis skal forbedre. Denne form for feedback er mere nyttig i formativ vurdering, der viser eleverne, at der er områder at komme videre til eller konstruktiv vejledning om, hvor man kan forbedre. Lærere kan også se præstationen af en klasse som helhed og angive områder, de muligvis har brug for at fokusere deres undervisning på.

Elevengagement

med spørgsmål, der udfordrer elever med alle evner, opretholdes elevengagement gennem hele testen bedre. Dårlige resultater opmuntres, og højtydende udfordres. Adaptive vurderinger kan også tage mindre tid at gennemføre end en traditionel lineær test med en nøjagtig evnemåling nået på kortere tid.

brug af CAT til et stort nationalt testprogram i Storbritannien: En casestudie

på 2019 overgå konference, Gavin Busuttil-Reynaud fra AlphaPlus opdateret overgå samfund om brugen af adaptive tests indbygget overgå til en storstilet nationalt testprogram af grundskole og gymnasieelever i Danmark. Nogle af de vigtigste punkter er opsummeret her, eller du kan indhente præsentationen fuldt ud ved at se denne video.

efter at have introduceret nationale test for skolebørn i Danmark på papir i 2013, blev der tidligt gennemført en gennemførlighedsundersøgelse for at bestemme, hvordan den kunne leveres på skærmen. I 2018 begyndte den trinvise overgang af disse tests til computeradaptive tests, hvor den første var proceduremæssig regnefærdighed og blev efterfulgt af læsning og numerisk ræsonnement. Dette betragtes som revolutionerende i betragtning af, at papirbaseret test stadig dominerer de globale regeringstestprogrammer. Tilbage i 2004 Ken Boston, derefter leder af kvalifikationer og Curriculum Authority erklærede, at ‘vurdering på skærmen snart vil røre livet for hver elev i landet’, med et af hans mål for de næste 5 år er, at ‘alle nye kvalifikationer vil omfatte en mulighed for vurdering på skærmen. Som vi ved, 15 år senere, er dette ikke tilfældet, med mange kvalifikationer, der stadig kun leveres på papir, hvilket gør resultaterne af projektet i Danmark endnu mere bemærkelsesværdige, især til vurdering før 16.

alene i det første år har 268.000 elever foretaget en personlig vurdering i proceduremæssig talforståelse, hvilket svarer til 96% af kohorten af elever i år 2-9 i Danmark, hvilket svarer til færdiggørelsesgraden af papirtestene.

indførelsen af vurdering på skærmen oplevede også en betydelig reduktion i antallet af krævede modificerede papirer. I 2018 blev der bestilt over 4000 modificerede papirer til denne test, som blev reduceret til kun 357 modificerede stortryk og 12 braillevurderinger i 2019.

vurderingen kan være selvplanlagt, hvilket giver lærerne fleksibilitet til at bruge den til diagnostiske formål på ethvert tidspunkt i året. Imidlertid, i det første år, mange skoler holdt sig til den traditionelle testperiode, selvom det er muligt, at denne praksis vil ændre sig i fremtiden, efterhånden som lærerne bliver mere fortrolige med disse prøver.

Hvordan er denne nye måde at teste blevet modtaget af lærere?

der er mange fordele ved personaliserede vurderinger i dette scenario, som beskrevet i afsnittet ovenfor. AlphaPlus har modtaget positiv feedback fra lærere til den proceduremæssige beregningsvurderingspilot, som har været i fokus i denne casestudie. Et lærerspørgeskema afslørede, at 78% mente, at eleverne var engagerede, 83% mente, at vurderingerne var den rigtige længde, og over 60% fandt, at lærer-og feedbackrapporterne var nyttige.

under sin præsentation i 2019 overgik Gavin imidlertid, at der stadig er nogle barrierer at overvinde, når tankegangen skifter fra papirbaseret test. Med en personlig vurdering stopper algoritmen, når den med sikkerhed kan give et evnestimat, så nogle elever ser flere spørgsmål end andre, hvilket ikke ville ske på en papirtest.

“der er en del af vores papirkultur, der er så dybt indgroet, at retfærdighed handler om at gøre nøjagtigt det samme for alle mennesker, selvom det er en frygtelig pasform for nogle af disse mennesker…personaliseringsmeddelelsen er ikke kommet igennem til alle lærerne endnu.”

Gavin Busuttil-Reynaud, AlphaPlus

da en kat er designet til at udfordre elever med høj evne, kan kandidater præsenteres for spørgsmål fra ældre aldersgrupper, som de ikke er blevet formelt undervist. Mens målet med dette er at vise eleverne, hvad de kan gå videre til, eller endda demonstrere evner ud over deres aldersgruppe, Gavin fortsatte med at observere:

“nogle lærere omfavner dette… andre synes, det er forfærdeligt, at en lærer var blevet bedt om noget, de ikke vil blive undervist før næste år, og tror, at deres undervisning bedømmes på noget, de ikke er blevet undervist endnu… der er stadig en massiv kulturel rejse for alle at fortsætte, fordi disse prøver er så forskellige fra den nuværende praksis, men det primære formål med alt dette er at give nogle detaljerede feedback.”

Gavin Busuttil-Reynaud, AlphaPlus

prioriteringen af disse tests er at informere undervisning og læring med detaljerede rapporter baseret på alle tilgængelige data designet til at hjælpe lærere med at identificere områder til forbedring, og de bruges ikke som en skoleansvarlighedsforanstaltning. Der gives ingen score på elevrapporten, bare faktuelle udsagn for at fremhæve styrker og svagheder.

læreren er forsynet med en færdighedsprofil for deres klasse, der giver dem en indikation af, hvor de skal fokusere deres undervisning, leverer pålidelige data er tilgængelige, samt elevrejsediagrammer, der viser den vej, de tog gennem testen og kan vise mønstre for elevadfærd.

Rob Nicholson, rektor for Borras Park Community School, hvis elever har siddet disse vurderinger kommenterede:

“de personlige vurderinger kan bruges sammen med andre former for vurdering, som skoler have…it kan bruges til blot at størkne scoringer og vurderinger og viden om barnet.”

Rob Nicholson, rektor for Borras Park Community School

Hvordan er de personlige vurderinger modtaget af eleverne?

til dette projekt var teamet opmærksomme på elevernes unge alder, og derfor blev den overlegne testdriver tilpasset for at forenkle grænsefladen og skabe den bedst mulige oplevelse. Testene kunne leveres på stationære computere, bærbare computere eller tablet-enheder, hvilket var vigtigt på grund af inkonsekvensen af udstyr, der var tilgængeligt i skoler over hele landet.

børn lærer på tabletter

hver kandidat udfordres af de spørgsmål, der præsenteres for dem, så de kan demonstrere, hvad de ved, snarere end hvad de ikke gør, med algoritmen designet, så eleverne får 50% af emnerne rigtigt og 50% forkert. For første gang fandt nogle højtydende spørgsmål, de ikke var bekendt med, mens de lavere præstere fik tillid ved at kunne besvare nogle af spørgsmålene.

“for eleverne i den nedre ende af evnespektret, typisk, når de lavede papirtesten, ville de få et sted mellem 90-95% af emnerne forkert. Hvilken utrolig nedslående oplevelse. Men de kommer ud af denne adaptive test går, jeg kunne gøre det!…Og de høje flyers, der ville suse gennem en papirtest om ti minutter, siger pludselig nu: ‘det var en vanskelig test, jeg var nødt til at tænke’…i det mindste får det dem til at indse, at der er noget andet at gå videre til.”

Gavin Busuttil-Reynaud, AlphaPlus

elever er generelt upåvirket af et skifte til skærmen, som Jenny Jones, viceleder for Borras Park Community School, observerede:

“de er vant til at arbejde online, de er vant til at bruge deres iPads eller computere, så de føler sig trygge ved at bruge dem. Det er en sjov aktivitet.”

Jenny Jones, vicedirektør for Borras Park Community School

der har også været fordele for de elever med synshandicap eller tilgængelighedskrav, som normalt ville betyde, at de kræver en ændret version af papirtesten. Den eneste reelle forskel er, hvor diagrammer er inkluderet, så en forenklet version eller braille-version er inkluderet i et papirhæfte. Tilgængelighedsværktøjer som en forstørrelsesglas og skærmlæser betyder, at testen på skærmen er tilgængelig for så mange mennesker som muligt. AlphaPlus har arbejdet med synshandicappede elever og konkluderer, at eleverne helhjertet foretrækker onlineversionerne og er upåvirket af tilgængelighedsværktøjer, da det er deres sædvanlige måde at arbejde på, og velkommen til at kunne arbejde på en computer på samme måde som alle andre.

konklusion

casestudiet om en vellykket National CAT-implementering i Storbritannien viser, at denne type test kan introduceres og kan have betydelige fordele i forhold til faste tests, især i en formativ indstilling. Kortere, personlige tests med elev-passende indhold giver større elevengagement og en bedre elevoplevelse. Resultaterne behandles hurtigere, så de kan gennemgås med eleven, mens deres vurderingserfaring stadig er frisk i deres sind.

psykometrisk gyldige resultater sammen med rige data om hver kandidat giver en større forståelse af, hvad eleverne er i stand til, og kan sammen med andre indikatorer bedre informere undervisning og læring og give de bedst mulige muligheder for elevprogression.

kommenterer arbejdet med skolebørn, Roger Murphy, Emeritus Professor i uddannelse ved Nottingham University udtalte:

“det er et træk ved uddannelsessystemet i Danmark, som overvåges meget nøje af mange lande rundt om i verden.”

Roger Murphy, Emeritus Professor i uddannelse ved Nottingham University

det skal dog bemærkes, at CAT ikke vil være passende i alle scenarier. Kat er begrænset til objektive spørgsmålstyper, der begrænser den type færdigheder, der kan testes, og den generelt accepterede opfattelse er, at det er dyrt at producere en kat. Måske, som vurderingsteknologien skrider endnu længere, kan funktionalitet som automatisk varegenerering afbøde nogle af omkostningsimplikationerne omkring oprettelse af større varebanker. I sidste ende skal omkostningerne til produktion afvejes mod fordelene for at afgøre, om CAT er den rigtige vej at gå til dit testprogram.

hvis du er interesseret i at lære mere om personlige vurderinger i overgå, bedes du tale med din overgå Account Manager.