Computer Adaptive Testing: Bakgrund, fördelar och fallstudie av ett storskaligt nationellt testprogram

Computer Adaptive Testing (CAT) är ett hett ämne bland bedömningsgemenskapen, men trots sina många fördelar används det fortfarande inte så mycket. I den här artikeln kommer vi att ge dig en översikt över CAT, en nedgång av några av fördelarna och utan för mycket jargong, en översikt över tekniken bakom den. För att hjälpa till att kontextualisera det kommer vi att referera till en ny fallstudie av hur CAT-tekniken i överträffa har använts för att leverera ett innovativt nationellt personligt bedömningsprogram som förändrar formen på nationell utbildning.

Vad är en dator adaptiv Test?

enkelt uttryckt är ett Datoranpassat Test (ibland kallat personlig bedömning) ett test som anpassar sig till kandidatens förmåga i realtid genom att välja olika frågor från banken för att ge ett mer exakt mått på deras förmåga på en gemensam skala.

hur är ett Datoranpassat Test för en kandidat?

en personlig bedömning drar frågor från en stor pool av objekt som har noggrant kalibrerats för att bestämma deras svårighetsgrad (mer om detta i nästa avsnitt).

när en kandidat börjar sitt test presenteras de först med ett objekt med medelhög svårighet som anses lämpligt för sin årgrupp. Om de får den frågan rätt kommer nästa sak de ser att bli lite svårare, om de får fel, kommer de att se ett lite lättare objekt. Systemet beräknar ständigt kandidatens uppskattade förmåga beroende på vad de får rätt och fel, och presenterar dem med en personlig uppsättning objekt tills nivån på förtroendet för förmåga uppskattningen har överskridit en fördefinierad nivå (eller det maximala antalet frågor har presenterats) och testet slutar. Eftersom varje elev tar en annan väg genom testet, med en annan uppsättning frågor, kan de potentiellt få tester av olika längd.

till skillnad från ett linjärt test som i vissa scenarier bara ger användbara resultat för elever med genomsnittlig förmåga, med en personlig bedömning, är alla objekt som presenteras för kandidaten utformade för att vara utmanande.antalet enkla objekt som presenteras för högkvalitativa kandidater minskas, liksom antalet svåra frågor till lågkvalitativa kandidater, eftersom ingen av dem ger en tydlig indikation på dessa elevers förmåga.

eftersom allt görs i realtid kan kandidaten i slutet av testet få omedelbar feedback i form av förmåga uttalanden i motsats till en rå poäng eller betyg, som ger faktisk information om deras styrkor och svagheter baserat på de frågor de svarade på.

hur fungerar ett Datoranpassat Test i överträffa?

för att en katt ska fungera behöver den tillförlitliga data och en omfattande artikelbank med god spridning av innehållstäckning och svårighetsgrad. Detta innebär att artikelbanken först måste kalibreras genom förprovning. Detta är ett av de viktigaste hindren för CAT som en större artikelbank och omfattande arbete krävs för att få tillförlitliga data innan några Live-tester kan levereras. Den allmänna regeln är att ett objekt måste exponeras minst 200 gånger innan tillförlitliga data kan genereras. Med hjälp av denna exponeringsdata används Item Response Theory (IRT) sedan för att beräkna IRT-parametrar för var och en av posterna i banken. Dessa IRT-parametrar inkluderar artikelns svårighet och diskrimineringen av artikeln, dvs. den faktor som bestämmer hur mycket en ökning av förmågan hos en kandidat kommer att ha på sannolikheten för att de får det objektet korrekt. I överträffa är dessa värden kopplade till objekten som taggar.

ett test ’blueprint’ genereras som bestämmer faktorer som testets innehållstäckning. Många fler parametrar kan också anges, inklusive, minsta och maximala antalet objekt att presentera och stoppa förhållanden. En artikelpool skapas som innehåller alla objekt som kan visas i testet.

med ett linjärt test vet systemet vilka objekt som kommer att levereras innan testet börjar, med ett adaptivt test väljer en algoritm nästa objekt i realtid, vid den punkt som kandidaten klickar på knappen ’Nästa’ i testdrivrutinen. Algoritmen fungerar enligt planen för att säkerställa god täckning av alla innehållsområden och kontrollerar objektexponering över hela banken som helhet (så att vissa objekt inte presenteras oftare än andra), vilket innebär att hela artikelbanken används mest effektivt. Algoritmen kan stödja upp till tre IRT – parametrar-svårighet, diskriminering och gissning.

i överträffa, all denna smarta logik händer på bara 300 millisekunder av eleven som väljer ’Nästa’ för att flytta till nästa fråga, vilket betyder att det aldrig finns en försening för kandidaten. Algoritmen fortsätter tills kandidatens förmåga har uppskattats till önskad nivå av noggrannhet.

teamet överträffa har arbetat hårt för att säkerställa att systemet kan hantera dessa stora datamängder utan att påverka prestanda. Microsoft Azure-appar har använts som automatiskt är skalbara beroende på förväntade volymer och genomströmning (antal förfrågningar per sekund) har testats med volymer som är mycket högre än de som för närvarande levereras.

en av de viktigaste fördelarna med den adaptiva bedömningen som levereras genom överträffa är att du inte bara kan använda standardrapporteringsfunktionen, men skräddarsydda rapporter kan definieras och genereras via överträffa API, med användning av alla de rika data som produceras från ett adaptivt test. Rapporter kan visa enskilda kandidatresor under hela testet, samt rapportering på en grupp eller klass eller till och med nationell nivå också.

vilka är fördelarna med CAT jämfört med pappersbaserad testning?

det finns många fördelar med CAT över pappersbaserad testning för formativ bedömning (förutsatt att artikelbanken har kalibrerats korrekt) inklusive:

exakt information för kandidater med alla förmågor

traditionella linjära tester, där alla kandidater får samma uppsättning artiklar, utmanar bara någonsin den mellersta tredjedelen av eleverna. En katt är utformad för att utmana elever på alla förmåga nivåer, ger och korrekt och användbar bild av smalare förmåga för alla.

minskning av lärarnas arbetsbelastning

många tester på skolnivå levereras fortfarande på papper, vilket ger betydande arbetsbelastning för lärare med märkning och administration av resultat. Omedelbar poäng och exakt elevspecifik feedback ger lärare mer tid att fokusera på undervisning och implementera feedback för att hjälpa sina elever att utvecklas.

Potential för on-demand

med en personlig bedömning på skärmen finns det ingen begränsning att leverera inom papperstestfönstret, vilket innebär att de kan levereras för diagnostiska ändamål när som helst under året när läraren anser att det är lämpligt. Eftersom varje elev får ett personligt test, finns det inget behov av att kohorten alla sitter testet på exakt samma gång.

mer exakt feedback som kan åtgärdas omedelbart

mer exakt feedback kan ges omedelbart efter testet i form av kompetensbaserade förmåga uttalanden snarare än en poäng. Detta indikerar de kandidatområden de har gjort bra på och områden de kan behöva förbättra. Denna typ av feedback är mer användbar vid formativ bedömning, vilket visar för eleverna att det finns områden att gå vidare till eller konstruktiv vägledning om var de ska förbättras. Lärare kan också se resultatet för en klass som helhet, vilket indikerar områden de kan behöva fokusera sin undervisning på.

Learner engagement

med frågor som utmanar elever med all förmåga, underhålls elevens engagemang under hela testet bättre. Lågpresterande uppmuntras, och högpresterande utmanas. Adaptiva bedömningar kan också ta mindre tid att slutföra än ett traditionellt linjärt test, med en exakt förmåga mätning uppnås på kortare tid.

använda CAT för ett storskaligt nationellt testprogram i Storbritannien: En fallstudie

vid 2019 överträffa konferensen, Gavin Busuttil-Reynaud från AlphaPlus uppdaterade överträffa samhället om användningen av adaptiva tester inbyggda överträffa för ett storskaligt nationellt testprogram för barn i grundskolan och gymnasiet i Wales. Några av de viktigaste punkterna sammanfattas här, eller så kan du fånga upp presentationen i sin helhet genom att titta på den här videon.

efter att ha infört nationella tester för skolbarn i Wales (Storbritannien) på papper 2013 genomfördes en genomförbarhetsstudie tidigt för att avgöra hur den kunde levereras på skärmen. År 2018 började den fasade övergången av dessa tester till datoranpassade tester, den första var procedurberäkning och följdes av läsning och numerisk resonemang. Detta anses vara revolutionerande med tanke på att pappersbaserad testning fortfarande dominerar globala regeringsprovningsprogram. Tillbaka i 2004, Ken Boston, då chef för Qualifications and Curriculum Authority uppgav att ’bedömning på skärmen snart kommer att beröra livet för varje elev i landet’, med ett av hans mål för de kommande 5 åren är att ’alla nya kvalifikationer skulle innehålla ett alternativ för bedömning på skärmen. Som vi vet, 15 år senare, är detta inte fallet, med många kvalifikationer som fortfarande levereras enbart på papper, vilket gör resultaten av projektet i Wales ännu mer anmärkningsvärda, särskilt för bedömning före 16.

bara under det första året har 268 000 elever satt en personlig bedömning i procedurberäkning som motsvarar 96% av kohorten av elever i år 2-9 i Wales, vilket matchar färdigställandegraden för papperstesterna.

införandet av bedömning på skärmen såg också en betydande minskning av antalet modifierade papper som krävs. År 2018 beställdes över 4000 modifierade papper för detta test som reducerades till bara 357 modifierade stortryck och 12 punktskriftsbedömningar 2019.

bedömningen kan vara självplanerad, vilket ger lärare flexibiliteten att använda den för diagnostiska ändamål när som helst under året. Men under det första året höll många skolor fast vid den traditionella testperioden, även om det är möjligt att denna praxis kommer att förändras i framtiden när lärare blir mer bekanta med dessa tester.

Hur har detta nya sätt att testa mottagits av lärare?

det finns många fördelar med personliga bedömningar i detta scenario, som beskrivs i avsnittet ovan. AlphaPlus har fått positiv feedback från lärare för procedurell numeracy assessment pilot som har varit i fokus för denna fallstudie. En lärarfrågeformulär avslöjade att 78% tyckte att eleverna var förlovade, 83% tyckte att bedömningarna var rätt längd och över 60% tyckte att eleven och feedbackrapporterna var användbara.

men under hans 2019 överträffa konferenspresentation observerade Gavin att det fortfarande finns några hinder att övervinna när tankesättet skiftar från pappersbaserad testning. Med en personlig bedömning slutar algoritmen när den med säkerhet kan ge en förmåga uppskattning, så vissa elever ser fler frågor än andra, vilket inte skulle hända på ett papperstest.

”det finns en del av vår papperskultur som är så djupt rotad att rättvisa handlar om att göra exakt samma för alla människor, även om det är en fruktansvärd passform för några av dessa människor…personaliseringsmeddelandet har inte kommit fram till alla lärare än.”

Gavin Busuttil-Reynaud, AlphaPlus

Dessutom, eftersom en katt är utformad för att utmana elever med hög förmåga, kan kandidater presenteras med frågor från äldre åldersgrupper som de inte formellt har lärt sig. Medan målet med detta är att visa eleverna vad de kan gå vidare till, eller till och med Visa kapacitet utöver deras åldersgrupp, Gavin fortsatte med att observera:

”vissa lärare omfamnar detta … andra tycker att det är hemskt att en elev hade blivit ombedd något de inte kommer att lära sig förrän nästa år och tror att deras undervisning bedöms på något de inte har lärt sig ännu… det finns fortfarande en massiv kulturell resa för alla att fortsätta eftersom dessa tester skiljer sig så mycket från nuvarande praxis, men det primära syftet med allt detta är att ge detaljerad feedback.”

Gavin Busuttil-Reynaud, AlphaPlus

prioriteten för dessa tester är att informera undervisning och lärande med detaljerade rapporter baserade på alla tillgängliga data som är utformade för att hjälpa lärare att identifiera förbättringsområden, och de används inte som en skolansvarsåtgärd. Ingen poäng ges på elevrapporten, bara faktiska uttalanden för att lyfta fram styrkor och svagheter.

läraren är försedd med en färdighetsprofil för sin klass, vilket ger dem en indikation på var de ska fokusera sin undervisning, tillhandahålla tillförlitliga data finns tillgängliga, samt elevens resediagram, som visar vägen de tog genom testet och kan visa mönster för elevens beteende.

Rob Nicholson, rektor för Borras Park Community School vars elever har satt dessa bedömningar kommenterade:

”de personliga bedömningarna kan användas tillsammans med andra former av bedömning som skolor have…it kan användas för att bara stelna poäng och bedömningar och kunskap om barnet.”

Rob Nicholson, rektor för Borras Park Community School

Hur har de personliga bedömningarna mottagits av eleverna?

för detta projekt var teamet medvetna om elevernas unga ålder, och därför anpassades överträffa testföraren för att förenkla gränssnittet och skapa bästa möjliga upplevelse. Testerna kunde levereras på stationära datorer, bärbara datorer eller surfplattor, vilket var viktigt på grund av inkonsekvensen av hårdvara som finns i skolor över hela landet.

barn som lär sig på tabletter

varje kandidat utmanas av de frågor som presenteras för dem, så att de kan visa vad de vet snarare än vad de inte gör, med algoritmen utformad så att eleverna får 50% av artiklarna rätt och 50% fel. För första gången hittade vissa högpresterande frågor de inte kände till, medan de lägre uppnåarna fick förtroende genom att kunna svara på några av frågorna.

”för eleverna i den nedre delen av förmågespektrumet, vanligtvis när de gjorde papperstestet, skulle de få någonstans mellan 90-95% av objekten fel. Vilken otroligt nedslående upplevelse. Men de kommer ut ur detta adaptiva test, jag kunde göra det!… Och de höga flygblad som skulle susa igenom ett papperstest på tio minuter plötsligt nu säga ,’ det var ett svårt test, jag var tvungen att tänka’…åtminstone det gör dem att inse att det finns något annat att gå vidare till.”

Gavin Busuttil-Reynaud, AlphaPlus

eleverna är i allmänhet oförskämda av ett drag till skärmen, som Jenny Jones, biträdande rektor för Borras Park Community School, observerade:

”de är vana vid att arbeta online, de är vana vid att använda sina iPads eller datorerna så att de känner sig säkra på att använda dem. Det är en rolig aktivitet.”

Jenny Jones, biträdande rektor för Borras Park Community School

det har också varit fördelar för de elever med synskada eller tillgänglighetskrav som vanligtvis skulle innebära att de behöver en modifierad version av papperstestet. Den enda verkliga skillnaden är där diagram ingår så en förenklad version eller punktskrift version ingår i ett papper häfte. Tillgänglighetsverktyg som förstoringsglas och skärmläsare innebär att skärmtestet är tillgängligt för så många som möjligt. AlphaPlus har arbetat med synskadade elever och drar slutsatsen att eleverna helhjärtat föredrar onlineversionerna och är oberörda av tillgänglighetsverktyg eftersom det är deras vanliga sätt att arbeta och välkomnar att kunna arbeta på en dator på samma sätt som alla andra.

slutsats

fallstudien av en framgångsrik nationell CAT-implementering i Storbritannien visar att denna typ av testning kan introduceras och kan ha betydande fördelar jämfört med fasta tester, särskilt i en formativ miljö. Kortare, personliga tester med lärandeanpassat innehåll ger större elevernas engagemang och en bättre elevupplevelse. Resultaten bearbetas snabbare, så att de kan ses över med Eleven medan deras bedömning erfarenhet är fortfarande färskt i deras sinne.

psykometriskt giltiga resultat tillsammans med rich-data på varje kandidat ger en större förståelse för vad eleverna kan, och, som används tillsammans med andra indikatorer, kan bättre informera undervisning och lärande och ge bästa möjliga möjligheter till elevprogression.

kommentera arbetet med skolbarn i Wales, Roger Murphy, emeritus Professor i utbildning vid Nottingham University uppgav:

”det är en del av utbildningssystemet i Wales som övervakas mycket noga av många länder runt om i världen.”

Roger Murphy, emeritus Professor i utbildning vid Nottingham University

det bör dock noteras att CAT inte kommer att vara lämpligt i alla scenarier. Katt är begränsad till objektiva frågetyper, vilket begränsar typen av färdigheter som kan testas och den allmänt accepterade uppfattningen är att det är dyrt att producera en katt. Kanske, när bedömningstekniken fortskrider ytterligare, kan funktionalitet som automatisk artikelgenerering mildra några av kostnadsimplikationerna kring att skapa större artikelbanker. I slutändan måste kostnaden för att producera vägas upp mot fördelarna för att avgöra om CAT är rätt väg att gå för ditt testprogram.

om du är intresserad av att lära dig mer om personliga bedömningar i överträffa, vänligen tala med din överträffa Account Manager.