Computer Adaptive Testing: Bakgrunn, fordeler og case study av et stort nasjonalt testprogram

Computer Adaptive Testing (CAT) er et hett tema blant vurderingssamfunnet, men til tross for sine mange fordeler, er Det fortsatt ikke veldig mye brukt. I denne artikkelen skal vi gi deg en oversikt OVER CAT, en oversikt over noen av fordelene, og uten for mye sjargong, en oversikt over teknologien bak DEN. For å bidra til å kontekstualisere det, skal vi referere til en nylig casestudie av HVORDAN CAT-teknologien I Overgå har blitt brukt til å levere et innovativt nasjonalt personlig vurderingsprogram som endrer formen på nasjonal utdanning.

Hva Er En Datamaskin Adaptiv Test?

Enkelt Sagt, En Datamaskin Adaptiv Test (noen ganger referert til som personlig vurdering) er en test som tilpasser seg kandidatens evne i sanntid ved å velge ulike spørsmål fra banken for å gi en mer nøyaktig måling av deres evne nivå på en felles skala.

hva er En Datamaskin Adaptiv Test som for en kandidat?

en personlig vurdering trekker spørsmål fra et stort utvalg av elementer som er nøye kalibrert for å bestemme deres vanskelighetsgrad (mer om dette i neste avsnitt).

når en kandidat begynner sin test, blir de først presentert med et element av middels vanskelighetsgrad som anses passende for deres årsgruppe. Hvis de får det spørsmålet riktig, neste element de ser vil være litt vanskeligere, hvis de får det galt, vil de se en litt enklere element. Systemet beregner kontinuerlig kandidatens estimerte evne avhengig av hva de får rett og galt, og presenterer dem med et personlig sett med elementer til nivået av tillit til evnestimatet har overskredet et forhåndsdefinert nivå (eller maksimalt antall spørsmål er presentert) og testen avsluttes. Som hver elev tar en annen vei gjennom testen, med et annet sett med spørsmål, kan de potensielt motta tester av en annen lengde.

i motsetning til en lineær test som i noen scenarier bare gir nyttige resultater for elever med gjennomsnittlig evne, med en personlig vurdering, er alle elementene som presenteres for kandidaten designet for å være utfordrende; antall enkle elementer som presenteres for kandidater med høy evne reduseres, og det er antall vanskelige spørsmål til kandidater med lav evne, da ingen av dem gir en klar indikasjon på evnen til de elevene.

da alt blir scoret i sanntid, kan kandidaten på slutten av testen få umiddelbar tilbakemelding i form av evneuttalelser i motsetning til en rå score eller karakter, som gir faktainformasjon om deres styrker og svakheter basert på spørsmålene de besvarte.

hvordan fungerer En Datamaskin Adaptiv Test I Overgå?

FOR AT EN KATT skal fungere, trenger DEN pålitelige data og en omfattende varebank med god spredning av innholdsdekning og vanskelighetsgrad. Dette betyr at varebanken først må kalibreres gjennom forhåndstesting. DETTE er en av de viktigste hindringene FOR CAT som en større varebank, og det kreves omfattende arbeid for å få pålitelige data før noen live tester kan leveres. Den generelle regelen er at en vare må eksponeres minst 200 ganger før pålitelige data kan genereres. Ved hjelp av disse eksponeringsdataene brukes Item Response Theory (Irt) til å beregne irt-parametere for hver av elementene i banken. DISSE irt-parametrene inkluderer varens vanskelighet og diskriminering av varen, dvs. faktoren som bestemmer hvor mye en økning i evnen til en kandidat vil ha på sannsynligheten for at de får det elementet riktig. I Overgå er disse verdiene knyttet til elementene som koder.

en test ‘blåkopi’ genereres som bestemmer faktorer som innholdsdekning av testen. Mange flere parametere kan også angis, inkludert, minimum og maksimum antall elementer for å presentere og stoppe forhold. Det opprettes et vareutvalg som inneholder alle elementene som kan vises i testen.

mens systemet med en lineær test vet hvilke elementer som skal leveres før testen starter, med en adaptiv test velger en algoritme neste element i sanntid, når kandidaten klikker på ‘neste’ – knappen i testføreren. Algoritmen arbeider til blåkopi for å sikre god dekning av alle innholdsområder og kontrollerer element eksponering over hele banken som helhet (slik at noen elementer ikke blir presentert oftere enn andre), noe som betyr at hele elementet banken er mest effektivt brukt. Algoritmen er i stand til å støtte opptil tre IRT-parametere-vanskeligheter, diskriminering og gjetting.

I Overgå skjer all denne smarte logikken på bare 300 millisekunder av eleven som velger ‘Neste’ for å gå til neste spørsmål, noe som betyr at det aldri er en forsinkelse for kandidaten. Algoritmen fortsetter til kandidatens evne er estimert til ønsket nivå av nøyaktighet.

Overgå-teamet har jobbet hardt for å sikre at systemet kan håndtere disse store datamengdene uten å påvirke ytelsen. Microsoft Azure-apper har blitt brukt som automatisk kan skaleres avhengig av forventede volumer, og gjennomstrømning (antall forespørsler per sekund) har blitt testet med volumer som er mye høyere enn de som leveres for øyeblikket.

en av de viktigste fordelene med adaptiv vurdering levert Gjennom Overgå er at ikke bare kan du gjøre bruk av standard rapportering funksjonalitet, men skreddersydde rapporter kan defineres og genereres via Overgå API, gjør bruk av alle de rike data som er produsert fra en adaptiv test. Rapporter kan vise individuelle kandidatreiser gjennom hele testen, samt rapportering på en gruppe eller klasse eller til og med nasjonalt nivå også.

HVA er FORDELENE MED CAT over papirbasert testing?

DET er mange fordeler MED CAT over papirbasert testing for formativ vurdering (forutsatt at elementbanken er riktig kalibrert), inkludert:

Presis informasjon for kandidater med alle evner

Tradisjonelle lineære tester, hvor alle kandidater får samme sett med elementer, bare noen gang virkelig utfordre den midterste tredjedel av elevene. EN KATT er designet for å utfordre elever på alle ferdighetsnivåer, og gir et nøyaktig og nyttig bilde av slankere evne for alle.

Nedgang i lærerarbeidsbelastning

Mange tester på skolenivå leveres fortsatt på papir, noe som gir betydelig arbeidsbelastning for lærere med merking og administrasjon av resultater. Umiddelbar scoring og nøyaktig elevspesifikk tilbakemelding gir lærerne mer tid til å fokusere på undervisning, og implementere tilbakemelding for å hjelpe elevene til å utvikle seg.

potensial for on-demand

med en personlig vurdering på skjermen er det ingen begrensninger for å levere i papirtestvinduet, noe som betyr at de kan leveres til diagnostiske formål når som helst gjennom året når læreren føler at det passer. Som hver elev mottar en personlig test, er det ikke nødvendig for kohorten å alle sitte testen på nøyaktig samme tid.

mer nøyaktig tilbakemelding som kan gjøres umiddelbart

Mer nøyaktig tilbakemelding kan gis umiddelbart etter testen i form av kompetansebaserte evneuttalelser i stedet for en poengsum. Dette indikerer kandidatområdene de har gjort det bra på, og områder de kanskje trenger å forbedre. Denne typen tilbakemelding er mer nyttig i formativ vurdering, og viser til elevene at det er områder å gå videre til, eller konstruktiv veiledning om hvor du kan forbedre. Lærere kan også se resultatene av en klasse som helhet, noe som indikerer områder de kan trenge å fokusere sin undervisning på.

elevengasjement

med spørsmål som utfordrer elever med alle evner, er elevengasjement gjennom hele testen bedre vedlikeholdt. Lavpresterende oppfordres, og høypresterende utfordres. Adaptive vurderinger kan også ta mindre tid å fullføre enn en tradisjonell lineær test, med en nøyaktig evnemåling nådd på kortere tid.

Bruke CAT til et stort nasjonalt testprogram I STORBRITANNIA: En Casestudie

På 2019 Overgå Konferansen, gavin Busuttil-Reynaud fra AlphaPlus oppdatert Overgå Samfunnet på bruk av adaptive tester bygget I Overgå For et stort nasjonalt testprogram for barn i grunnskole og videregående skole I Wales. Noen av de viktigste punktene er oppsummert her, eller du kan ta opp presentasjonen i sin helhet ved å se denne videoen.

etter å ha introdusert nasjonal testing for skolebarn i Wales (UK) på papir i 2013, ble det gjennomført en mulighetsstudie tidlig for å avgjøre hvordan den kunne leveres på skjermen. I 2018 begynte den fasede overgangen av disse testene til datamaskin adaptive tester, den første var prosessuell tallforståelse, og å bli etterfulgt av lesing og numerisk resonnement. Dette regnes som revolusjonerende med tanke på at papirbasert testing fortsatt dominerer globale regjeringstestprogrammer. Tilbake i 2004, ken Boston, deretter leder Av Kvalifikasjoner Og Pensum Authority uttalt at ‘på skjermen vurdering vil snart berøre livene til hver elev i landet’, med en av hans mål for de neste 5 årene er at ‘ alle nye kvalifikasjoner vil inkludere et alternativ for på skjermen vurdering. Som vi vet, 15 år på, er dette ikke tilfelle, med mange kvalifikasjoner fortsatt levert utelukkende på papir, noe som gjør prestasjonene av prosjektet i Wales enda mer bemerkelsesverdig, spesielt for pre-16 vurdering.

bare i det første året har 268 000 elever satt en personlig vurdering i prosedyremessig regning som tilsvarer 96% av kohorten av elever i år 2-9 I Wales, som samsvarer med ferdigstillingsgraden av papirtestene.

innføringen av skjermvurdering så også en betydelig reduksjon i antall modifiserte papirer som kreves. I 2018 ble over 4000 modifiserte papirer bestilt for denne testen, som ble redusert til bare 357 modifiserte stor skrift og 12 blindeskriftvurderinger i 2019.

vurderingen kan være selvplanlagt, noe som gir lærerne fleksibilitet til å bruke den til diagnostiske formål når som helst i året. Men i det første året, mange skoler fast til den tradisjonelle slutten av begrepet testing periode, selv om det er mulig at denne praksisen vil endre seg i fremtiden som lærere blir mer kjent med disse testene.

Hvordan har denne nye måten å teste på blitt mottatt av lærere?

det er mange fordeler med personlige vurderinger i dette scenariet, som beskrevet i avsnittet ovenfor. AlphaPlus har fått positive tilbakemeldinger fra lærere for prosessuelle numeracy assessment pilot som har vært fokus for denne case-studien. Et spørreskjema for lærere viste at 78% trodde at elevene var engasjert, 83% trodde vurderingene var riktig lengde, og over 60% fant at elev-og tilbakemeldingsrapportene var nyttige.

Gavin observerte imidlertid i løpet av Sin 2019 Overgå Konferansepresentasjon at Det fortsatt er noen barrierer å overvinne når tankegangen skifter fra papirbasert testing. Med en personlig vurdering stopper algoritmen når den trygt kan gi et evneestimat, slik at noen elever ser flere spørsmål enn andre, noe som ikke ville skje på en papirtest.

«det er en del av papirkulturen vår som er så dypt innblandet at rettferdighet handler om å gjøre akkurat det samme for alle mennesker, selv om det er en forferdelig passform for noen av disse menneskene…»

Gavin Busuttil-Reynaud, AlphaPlus

I Tillegg, Siden EN KATT er designet for å utfordre høy evne elever, kandidater kan bli presentert med spørsmål fra eldre aldersgrupper som de ikke har blitt formelt undervist. Mens målet med dette er å vise elevene hva de kan gå videre til, eller demonstrere evner utover deres aldersgruppe, Gavin gikk på å observere:

«noen lærere omfavner dette… andre synes det er forferdelig at en elev hadde blitt spurt om noe de ikke vil bli undervist til neste år, og tror at deres undervisning blir dømt på noe de ikke har blitt lært ennå… Det er fortsatt en massiv kulturell reise for alle å fortsette fordi disse testene er så forskjellige fra dagens praksis, men hovedformålet med alt dette er å gi noen detaljerte tilbakemeldinger.»

Gavin Busuttil-Reynaud, AlphaPlus

prioriteten av disse testene er å informere undervisning og læring med detaljerte rapporter basert på alle tilgjengelige data som er utformet for å hjelpe lærere med å identifisere områder for forbedring, og de brukes ikke som en skole ansvarlighet tiltak. Ingen score er gitt på elevrapporten, bare faktuelle uttalelser for å markere styrker og svakheter.

læreren er utstyrt med en ferdighetsprofil for sin klasse, noe som gir dem en indikasjon på hvor de skal fokusere sin undervisning, og gir pålitelige data er tilgjengelig, samt elevreisediagrammer, som viser banen de tok gjennom testen og kan vise mønstre av elevadferd.

Rob Nicholson, Rektor Ved Borras Park Community School hvis elever har satt disse vurderingene kommentert:

«de personlige vurderingene kan brukes sammen med andre former for vurdering som skolene have…it kan brukes til å bare stivne score og vurderinger og kunnskap om barnet.»

Rob Nicholson, Rektor Ved Borras Park Community School

Hvordan har de personlige vurderingene blitt mottatt av elevene?

for dette prosjektet var teamet oppmerksom på elevenes unge alder, og Derfor ble Testføreren Overgå tilpasset for å forenkle grensesnittet og skape en best mulig opplevelse. Testene kunne leveres på stasjonære datamaskiner, bærbare datamaskiner eller nettbrett, noe som var viktig på grunn av inkonsekvensen av maskinvare tilgjengelig i skoler over hele landet.

Barn lærer på tabletter

hver kandidat utfordres av spørsmålene som presenteres for dem, slik at de kan demonstrere hva de vet i stedet for hva de ikke gjør, med algoritmen utformet slik at elevene får 50% av elementene riktig og 50% feil. For første gang fant noen høye achievers spørsmål de ikke var kjent med, mens de lavere achievers fikk tillit ved å kunne svare på noen av spørsmålene.

«for elevene i den nedre enden av evnespekteret, vanligvis når de gjorde papirtesten, ville de få et sted mellom 90-95% av elementene feil. Hva en utrolig nedslående opplevelse. Men de kommer ut av denne adaptive testen, jeg kunne gjøre det!… Og de høye flyers som ville suse gjennom en papir test i ti minutter plutselig nå si, ‘det var en vanskelig test, jeg måtte tenke’… minst det gjør dem innse at det er noe annet å gå videre til.»

Gavin Busuttil-Reynaud, AlphaPlus

Elever er generelt uberørt av et trekk til skjermen, som Jenny Jones, Nestleder For Borras Park Community School, observert:

«De er vant til å jobbe online, de er vant til å bruke sine iPads eller datamaskinene, slik at de føler seg trygge på å bruke dem. Det er en morsom aktivitet.»

Jenny Jones, Nestleder For Borras Park Community School

Det har også vært fordeler for de elevene med synshemming eller tilgjengelighetskrav som vanligvis betyr at de krever en modifisert versjon av papirtesten. Den eneste virkelige forskjellen er hvor diagrammer er inkludert, så en forenklet versjon eller punktskriftversjon er inkludert i et papirhefte. Tilgjengelighetsverktøy som forstørrelsesglass og skjermleser betyr at skjermtesten er tilgjengelig for så mange som mulig. AlphaPlus har jobbet med synshemmede elever og konkluderer med at elever helhjertet foretrekker nettversjonene og er uberørt av tilgjengelighetsverktøy som det er deres vanlige måte å jobbe på, og velkommen til å kunne jobbe på en datamaskin som alle andre.

Konklusjon

casestudien av en vellykket nasjonal CAT-implementering i STORBRITANNIA viser at denne typen testing kan innføres, og kan ha betydelige fordeler over faste tester, spesielt i formative omgivelser. Kortere, tilpassede tester med elevtilpasset innhold gir større elevengasjement og en bedre elevopplevelse. Resultatene behandles raskere, slik at de kan gjennomgås med eleven mens deres vurderingserfaring fortsatt er frisk i tankene.

Psykometrisk gyldige resultater sammen med rik-data på hver kandidat gir en større forståelse av hva elevene er i stand til, og brukes sammen med andre indikatorer, kan bedre informere undervisning og læring og gi best mulig muligheter for elevprogresjon.

Kommenterer arbeidet med skolebarn I Wales, Uttalte Roger Murphy, Emeritus Professor I Utdanning Ved Nottingham University:

«det er en funksjon av utdanningssystemet I Wales som blir overvåket svært nøye av mange land over hele verden.»

Roger Murphy, Emeritus Professor I Utdanning Ved Nottingham University

DET skal imidlertid bemerkes AT CAT ikke kommer til å være hensiktsmessig i alle scenarier. KATT er begrenset til objektive spørsmålstyper, og begrenser typen ferdigheter som kan testes, og den allment aksepterte oppfatningen er at det er dyrt å produsere EN KATT. Kanskje, som vurderingsteknologi utvikler seg enda lenger, kan funksjonalitet som automatisk varegenerering redusere noen av kostnadsimplikasjonene rundt å skape større varebanker. Til syvende og sist må kostnaden for å produsere veies opp mot fordelene for å avgjøre om CAT er den riktige veien å gå for testprogrammet ditt.

hvis du er interessert i å lære mer om personlige vurderinger i Overgå, kan du snakke med Din Overgå Account Manager.