Computer Adaptive Testing: Background, benefits and case study of a large-scale national testing programme

Computer Adaptive Testing (CAT) on kuuma aihe arviointiyhteisön keskuudessa, mutta monista hyödyistään huolimatta sitä ei vielä käytetä kovin laajalti. Tässä artikkelissa, aiomme antaa sinulle yleiskuvan CAT, alas joitakin etuja,ja ilman liikaa jargonia, yleiskatsaus teknologian takana. Auttaaksemme kontekstualisoimaan sen, aiomme viitata äskettäiseen tapaustutkimukseen siitä, miten Cat technology in Surpassia on käytetty tuottamaan innovatiivinen kansallinen henkilökohtainen arviointiohjelma, joka muuttaa kansallisen koulutuksen muotoa.

mikä on tietokoneen Adaptiivinen testi?

yksinkertaistettuna tietokoneavusteinen testi (jota joskus kutsutaan henkilökohtaiseksi arvioinniksi) on testi, joka mukautuu kokelaan kykyyn reaaliaikaisesti valitsemalla erilaisia kysymyksiä pankista, jotta heidän kykytasonsa voidaan mitata tarkemmin yhteisellä asteikolla.

millainen on tietokoneen Adaptiivinen testi kokelaalle?

henkilökohtainen arviointi vetää kysymyksiä suuresta joukosta kohteita, jotka on huolellisesti kalibroitu vaikeustason määrittämiseksi (lisää tästä seuraavassa osassa).

kun kokelas aloittaa kokeensa, hänelle esitetään ensin vuosiryhmäänsä soveltuvaksi katsottu keskivaikeus. Jos he saavat kysymyksen oikein, seuraava kohde on hieman vaikeampi, jos he ymmärtävät sen väärin, he näkevät hieman helpomman kohteen. Järjestelmä laskee jatkuvasti kokelaan arvioitua kykyä sen mukaan, mitä hän saa oikein ja väärin, ja esittää hänelle yksilöllisen joukon kohteita, kunnes kykyarvion luottamustaso on ylittänyt ennalta määritellyn tason (tai kysymysten enimmäismäärä on esitetty) ja testi päättyy. Koska jokainen oppija kulkee eri polkua kokeen läpi eri kysymyssarjalla, hän voi mahdollisesti saada eripituisia testejä.

toisin kuin lineaarisessa kokeessa, joka joissakin skenaarioissa antaa vain hyödyllisiä tuloksia keskivertoopiskelijoille, ja henkilökohtaisella arvioinnilla kaikki kokelaalle esitetyt asiat on suunniteltu haastaviksi; kyvykkäille hakijoille esitettävien helppojen kysymysten määrä vähenee, samoin heikkokuntoisille hakijoille esitettävien vaikeiden kysymysten määrä vähenee, koska kumpikaan ei anna selvää kuvaa näiden oppijoiden kyvykkyydestä.

koska kaikki pisteytetään reaaliaikaisesti, kokeen lopussa kokelas voi saada välitöntä palautetta kyvykkyyslausuntojen muodossa vastaamiensa kysymysten perusteella.

miten tietokoneen Adaptiivinen testi toimii Surpassissa?

toimiakseen kissa tarvitsee luotettavaa tietoa ja kattavan kohdepankin, jonka sisällön kattavuus ja vaikeustaso ovat hyvin jakautuneet. Tämä tarkoittaa sitä, että kohdepankki on ensin kalibroitava esitestauksella. Tämä on yksi tärkeimmistä esteistä CAT suurempana kohde pankki ja laaja työ on tarpeen saada luotettavia tietoja ennen live testit voidaan toimittaa. Yleissääntö on, että kohde on altistettava vähintään 200 kertaa, ennen kuin luotettavaa tietoa voidaan tuottaa. Tätä altistumistietoa käyttäen Erävasteteoriaa (Item Response Theory, IRT) käytetään sitten IRT-parametrien laskemiseen pankin jokaiselle erälle. Näitä IRT-parametreja ovat kohteen vaikeus ja kohteen syrjintä, ts. tekijä, joka määrittää, kuinka paljon kasvu kyky ehdokas on todennäköisyys, että he saavat, että kohde oikein. In Surpass, nämä arvot on liitetty kohteita kuin tunnisteet.

luodaan testi ”blueprint”, joka määrittää esimerkiksi testin sisällön kattavuuden. Monia muita parametreja voidaan myös määrittää, mukaan lukien, minimi ja enimmäismäärä kohteita esittää ja pysäytysolosuhteet. Luodaan kohde-allas, joka sisältää kaikki kohteet, jotka voivat näkyä testissä.

siinä missä lineaarisessa testissä järjestelmä tietää, mitkä kohteet toimitetaan ennen testin alkua, adaptiivisessa testissä algoritmi valitsee seuraavan kohteen reaaliajassa siinä vaiheessa, kun kokelas napsauttaa testikuljettajan ”Seuraava” – painiketta. Algoritmi toimii suunnitelman mukaisesti varmistaakseen hyvän kattavuuden kaikilla sisältöalueilla ja kontrolloi kohde-altistusta koko pankissa (niin, että joitakin kohteita ei esitetä useammin kuin toisia), eli koko kohde-pankkia käytetään tehokkaimmin. Algoritmi pystyy tukemaan jopa kolmea IRT-parametria-vaikeutta, syrjintää ja arvailua.

in Surpass, kaikki tämä nokkela logiikka tapahtuu vain 300 millisekunnissa siitä, kun oppija valitsee ”seuraavan” siirtyäkseen seuraavaan kysymykseen, mikä tarkoittaa, ettei kokelaalle tule koskaan viivettä. Algoritmi jatkuu, kunnes ehdokkaan kyky on arvioitu vaadittavalle tarkkuustasolle.

Surpass-tiimi on tehnyt kovasti töitä varmistaakseen, että järjestelmä pystyy käsittelemään näitä suuria tietomääriä vaikuttamatta suorituskykyyn. Käytössä on ollut Microsoft Azure-sovelluksia, jotka ovat automaattisesti skaalautuvia riippuen ennakoiduista määristä, ja läpimenokyky (pyyntöjen määrä sekunnissa) on testattu paljon suuremmilla määrillä kuin mitä tällä hetkellä toimitetaan.

yksi tärkeimmistä eduista adaptiivisen arvioinnin toimitetaan Surpass on, että ei vain voit hyödyntää standardin raportointitoiminnon, mutta mittatilaustyönä raportteja voidaan määritellä ja tuottaa kautta Surpass API, hyödyntäen kaikki rikkaat tiedot, jotka on tuotettu adaptiivisen testin. Raporteissa voidaan esittää yksittäisiä hakijamatkoja koko testin ajan sekä raportoida ryhmä – tai luokkatasolla tai jopa kansallisella tasolla.

mitä hyötyä CAT-testistä on paperipohjaiseen testaukseen verrattuna?

CAT: lle on lukuisia etuja verrattuna paperipohjaiseen testaukseen formatiivista arviointia varten (edellyttäen, että kohdepankki on kalibroitu oikein), mukaan lukien:

tarkat tiedot kaikista kyvykkäistä hakijoista

perinteiset lineaariset testit, joissa kaikki hakijat saavat saman sarjan kohteita, haastavat vain keskimmäisen kolmanneksen oppijoista. Kissa on suunniteltu haastamaan kaikentasoiset oppijat, antaen tarkan ja hyödyllisen kuvan heikommasta kyvystä kaikille.

opettajien työtaakan väheneminen

monet kouluasteen kokeet toimitetaan edelleen paperilla, mikä aiheuttaa opettajille merkittävää työmäärää tulosten merkitsemisen ja hallinnoinnin kanssa. Välitön pisteytys ja tarkka oppilaskohtainen palaute antavat opettajille enemmän aikaa keskittyä opetukseen ja palautteen toteuttamiseen, jotta oppilaat voivat edistyä.

Tilattavuuspotentiaali

yksilöllisen näytön avulla paperitestausikkunan sisällä toimittamista ei rajoiteta, joten ne voidaan toimittaa diagnostisiin tarkoituksiin missä tahansa vaiheessa vuotta, kun opettaja katsoo sen sopivaksi. Koska jokainen oppija saa yksilöllisen kokeen, kohortin ei tarvitse istua testiä täsmälleen samaan aikaan.

tarkempi palaute, joka voidaan antaa välittömästi

tarkempi palaute voidaan antaa heti kokeen jälkeen pätevyysperusteisina kyvykkyyslausuntoina pisteytyksen sijaan. Tämä osoittaa ehdokasalueille, että ne ovat menestyneet hyvin, ja alueilla, joita niiden on ehkä parannettava. Tällainen palaute on hyödyllisempää kehittävässä arvioinnissa, joka osoittaa oppijoille, että on olemassa alueita, joilla on edistyttävä, tai rakentavassa ohjeistuksessa siitä, missä voidaan parantaa. Opettajat voivat myös nähdä luokan kokonaissuorituksen, mikä osoittaa alueet, joihin heidän on ehkä keskityttävä opetuksessaan.

oppijan sitoutuminen

kysymyksillä, jotka haastavat kaikenkuntoisia oppijoita, oppijan sitoutuminen koko kokeen ajan säilyy paremmin. Heikosti menestyviä kannustetaan ja hyvin menestyviä haastetaan. Adaptiivisten arviointien suorittamiseen voi myös kulua vähemmän aikaa kuin perinteisessä lineaarisessa testissä, jossa tarkka kyvykkyysmittaus saavutetaan lyhyemmässä ajassa.

CAT: n käyttö laajamittaisessa kansallisessa testausohjelmassa Yhdistyneessä kuningaskunnassa: Tapaustutkimus

vuoden 2019 Surpass-konferenssissa Gavin Busuttil-Reynaud Alphaplusista päivitti Surpass-yhteisöä Surpassiin rakennettujen adaptiivisten testien käytöstä Walesin ala-ja yläkoululaisten laajamittaista kansallista testausohjelmaa varten. Joitakin keskeisiä kohtia on tiivistetty täällä, tai voit kiinni esityksen kokonaisuudessaan katsomalla tämän videon.

sen jälkeen, kun Walesin (UK) koululaisille oli otettu käyttöön kansallinen testaus paperilla vuonna 2013, toteutettavuustutkimus tehtiin varhaisessa vaiheessa sen määrittämiseksi, miten se voitaisiin toimittaa näytöllä. Vuonna 2018 alkoi näiden testien vaiheittainen siirtyminen tietokoneavusteisiksi testeiksi, joista ensimmäinen oli procedural numeracy, ja sitä seurasivat lukeminen ja numeerinen päättely. Tätä pidetään vallankumouksellisena ottaen huomioon, että paperipohjainen testaus hallitsee edelleen globaaleja hallituksen testausohjelmia. Vuonna 2004 Ken Boston, joka oli tuolloin tutkintojen ja opetussuunnitelmien viranomaisen johtaja, totesi, että ”näytön arviointi koskettaa pian maan jokaisen oppijan elämää”, ja yksi hänen tavoitteistaan seuraavien 5 vuoden aikana on, että ” kaikkiin uusiin tutkintoihin sisältyisi mahdollisuus näytön arviointiin.”Kuten tiedämme, 15 vuotta myöhemmin näin ei ole, ja monet tutkinnot toimitetaan edelleen pelkästään paperilla, mikä tekee hankkeen saavutuksista Walesissa vieläkin merkittävämpiä erityisesti ennen 16.päivää tehdyn arvioinnin osalta.

pelkästään ensimmäisenä vuonna 268 000 opiskelijaa on suorittanut yksilöllisen laskutaidon arvioinnin, joka vastaa 96: ta prosenttia Walesin 2-9-vuotiaiden opiskelijoiden kohortista, mikä vastaa paperisten kokeiden suorittamisastetta.

valkokankaalla tehtävän arvioinnin käyttöönoton myötä myös muutettujen papereiden määrä väheni merkittävästi. Vuonna 2018 tätä testiä varten tilattiin yli 4 000 muokattua paperia, jotka vähennettiin vain 357 muokattuun suurpainettuun ja 12 pistekirjoitusarvioon vuonna 2019.

arviointi voi olla itse ajoitettu, jolloin opettajat voivat joustavasti käyttää sitä diagnostisiin tarkoituksiin missä tahansa vaiheessa vuotta. Ensimmäisen vuoden aikana monet koulut pitivät kuitenkin kiinni perinteisestä lukukauden lopun testijaksosta, vaikka on mahdollista, että tämä käytäntö muuttuu tulevaisuudessa opettajien tutustuessa näihin testeihin.

miten opettajat ovat ottaneet tämän uuden testaustavan vastaan?

tässä skenaariossa yksilöidyistä arvioinneista on monia etuja, kuten edellä olevassa jaksossa esitetään. AlphaPlus on saanut opettajilta myönteistä palautetta procedural numeracy assessment-pilotista, joka on ollut tämän tapaustutkimuksen keskiössä. Opettajakyselystä kävi ilmi, että 78% piti oppijoita sitoutuneina, 83% piti arviointeja oikean pituisina ja yli 60% piti oppijaa ja palautteita hyödyllisinä.

vuoden 2019 Surpass-Konferenssiesityksessään Gavin kuitenkin totesi, että joitakin esteitä on vielä voitettavana ajatusmaailman siirtyessä paperipohjaisesta testaamisesta. Henkilökohtaisella arvioinnilla algoritmi pysähtyy, kun se voi luottavaisesti antaa kykyarvion, joten jotkut oppijat näkevät enemmän kysymyksiä kuin toiset, mikä ei tapahtuisi paperisessa kokeessa.

”osa paperikulttuuristamme on niin syvälle juurtunutta, että reiluudessa on kyse siitä, että tehdään kaikille ihmisille täsmälleen sama, vaikka se osalle sopisi hirveästi…personointiviesti ei ole vielä mennyt perille kaikille opettajille.”

Gavin Busuttil-Reynaud, AlphaPlus

Lisäksi, koska kissa on suunniteltu haastamaan kyvykkäät oppijat, ehdokkaille voidaan esittää vanhempien ikäryhmien kysymyksiä, joita heille ei ole virallisesti opetettu. Vaikka tämän tavoitteena on näyttää oppijoille, mihin he voivat siirtyä, tai jopa osoittaa kykyjä yli ikäluokkansa, Gavin jatkoi havainnoimalla:

”jotkut opettajat omaksuvat tämän… toisten mielestä on kamalaa, että oppijalta on kysytty jotain, mitä heille opetetaan vasta ensi vuonna, ja he ajattelevat, että heidän opetustaan arvostellaan sen perusteella, mitä heille ei ole vielä opetettu… on vielä valtava kulttuurimatka, jota jokainen voi jatkaa, koska nämä testit poikkeavat niin paljon nykyisestä käytännöstä, mutta kaiken tämän ensisijainen tarkoitus on antaa yksityiskohtaista palautetta.”

Gavin Busuttil-Reynaud, AlphaPlus

näiden testien ensisijaisena tavoitteena on informoida opetusta ja oppimista yksityiskohtaisilla raporteilla, jotka perustuvat kaikkeen käytettävissä olevaan tietoon ja joiden tarkoituksena on auttaa opettajia tunnistamaan parannettavia alueita, eikä niitä käytetä koulujen vastuullisuuden mittarina. Oppijan raportista ei anneta pisteitä, vain faktalausuntoja vahvuuksien ja heikkouksien korostamiseksi.

opettajalle annetaan heidän luokalleen osaamisprofiili, josta ilmenee, mihin he voivat keskittää opetuksensa, josta on saatavilla luotettavaa tietoa, sekä oppijan matkakaaviot, joista käy ilmi, millaisen polun hän on suorittanut kokeessa, ja joista voi ilmetä oppijan käyttäytymismalleja.

Rob Nicholson, Borras Park Community Schoolin rehtori, jonka oppilaat ovat saaneet nämä arviot:

”yksilöllisiä arviointeja voidaan käyttää koulujen muiden arviointimuotojen rinnalla have…it voidaan vain jähmettää pisteet ja arviot ja lapsen tuntemus.”

Rob Nicholson, Borras Parkin yhteiskoulun rehtori

miten oppijat ovat ottaneet yksilölliset arviot vastaan?

tätä projektia varten työryhmä otti huomioon oppijoiden nuoren iän, ja niinpä Surprass-testikuljettaja räätälöitiin yksinkertaistamaan käyttöliittymää ja luomaan paras mahdollinen kokemus. Testit voitiin suorittaa pöytätietokoneilla, kannettavilla tietokoneilla tai tablettilaitteilla, mikä oli tärkeää kouluissa eri puolilla maata olevien laitteiden epäjohdonmukaisuuden vuoksi.

lapset oppivat tableteilla

jokainen ehdokas haastetaan kysymykset esitetään heille, jotta he voivat osoittaa, mitä he tietävät sen sijaan, mitä he eivät, kanssa algoritmi suunniteltu niin oppijat saavat 50% kohteita oikein, ja 50% väärin. Ensimmäistä kertaa jotkut menestyjät löysivät kysymyksiä, joita he eivät tunteneet, kun taas heikommin menestyneet saivat itseluottamusta osaamalla vastata joihinkin kysymyksiin.

”oppijoille, jotka ovat kyvykkyyspektrin alapäässä, tyypillisesti paperikoetta tehdessään he saivat jostain 90-95 prosenttia asioista väärin. Uskomattoman masentava kokemus. Mutta jos he selviävät tästä adaptiivisesta testistä, voisin tehdä sen!… Ja korkeat lehtiset, jotka suhahtaisivat läpi paperikokeessa kymmenessä minuutissa, sanovat yhtäkkiä: ”se oli vaikea testi, minun oli ajateltava” …ainakin se saa heidät tajuamaan, että on jotain muuta, mihin siirtyä.”

Gavin Busuttil-Reynaud, AlphaPlus

oppijoita ei yleensä häiritse siirtyminen näytölle, kuten Jenny Jones, Borras Parkin Yhteiskoulun Apulaisrehtori, huomautti:

”he ovat tottuneet työskentelemään verkossa, he ovat tottuneet käyttämään ipadejaan tai tietokoneitaan, joten he tuntevat olonsa luottavaiseksi niiden käytössä. Se on hauskaa puuhaa.”

Jenny Jones, Borras Park Community Schoolin Apulaisrehtori

myös näkövammaisille tai esteettömyysvaatimuksista kärsiville oppilaille on ollut hyötyä siitä, että he yleensä vaativat muokatun version paperikokeesta. Ainoa todellinen ero on siinä, missä kaaviot ovat mukana, joten yksinkertaistettu versio tai pistekirjoitettu versio sisältyy paperivihkoon. Saavutettavuustyökalut, kuten suurennuslasi ja ruudunlukija, tarkoittavat sitä, että näyttötestiin pääsee mahdollisimman moni. AlphaPlus on työskennellyt näkövammaisten oppilaiden kanssa ja tullut siihen tulokseen, että oppijat ”pitävät täysin enemmän verkkoversioista” ja että esteettömyystyökalut eivät häiritse heitä, koska se on heidän tavanomainen työskentelytapansa, ja on hyvä, että he voivat työskennellä tietokoneella samalla tavalla kuin kaikki muutkin.

johtopäätös

tapaustutkimus menestyksellisestä kansallisesta CAT-toteutuksesta Yhdistyneessä kuningaskunnassa osoittaa, että tämäntyyppisiä testejä voidaan ottaa käyttöön ja että niistä voi olla merkittävää hyötyä kiinteisiin testeihin verrattuna, erityisesti kehittyvissä olosuhteissa. Lyhyemmät, yksilölliset kokeet, joissa on oppilaalle sopiva sisältö, antavat oppijalle suuremman sitoutumisen ja paremman oppijakokemuksen. Tulokset käsitellään nopeammin, joten ne voidaan tarkistaa oppijan kanssa samalla, kun arviointikokemus on vielä tuoreessa mielessä.

Psykometrisesti päteviä tuloksia ja runsaasti tietoa jokaisesta hakijasta antaa paremman käsityksen siitä, mihin oppijat pystyvät, ja yhdessä muiden indikaattoreiden kanssa ne voivat paremmin informoida opetusta ja oppimista ja antaa parhaat mahdolliset mahdollisuudet oppijan etenemiseen.

kommentoidessaan Walesin koululaisten kanssa tehtävää työtä Nottinghamin yliopiston kasvatustieteen emeritusprofessori Roger Murphy totesi:

”se on Walesin koulutusjärjestelmän ominaisuus, jota seurataan hyvin tarkasti monissa maissa ympäri maailmaa.”

Roger Murphy, Nottinghamin yliopiston kasvatustieteen emeritusprofessori

, on kuitenkin huomattava, että CAT ei tule soveltumaan kaikkiin skenaarioihin. Kissa on rajattu objektiivisiin kysymystyyppeihin, mikä rajoittaa testattavia taitoja ja yleisesti hyväksytty näkemys on, että kissan tuottaminen on kallista. Ehkä arviointitekniikan edistyessä entisestään toiminnallisuus, kuten automaattinen kappaletuotanto, voisi lieventää joitakin kustannusvaikutuksia suurempien kappalepankkien luomisen ympärillä. Viime kädessä tuotantokustannuksia on punnittava hyötyihin nähden sen määrittämiseksi, onko kissa oikea tapa edetä testausohjelmaasi.

jos olet kiinnostunut oppimaan lisää henkilökohtaisista arvioinneista Surpass-palvelussa, ota yhteyttä Surpass-asiakkuuspäällikköösi.