számítógépes adaptív tesztelés: a nagyszabású nemzeti Tesztelési Program háttere, előnyei és esettanulmánya

BY admin

| augusztus 17, 2021

a számítógépes adaptív tesztelés (CAT) forró téma az értékelő közösség körében, azonban számos előnye ellenére még mindig nem túl széles körben használják. Ebben a cikkben áttekintést adunk a CAT-ról, néhány előny leromlásáról, és túl sok zsargon nélkül áttekintést adunk a mögötte álló technológiáról. Annak érdekében, hogy kontextusba helyezzük, hivatkozni fogunk egy nemrégiben készült esettanulmányra arról, hogy a Cat technológiát hogyan használták fel egy innovatív nemzeti személyre szabott értékelési program megvalósítására, amely megváltoztatja a nemzeti oktatás alakját.

mi a számítógépes adaptív teszt?

egyszerűen fogalmazva, a számítógépes adaptív teszt (néha személyre szabott értékelésnek nevezik) olyan teszt, amely valós időben alkalmazkodik a jelölt képességeihez azáltal, hogy különböző kérdéseket választ ki a bankból annak érdekében, hogy pontosabb mérést nyújtson képességeik szintjéről egy közös skálán.

milyen a számítógépes adaptív teszt egy jelölt számára?

a személyre szabott értékelés kérdéseket vet fel egy nagy tételkészletből, amelyeket gondosan kalibráltak a nehézségi szint meghatározása érdekében (erről bővebben a következő szakaszban).

amikor a jelölt megkezdi a tesztet, először egy közepes nehézségű elemet mutatnak be, amelyet megfelelőnek tartanak az évcsoportjuk számára. Ha jól értik ezt a kérdést, akkor a következő elem, amelyet látnak, kissé nehezebb lesz, ha tévednek, egy kissé könnyebb elemet fognak látni. A rendszer folyamatosan kiszámítja a jelölt becsült képességét attól függően, hogy mit kap jól és rosszul, és személyre szabott tételkészletet mutat be számukra, amíg a képességbecslésbe vetett bizalom szintje meghaladja az előre meghatározott szintet (vagy a feltett kérdések maximális számát), és a teszt befejeződik. Mivel minden tanuló más utat választ a teszten keresztül, más kérdéskészlettel, potenciálisan eltérő hosszúságú teszteket kaphatnak.

a lineáris teszttel ellentétben, amely egyes esetekben csak az átlagos képességű tanulók számára ad hasznos eredményeket, személyre szabott értékeléssel, a jelöltnek bemutatott összes tétel kihívást jelent; a nagy képességű jelölteknek bemutatott könnyű tételek száma csökken, csakúgy, mint az alacsony képességű jelölteknek feltett nehéz kérdések száma, mivel egyik sem jelzi egyértelműen e tanulók képességeit.

mivel mindent valós időben pontoznak, a teszt végén a jelölt azonnali visszajelzést kaphat képességnyilatkozatok formájában, szemben a nyers pontszámmal vagy osztályzattal, amely tényszerű információkat nyújt erősségeikről és gyengeségeikről a megválaszolt kérdések alapján.

hogyan működik a számítógépes adaptív teszt a Felülmúlásban?

ahhoz, hogy egy macska működjön, megbízható adatokra és átfogó elembankra van szüksége, amely jól terjed a tartalom lefedettségével és a nehézségi szinttel. Ez azt jelenti, hogy az elembankot először elővizsgálattal kell kalibrálni. Ez az egyik legfontosabb akadálya a CAT-nak, mint egy nagyobb tételbanknak, és kiterjedt munkára van szükség ahhoz, hogy megbízható adatokat kapjunk, mielőtt bármilyen élő tesztet el lehet szállítani. Az általános szabály az, hogy egy elemet legalább 200-szor kell kitenni, mielőtt megbízható adatokat lehet előállítani. Ezen expozíciós adatok felhasználásával az Elemválasz-elméletet (IRT) használják a bank minden egyes elemének IRT-paramétereinek kiszámításához. Ezek az IRT paraméterek magukban foglalják a tétel nehézségét, valamint a tétel megkülönböztetését, azaz. az a tényező, amely meghatározza, hogy a jelölt képességeinek növekedése mennyi lesz annak valószínűségén, hogy az adott tétel helyes lesz. A Felülmúlásban ezek az értékek címkékként vannak csatolva az elemekhez.

létrejön egy teszt ‘tervrajz’, amely meghatározza az olyan tényezőket, mint a teszt tartalmi lefedettsége. Számos további paraméter is megadható, beleértve a minimális és maximális tételszámot a jelenlegi és a megállási feltételekhez. Létrejön egy elemkészlet, amely tartalmazza az összes elemet, amely megjelenhet a tesztben.

míg egy lineáris tesztnél a rendszer tudja, hogy mely tételek kerülnek kézbesítésre a teszt megkezdése előtt, adaptív teszt esetén egy algoritmus valós időben választja ki a következő elemet, azon a ponton, amikor a jelölt a tesztvezetőben a ‘next’ gombra kattint. Az algoritmus a terv szerint működik, hogy biztosítsa az összes tartalmi terület megfelelő lefedettségét, és szabályozza az elemek kitettségét a bank egészében (így egyes elemeket nem mutatnak be gyakrabban, mint másokat), vagyis a teljes elembankot használják a leghatékonyabban. Az algoritmus képes támogatni akár három IRT paraméterek-nehézség, diszkrimináció, találgatás.

a surprise-ban mindez az okos logika mindössze 300 milliszekundumban történik, amikor a tanuló kiválasztja a következő kérdést, ami azt jelenti, hogy soha nem késik a jelölt. Az algoritmus addig folytatódik, amíg a jelölt képességét meg nem becsülik a szükséges pontossági szintre.

a Overpass csapata keményen dolgozott annak biztosítása érdekében, hogy a rendszer képes legyen kezelni ezeket a nagy mennyiségű adatot anélkül, hogy befolyásolná a teljesítményt. A Microsoft Azure alkalmazásokat használták, amelyek automatikusan skálázhatók a várható kötetektől függően, és az átviteli sebességet (a másodpercenkénti kérelmek számát) A jelenleg kézbesítettnél jóval nagyobb köteteken tesztelték.

az adaptív értékelés egyik legfontosabb előnye, hogy nem csak a standard jelentéskészítési funkciót használhatja, hanem a testre szabott jelentések is meghatározhatók és generálhatók a Overpass API-n keresztül, felhasználva az adaptív tesztből származó összes gazdag adatot. A jelentések megmutathatják az egyes jelöltek utazásait a teszt során, valamint jelentést tehetnek egy csoportról vagy osztályról, vagy akár országos szinten is.

milyen előnyei vannak a CAT-nek a papír alapú teszteléssel szemben?

számos előnye van a CAT-nek a papír alapú teszteléshez a formatív értékeléshez (feltéve, hogy a tételbank megfelelően kalibrálva van), beleértve:

pontos információ minden képességű jelölt számára

hagyományos lineáris tesztek, ahol minden jelölt ugyanazt a tételkészletet kapja, csak a tanulók középső harmadát támadja meg igazán. A macska célja, hogy kihívást jelent a tanulók minden képesség szinten, amely pontos és hasznos képet karcsúbb képesség mindenki számára.

a tanárok munkaterhelésének csökkenése

számos iskolai szintű tesztet még mindig papíron adnak ki, ami jelentős munkaterhelést jelent a tanárok számára az eredmények megjelölésével és adminisztrációjával. Az azonnali pontozás és a pontos tanulóspecifikus visszajelzések több időt adnak a tanároknak arra, hogy a tanításra összpontosítsanak, és visszajelzéseket hajtsanak végre, hogy segítsék diákjaikat a fejlődésben.

igény szerinti lehetőség

a képernyőn megjelenő személyre szabott értékeléssel nincs korlátozás a papír tesztablakban történő kézbesítésre, ami azt jelenti, hogy diagnosztikai célokra az év bármely pontján szállíthatók, amikor a tanár megfelelőnek érzi. Mivel minden tanuló személyre szabott tesztet kap, nincs szükség arra, hogy a kohorsz pontosan ugyanabban az időben üljön le a tesztre.

pontosabb visszajelzés, amely azonnal végrehajtható

pontosabb visszajelzés nyújtható közvetlenül a teszt után kompetencia-alapú képességi nyilatkozatok formájában, nem pedig pontszám formájában. Ez azt jelzi, hogy a jelölt területeken jól teljesítettek, és lehet, hogy javítaniuk kell. Ez a fajta visszajelzés hasznosabb a formatív értékelésben, bemutatva a tanulóknak, hogy vannak olyan területek, amelyeken tovább kell haladni, vagy konstruktív útmutatás arra vonatkozóan, hogy hol lehet javítani. A tanárok láthatják az osztály egészének teljesítményét is, jelezve azokat a területeket, amelyekre esetleg összpontosítaniuk kell tanításukat.

tanuló engagement

a kérdéseket, hogy kihívást jelent a tanulók minden képesség, tanuló engagement egész teszt jobb fenntartani. A gyengén teljesítőket bátorítják, a magasan teljesítőket pedig kihívják. Az adaptív értékelések elvégzése is kevesebb időt vehet igénybe, mint egy hagyományos lineáris teszt, a pontos képességmérés rövidebb idő alatt érhető el.

a CAT használata egy nagyszabású nemzeti tesztprogramhoz az Egyesült Királyságban: Esettanulmány

a 2019-es Overpass konferencián Gavin Busuttil-Reynaud az AlphaPlus-tól frissítette a Overpass közösséget a Surpass-ba épített adaptív tesztek használatáról egy nagyszabású Nemzeti tesztelési program számára általános és középiskolások Walesben. Néhány kulcsfontosságú pontot itt foglalunk össze, vagy a videó megtekintésével teljes egészében felzárkózhat az előadáshoz.

miután 2013-ban papíron bevezették az iskolások országos tesztelését Walesben (Egyesült Királyság), megvalósíthatósági tanulmányt készítettek Korán annak meghatározására, hogyan lehet azt a képernyőn kézbesíteni. 2018-ban megkezdődött ezeknek a teszteknek a fokozatos áttérése a számítógépes adaptív tesztekre, az első az eljárási számolás, amelyet olvasás és numerikus érvelés követ. Ezt forradalminak tekintik, tekintve, hogy a papír alapú tesztelés továbbra is uralja a globális kormányzati tesztelési programokat. 2004-ben Ken Boston, a Képesítési és tantervi Hatóság akkori vezetője kijelentette ,hogy a képernyőn történő értékelés hamarosan megérinti az ország minden tanulójának életét, a következő 5 év egyik célkitűzése az, hogy minden új képesítés tartalmazzon egy lehetőséget a képernyőn történő értékelésre. Mint tudjuk, 15 év elteltével ez nem így van, mivel sok képesítést továbbra is kizárólag papíron nyújtanak be, ami még figyelemre méltóbbá teszi a projekt Walesben elért eredményeit, különösen a 16.előtti értékelés szempontjából.

csak az első évben 268 000 tanuló ült személyre szabott értékelést az eljárási számolás terén, amely a tanulók 96% – ának felel meg a 2-9.

a képernyőn történő értékelés bevezetésével a szükséges módosított dokumentumok száma is jelentősen csökkent. 2018-ban több mint 4000 módosított papírt rendeltek ehhez a teszthez, amely mindössze 357 módosított nagy nyomtatásra és 12 braille-értékelésre csökkent 2019-ben.

az értékelés önállóan ütemezhető, így a tanárok rugalmasan használhatják diagnosztikai célokra az év bármely pontján. Az első évben azonban sok iskola ragaszkodott a hagyományos tanév végi tesztelési időszakhoz, bár lehetséges, hogy ez a gyakorlat a jövőben megváltozik, mivel a tanárok jobban megismerik ezeket a teszteket.

hogyan fogadták a tanárok ezt az új tesztelési módot?

ebben a forgatókönyvben a személyre szabott értékeléseknek számos előnye van, amint azt a fenti szakasz részletezi. Az AlphaPlus pozitív visszajelzéseket kapott a tanároktól az eljárási számolási értékelési pilot számára, amely ennek az esettanulmánynak a középpontjában állt. Egy tanári kérdőívből kiderült, hogy 78% – uk úgy gondolta, hogy a tanulók elkötelezettek, 83% – uk szerint az értékelések megfelelő hosszúak voltak, és több mint 60% – uk hasznosnak találta a tanulói és visszajelzési jelentéseket.

Gavin azonban 2019-es Overpass konferencia-előadása során megfigyelte, hogy még mindig vannak akadályok, amelyeket le kell küzdeni, mivel a gondolkodásmód elmozdul a papír alapú teszteléstől. Személyre szabott értékeléssel, az algoritmus leáll, ha magabiztosan képes becslést adni a képességekről, így egyes tanulók több kérdést látnak, mint mások, ami nem történne meg papírteszten.

“a papírkultúránknak van egy olyan része, amely annyira mélyen beágyazódott, hogy a méltányosság arról szól, hogy pontosan ugyanazt tesszük minden ember számára, még akkor is, ha ez szörnyű illeszkedés néhány ilyen ember számára…a személyre szabási üzenet még nem jutott el minden tanárhoz.”

Gavin Busuttil-Reynaud, AlphaPlus

Továbbá, mivel a macska célja, hogy kihívást jelent a nagy képességű tanulók, jelöltek is be kell mutatni a kérdéseket az idősebb korosztály, hogy nem hivatalosan tanított. Míg ennek célja az, hogy megmutassa a tanulóknak, mire tudnak továbblépni, vagy akár a korosztályukon kívüli képességeket is demonstrálni, Gavin folytatta a megfigyelést:

“néhány tanár elfogadja ezt… mások szerint szörnyű, hogy egy tanulótól olyasmit kérdeztek meg, amit nem fognak tanítani a következő évig, és úgy gondolják, hogy a tanítását valami alapján ítélik meg, amit még nem tanítottak meg nekik… még mindig van egy hatalmas kulturális utazás mindenki számára, mert ezek a tesztek annyira különböznek a jelenlegi gyakorlattól, de ennek elsődleges célja az, hogy részletes visszajelzést adjon.”

Gavin Busuttil-Reynaud, AlphaPlus

ezeknek a teszteknek az a prioritása, hogy az összes rendelkezésre álló adat alapján részletes jelentésekkel tájékoztassák a tanítást és a tanulást, amelyek célja a tanárok számára a fejlesztendő területek azonosítása, és ezeket nem használják iskolai elszámoltathatósági intézkedésként. A tanulói jelentésben nincs pontszám, csak tényszerű megállapítások az erősségek és gyengeségek kiemelésére.

a tanár rendelkezik az osztályához tartozó készségprofillal, amely jelzi, hogy hova kell összpontosítania a tanítását, megbízható adatok állnak rendelkezésre, valamint a tanulói utazási táblázatok, amelyek megmutatják a teszten megtett utat, és megmutathatják a tanuló viselkedési mintáit.

Rob Nicholson, a Borras Park Közösségi Iskola igazgatója, akinek a tanulói ülték ezeket az értékeléseket:

“a személyre szabott értékelések felhasználhatók az iskolák által végzett egyéb értékelési formák mellett have…it lehet használni, hogy csak megszilárdítsa pontszámok és értékelések és a tudás a gyermek.”

Rob Nicholson, a Borras Park Közösségi Iskola igazgatója

hogyan fogadták a tanulók a személyre szabott értékeléseket?

ehhez a projekthez a csapat figyelembe vette a tanulók fiatal korát, ezért a felülmúló tesztvezetőt úgy alakították ki, hogy egyszerűsítse a felületet és a lehető legjobb élményt hozza létre. A teszteket asztali számítógépeken, laptopokon vagy táblagépeken lehetett elvégezni, ami fontos volt az ország iskoláiban elérhető hardverek következetlensége miatt.

minden jelöltet megkérdőjeleznek a nekik feltett kérdések, így megmutathatják, mit tudnak, nem pedig azt, amit nem, az algoritmussal, amelyet úgy terveztek, hogy a tanulók az elemek 50% – át helyesen, 50% – át pedig rosszul kapják meg. Néhány nagy teljesítményű ember először talált olyan kérdéseket, amelyeket nem ismertek, míg az alacsonyabban teljesítők bizalmat szereztek azzal, hogy képesek voltak megválaszolni néhány kérdést.

“a képességspektrum alsó végén lévő tanulók esetében általában, amikor a papírtesztet végezték, az elemek 90-95% – a hibás. Milyen hihetetlenül elkeserítő élmény. De ebből az adaptív tesztből jönnek ki, meg tudnám csinálni!…És a magas szórólapok, akik tíz perc alatt átvészelnének egy papírtesztet, hirtelen azt mondják: ‘ez egy nehéz teszt volt, azt kellett gondolnom’…legalább ráébreszti őket, hogy van valami más, amin tovább kell lépniük.”

Gavin Busuttil-Reynaud, AlphaPlus

a tanulók általában unfazed egy lépés, hogy a képernyőn, mint Jenny Jones, helyettes igazgatója Borras Park Közösségi Iskola, megfigyelt:

“megszokták, hogy online dolgoznak,használják az ipadjeiket vagy a számítógépeiket, így magabiztosnak érzik magukat. Ez egy szórakoztató tevékenység.”

Jenny Jones, a Borras Park közösségi iskola igazgatóhelyettese

a látássérült vagy akadálymentesítési követelményekkel rendelkező tanulók számára is voltak előnyök, amelyek általában azt jelentik, hogy a papír teszt módosított változatát igénylik. Az egyetlen valódi különbség az, hogy hol vannak diagramok, így egy egyszerűsített változat vagy braille-változat szerepel egy papírfüzetben. A kisegítő eszközök, például a nagyító és a Képernyőolvasó azt jelentik, hogy a képernyőn megjelenő teszt a lehető legtöbb ember számára elérhető. Az AlphaPlus látássérült tanulókkal dolgozott együtt, és arra a következtetésre jutott, hogy a tanulók teljes szívvel inkább az online verziókat részesítik előnyben, és az akadálymentesítési eszközök nem zavarják őket, mivel ez a szokásos munkamódszerük, és örömmel fogadják, hogy ugyanúgy dolgozhatnak számítógépen, mint mindenki más.

következtetés

az Egyesült Királyságban a sikeres nemzeti CAT-implementáció esettanulmánya azt mutatja, hogy ez a fajta tesztelés bevezethető, és jelentős előnyökkel járhat a rögzített tesztekhez képest, különösen formatív környezetben. A rövidebb, személyre szabott tesztek a tanulónak megfelelő tartalommal nagyobb tanulói elkötelezettséget és jobb tanulói élményt nyújtanak. Az eredményeket gyorsabban dolgozzák fel, így felül lehet vizsgálni a tanulóval, miközben értékelési tapasztalataik még frissek a fejükben.

a Pszichometrikusan érvényes eredmények, valamint az egyes jelöltekre vonatkozó gazdag ADATOK jobban megértik, hogy a tanulók mire képesek, és más mutatókkal együtt jobban tájékoztatják a tanítást és a tanulást, és a lehető legjobb lehetőségeket nyújtják a tanuló fejlődéséhez.

Roger Murphy, a Nottinghami Egyetem Emeritus oktatási professzora a walesi iskolásokkal végzett munkát kommentálva kijelentette:

“ez a walesi oktatási rendszer egyik jellemzője, amelyet a világ számos országában nagyon szorosan figyelnek.”

Roger Murphy, a Nottinghami Egyetem Emeritus professzora

meg kell azonban jegyezni, hogy a CAT nem lesz megfelelő minden forgatókönyvben. A macska objektív kérdéstípusokra korlátozódik, korlátozva a tesztelhető készségek típusát, és az általánosan elfogadott nézet az, hogy a macska előállítása drága. Talán, ahogy az értékelési technológia még tovább halad, az olyan funkcionalitás, mint az automatikus elemgenerálás, enyhítheti a nagyobb elembankok létrehozásával kapcsolatos költségvonzatokat. Végső soron az előállítási költségeket össze kell mérni az előnyökkel annak meghatározása érdekében, hogy a CAT a megfelelő út-e a tesztelési programhoz.

Ha többet szeretne megtudni a Surpass személyre szabott értékeléseiről, kérjük, forduljon a Overpass Account Manageréhez.