Počítačové Adaptivní Testování: Pozadí, výhody a případové studie ve velkém měřítku národní program testování

Počítačové Adaptivní Testování (CAT) je horké téma mezi posuzování společenství, však, navzdory jeho mnoha výhod, je stále ještě není široce používán. V tomto článku vám poskytneme přehled CAT, přehled některých výhod a bez přílišného žargonu přehled technologie, která za tím stojí. Na pomoc souvislostí, budeme odkazovat nedávné případové studii, jak KOČKA technologie Předčí byl použit dodávat inovativní národní individuální posouzení programu, který mění tvar národního vzdělávání.

co je počítačový adaptivní Test?

jednoduše Řečeno, Počítačový Adaptivní Test (někdy označované jako osobní hodnocení) je test, který se přizpůsobí kandidáta je schopnost v reálném čase výběrem různých otázek z banky, s cílem poskytnout přesnější měření jejich schopnost úrovni na společné měřítko.

jaký je počítačový adaptivní Test pro kandidáta?

personalizované hodnocení vytáhne otázky z velké skupiny položek, které byly pečlivě kalibrovány, aby se určila jejich úroveň obtížnosti (více o tom v další části).

když kandidát zahájí svůj test, jsou nejprve prezentovány s položkou střední obtížnosti považovanou za vhodnou pro jejich roční skupinu. Pokud dostanou tuto otázku správně, další položka, kterou uvidí, bude o něco těžší, pokud to udělají špatně, uvidí o něco jednodušší položku. Systém je neustále výpočtu kandidáta odhadovaná schopnost v závislosti na tom, co se správné a co špatné, a jejich prezentace s osobní sadu položek, dokud úroveň důvěry ve schopnosti odhadnout překročila předem nastavenou úroveň (nebo maximální počet otázek byly předloženy) a test končí. Protože každý student absolvuje test jinou cestou, s jinou sadou otázek, mohou potenciálně přijímat testy jiné délky.

na rozdíl od lineární test, který v některých případech pouze poskytnout užitečné výsledky pro studenty z průměrné schopnosti, s individuální posouzení, všechny položky prezentovány na kandidáta jsou navrženy tak, aby být náročné; počet snadné položky, které jsou prezentovány na high-schopnost kandidátů je snížena, jako je číslo těžké otázky k nízké schopnosti kandidátů, protože ani dát jasné označení schopnosti těchto žáků.

Jako všechno je zaznamenán v reálném čase, na konci zkoušky může uchazeč získat okamžitou zpětnou vazbu v podobě schopnosti prohlášení na rozdíl od syrové skóre, nebo třída, která poskytuje věcné informace o jejich silných a slabých stránek na základě otázky odpověděli.

jak funguje počítačový adaptivní Test v Surpass?

aby kočka mohla pracovat, potřebuje spolehlivá data a komplexní banku položek s dobrým rozšířením pokrytí obsahu a úrovní obtížnosti. To znamená, že banka položek musí být nejprve kalibrována předběžným testováním. To je jedna z klíčových překážek CAT jako větší položky banky a rozsáhlá práce je nutná k získání spolehlivých dat před jakýmkoli živé testy mohou být dodány. Obecným pravidlem je, že položka musí být vystavena minimálně 200krát, než lze vygenerovat spolehlivá data. Pomocí těchto údajů o expozici se pak teorie odezvy položky (IRT) používá k výpočtu parametrů IRT pro každou z položek v bance. Tyto parametry IRT zahrnují obtížnost položky a diskriminaci položky, tj. faktor, který určuje, kolik zvýšení schopnosti kandidáta bude mít na pravděpodobnost, že se tato položka správné. V Surpass jsou tyto hodnoty připojeny k položkám jako značky.

je vygenerován testovací „plán“, který určuje faktory, jako je pokrytí obsahu testu. Lze také zadat mnoho dalších parametrů, včetně minimálního a maximálního počtu položek, které mají být přítomny a zastaveny. Je vytvořen fond položek, který obsahuje všechny položky, které by se mohly objevit v testu.

Vzhledem k tomu, že s lineární test, systém ví, které položky budou dodány před zahájením zkoušky, s adaptivní test, algoritmus vybere další položku v reálném čase, v místě, uchazeč klikne na „další“ tlačítko v testovací jezdec. Algoritmus pracuje na plánu pro zajištění dobrého pokrytí všech oblastí obsahu a ovládací prvky položky expozice přes banky jako celku (tak, že některé položky nejsou prezentovány častěji než ostatní), což znamená, že celou položku bankovního je nejvíce efektivně použít. Algoritmus je schopen podporovat až tři parametry IRT-obtížnost – diskriminaci a hádání.

Předčí, všechna tato chytrá logika děje v pouhých 300 milisekund žáka výběrem „Next“ pro přesun na další otázku, což znamená, že je nikdy zpoždění kandidáta. Algoritmus pokračuje, dokud není schopnost kandidáta odhadnuta na požadovanou úroveň přesnosti.

tým Surpass tvrdě pracoval, aby zajistil, že systém zvládne tyto velké objemy dat bez ovlivnění výkonu. Byly použity aplikace Microsoft Azure, které jsou automaticky škálovatelné v závislosti na předpokládaných objemech, a propustnost (počet požadavků za sekundu) byla testována při objemech mnohem vyšších, než jsou aktuálně dodávané.

Jedna z klíčových výhod adaptivní posouzení dodané prostřednictvím Překoná je, že nejen, že můžete využívat standardní funkce hlášení, ale zakázku zprávy mohou být definovány a generované přes Překonat API, s využitím všech bohatých údajů, které je vyrobené z adaptivní test. Zprávy mohou zobrazovat jednotlivé kandidátské cesty v průběhu testu, stejně jako podávání zpráv o skupině nebo třídě nebo dokonce na národní úrovni.

jaké jsou výhody CAT oproti papírovému testování?

Existuje mnoho výhod pro KOČKU přes papírové testování pro formativní hodnocení (poskytování položku banka byla správně kalibrován), včetně:

Přesné informace pro kandidáty všech schopností

Tradiční lineární testů, kde všichni kandidáti obdrží stejnou sadu položek, jen někdy opravdu výzvou prostřední třetina žáků. KOČKA je navržen tak, aby napadat studenty všech úrovní schopností, poskytování a přesné a užitečné obrázek štíhlejší možnost pro každého.

Snížení pracovní zátěž učitelů

Mnoho škol na úrovni testy jsou stále dodávány na papír, který představuje značnou zátěž pro učitele s označením a správě výsledků. Okamžité bodování a přesná zpětná vazba specifická pro studenty dává učitelům více času soustředit se na výuku a implementovat zpětnou vazbu, která pomůže jejich studentům postupovat.

Potenciál pro on-demand

S on-screen individuální posouzení, neexistuje žádné omezení k dodání v papírové testovací okno, což znamená, že mohou být dodány pro diagnostické účely na jakémkoli místě po celém roce, kdy učitel cítí, že je to vhodné. Jako každý student obdrží osobní test, není třeba pro kohorty, aby všichni sedět zkoušky v přesně stejnou dobu.

přesnější zpětnou vazbu, která může být actioned ihned

přesnější zpětná vazba může být poskytnuta okamžitě po zkoušce ve formě kompetence založené na schopnosti prohlášení, spíše než skóre. To naznačuje kandidátským oblastem, ve kterých si vedli dobře, a oblasti, které mohou potřebovat zlepšit. Tento druh zpětné vazby je užitečné v formativní hodnocení, ukázat studentům, že existují oblasti k pokroku, nebo konstruktivní pokyny, kde se zlepšit. Učitelé mohou také vidět výkon třídy jako celku, což naznačuje oblasti, na které mohou potřebovat zaměřit svou výuku.

zapojení studentů

s otázkami, které zpochybňují studenty všech schopností, je zapojení studentů během testu lépe udržováno. Nízko úspěšní jsou podporováni a vysoce úspěšní jsou zpochybňováni. Adaptivní hodnocení může také trvat méně času než tradiční lineární test, s přesným měřením schopností dosaženým v kratším čase.

použití CAT pro rozsáhlý národní testovací program ve Velké Británii: Případová Studie

V roce 2019 Překoná Konference, Gavin Busuttil-Reynaud z AlphaPlus aktualizováno Překonat Společenství na využití adaptivní testy postaven v Předčit pro rozsáhlé celostátní testování programu primární a sekundární školní děti ve Walesu. Některé z klíčových bodů jsou shrnuty zde, nebo můžete dohnat prezentaci v plném rozsahu sledováním tohoto videa.

Po zavedení národní testování žáků ve Walesu (UK) na papír v roce 2013, studie proveditelnosti byla provedena na počátku určit, jak by to mohlo být dodáno na obrazovce. V roce 2018 začal postupný přechod těchto testů na počítačové adaptivní testy, z nichž první byla procedurální početnost a následovalo čtení a numerické uvažování. To je považováno za revoluční vzhledem k tomu, že papírové testování stále dominuje globálním vládním testovacím programům. Zpět v roce 2004, Ken Bostonu, pak hlava Kvalifikace a Kurikulum Orgán uvedl, že se na obrazovce posouzení se krátce dotknout života každého studenta v zemi, s jedním z jeho cílů pro příštích 5 let je, že všechny nové kvalifikace by měla zahrnovat možnost pro on-screen hodnocení.’Jak víme, 15 let, to není tento případ, s mnoha kvalifikací stále dodáván výhradně na papír, který se úspěchy projektu ve Walesu ještě více pozoruhodné, zejména pro pre-16 posouzení.

V prvním roce, 268,000 žáci mají sat individuální posouzení v procesní matematické gramotnosti, což představuje 96% z kohorty žáků v letech 2-9 ve Walesu, odpovídající míra dokončení papírových testů.

zavedení hodnocení na obrazovce také zaznamenalo významné snížení počtu požadovaných upravených dokumentů. V roce 2018, více než 4000 upravené dokumenty byly objednány pro tento test, která byla snížena na pouhých 357 modifikované velký tisk a 12 braillově písmu hodnocení v roce 2019.

hodnocení může být naplánováno samo, což dává učitelům flexibilitu při jeho použití pro diagnostické účely kdykoli v roce. V prvním roce se však mnoho škol drželo tradičního konce testovacího období, i když je možné, že se tato praxe v budoucnu změní, protože učitelé se s těmito testy lépe seznámí.

jak tento nový způsob testování přijali učitelé?

individuální hodnocení má v tomto scénáři mnoho výhod, jak je podrobně popsáno v oddíle výše. AlphaPlus obdrželi pozitivní zpětnou vazbu od učitelů k pilotnímu hodnocení procedurální početnosti, který byl předmětem této případové studie. Učitel dotazník odhalil, že 78% si myslí, že studenti byli zapojeni, 83% si myslí, že hodnocení bylo správné délky, a více než 60% našel žáka a zpětné vazby zpráv, které mají být užitečné.

během prezentace konference 2019 Surpass však Gavin poznamenal, že stále existují určité překážky, které je třeba překonat, protože myšlení se přesouvá z papírového testování. S personalizovaným hodnocením se algoritmus zastaví, jakmile může s jistotou poskytnout odhad schopností, takže někteří studenti vidí více otázek než ostatní, což by se při papírovém testu nestalo.

„Tam je část naší práce kultuře, která je tak hluboce zakořeněný, že spravedlnost je o tom, dělat přesně stejné pro všechny lidi, i když je to hrozná fit pro některé z těch lidí, personalizace vzkaz nebyl pro všechny učitele.“

Gavin Busuttil-Reynaud, AlphaPlus

Navíc, protože KOČKA je navržen tak, aby napadnout vysoké schopnosti žáků, kandidáti mohou být prezentovány s otázkami ze starších věkových skupin, které nebyly formálně učil. Cílem je ukázat studentům, k čemu mohou přejít, nebo dokonce prokázat schopnosti mimo jejich věkovou skupinu, Gavin pokračoval v pozorování:

„Někteří učitelé přijmout to… jiní si myslí, že je to hrozné, že student byl požádán, něco, co nebude naučil až příští rok a že jejich učení je souzen za něco, co oni nebyli učil, ale… pořád je Tu obrovské kulturní cesta pro každého, aby jít na to, protože tyto testy jsou tak odlišné od současné praxe, ale primární účel je poskytnout detailní zpětnou vazbu.“

Gavin Busuttil-Reynaud, AlphaPlus

prioritou těchto testů je informovat vyučování a učení s podrobné zprávy na základě všech dostupných dat navržen tak, aby pomoci učitelům identifikovat oblasti pro zlepšení, a nejsou používány jako škola odpovědnost opatření. Ve zprávě žáka není uvedeno žádné skóre, pouze faktická prohlášení, která zdůrazňují silné a slabé stránky.

učitel je poskytnut dovednosti pro jejich třídy, což je údaj o tom, kde se zaměřit svou výuku, poskytování spolehlivých údajů je k dispozici, stejně jako žák cesty grafy, které ukazují cestu vzali přes zkoušky a může ukázat vzory chování žáka.

Rob Nicholson, ředitel komunitní školy Borras Park, jejíž studenti seděli tato hodnocení komentoval:

„individualizované hodnocení může být použita vedle jiných forem hodnocení, kterou školy mají,…to může být použit jen zpevnit skóre a hodnocení a znalosti dítěte.“

Rob Nicholson, ředitel komunitní školy Borras Park

jak studenti obdrželi osobní hodnocení?

Pro tento projekt, tým byl s vědomím mladém věku studentů, a tak Předčí testovací jezdec byl upraven tak, aby zjednodušit rozhraní a vytvořit co nejlepší možný zážitek. Testy mohly být dodány na stolních počítačích, notebooky, nebo tabletová zařízení, což bylo důležité kvůli nekonzistenci hardwaru dostupného ve školách po celé zemi.

Děti se učí na tabletech

Každý uchazeč je napadán otázky, které jim byly předloženy, tak mohou ukázat, co vědí, že spíše než to, co oni nemají, s algoritmus navržen tak, aby studenti získat 50% položek přímo, a 50% špatně. Poprvé, někteří vysoce úspěšní našli otázky, s nimiž nebyli obeznámeni, zatímco nižší úspěšní získali důvěru tím, že byli schopni odpovědět na některé otázky.

„pro studenty na spodním konci spektra schopností, obvykle, když dělali papírový test, dostali by se někde mezi 90-95% položek špatně. To je neuvěřitelně skličující zážitek. Ale vycházejí z tohoto adaptivního testu, mohl bych to udělat!…A akrobati, kteří by svištět přes papírový test za deset minut, teď najednou říkají, ‚to bylo těžké zkoušky, musel jsem si, že’…alespoň je, že tam je něco jiného jít dál.“

Gavin Busuttil-Reynaud, AlphaPlus

Studenti jsou obecně nevyvedlo z míry tím, že pohyb na obrazovce, jako Jenny Jones, Zástupce Ředitele školy z Borras Park Community School, pozorovány:

„Jsou zvyklí pracovat on-line, jsou zvyklí používat svůj ipad nebo počítače, takže se cítí jistý jejich použití. Je to zábavná aktivita.“

Jenny Jones, Zástupce Ředitele školy z Borras Park Community School

je Tu také výhody pro ty studenty se zrakovým nebo požadavky na přístupnost, které by obvykle znamená, že vyžadují upravenou verzi papír test. Jediným skutečným rozdílem je, kde jsou zahrnuty diagramy, takže zjednodušená verze nebo Braillovo písmo je součástí papírové brožury. Nástroje pro usnadnění přístupu, jako je lupa a čtečka obrazovky, znamenají, že test na obrazovce je přístupný co největšímu počtu lidí. AlphaPlus pracovali s zrakově postižené studenty a konstatovat, že žáka bezvýhradně přednost on-line verze‘ a je nevyvedlo z míry tím, že dostupnost nástrojů, jako je to jejich obvyklý způsob práce, a vítám, že je schopen pracovat na počítači, stejně jako všichni ostatní.

Závěr

případová studie úspěšného národního KOČKA provádění ve velké BRITÁNII ukazuje, že tento typ testování může být zaveden, a může mít významné výhody oproti pevné testů, a to zejména v formativních nastavení. Kratší, osobní testy žák-vhodný obsah poskytují větší zapojení žáka a lepší zkušenosti studenta. Výsledky jsou zpracovávány rychleji, takže mohou být přezkoumány se žákem, zatímco jejich zkušenosti s hodnocením jsou v jejich mysli stále čerstvé.

Psychometrically platné výsledky spolu s bohatý-údaje o každém kandidátovi dává větší pochopení toho, co žáci jsou schopni, a používány ve spojení s dalšími ukazateli, může lépe informovat o výuce a učení a dát nejlepší možné příležitosti pro studenta progrese.

Komentuje práci s dětmi ve Walesu, Roger Murphy, Emeritní Profesor Vzdělávání na Nottingham University uvedl:

„je To vlastnost systému vzdělávání ve Walesu, který je sledován velmi pozorně v mnoha zemích na celém světě.“

Roger Murphy, Emeritní Profesor Vzdělávání na Nottingham University

Nicméně, je třeba poznamenat, že KOČKA není vhodné ve všech situacích. Kočka je omezena na objektivní typy otázek, omezující typ dovedností, které lze testovat, a obecně přijímaný názor je, že produkce kočky je drahá. Možná, jak technologie hodnocení postupuje ještě dále, funkce, jako je automatické generování položek, by mohly zmírnit některé důsledky nákladů při vytváření větších bank položek. Nakonec, náklady na výrobu musí být zváženy proti výhodám, aby se zjistilo, zda je CAT správnou cestou pro váš testovací program.

Máte-li zájem dozvědět se více o personalizovaných hodnoceních v Surpass, obraťte se na svého správce účtu Surpass.