Computer Adaptive Testing: Background, benefits and case study of a large-scale National testing programme

BY admin

| august 17, 2021

Computer Adaptive Testing (CAT) este un subiect fierbinte în rândul comunității de evaluare, cu toate acestea, în ciuda numeroaselor sale beneficii, încă nu este foarte utilizat. În acest articol, vă vom oferi o imagine de ansamblu asupra CAT, o reducere a unora dintre beneficii și, fără prea mult jargon, o imagine de ansamblu asupra tehnologiei din spatele acesteia. Pentru a ajuta la contextualizarea acesteia, vom face referire la un studiu de caz recent despre modul în care tehnologia CAT din Surpass a fost utilizată pentru a oferi un program național inovator de evaluare personalizată, care schimbă forma educației naționale.

ce este un test adaptiv pentru Computer?

mai simplu spus, un test adaptiv computerizat (denumit uneori evaluare personalizată) este un test care se adaptează la capacitatea candidatului în timp real prin selectarea diferitelor întrebări de la bancă pentru a oferi o măsură mai precisă a nivelului abilității lor la o scară comună.

cum este un test adaptiv la calculator pentru un candidat?

o evaluare personalizată trage întrebări dintr-un grup mare de elemente care au fost calibrate cu atenție pentru a determina nivelul lor de dificultate (mai multe despre acest lucru în secțiunea următoare).

când un candidat își începe testul, li se prezintă mai întâi un element de dificultate medie considerat adecvat pentru grupul lor de ani. Dacă primesc această întrebare corect, următorul element pe care îl văd va fi ușor mai greu, dacă îl greșesc, vor vedea un element ușor mai ușor. Sistemul calculează constant capacitatea estimată a candidatului în funcție de ceea ce obține bine și rău și le prezintă un set personalizat de articole până când nivelul de încredere în estimarea capacității a depășit un nivel predefinit (sau numărul maxim de întrebări au fost prezentate) și testul se încheie. Deoarece fiecare cursant ia o cale diferită prin test, cu un set diferit de întrebări, poate primi teste de o lungime diferită.

spre deosebire de un test liniar care, în unele scenarii, oferă Doar rezultate utile pentru cursanții cu abilități medii, cu o evaluare personalizată, toate elementele prezentate candidatului sunt concepute pentru a fi provocatoare; numărul de elemente ușoare care sunt prezentate candidaților cu abilități ridicate este redus, la fel ca și numărul de întrebări dificile pentru candidații cu abilități reduse, deoarece nici nu oferă o indicație clară a capacității acestor cursanți.

deoarece totul este marcat în timp real, la sfârșitul testului candidatul poate primi feedback imediat sub formă de declarații de abilitate, spre deosebire de un scor sau o notă brută, care oferă informații factuale despre punctele forte și punctele slabe pe baza întrebărilor la care au răspuns.

cum funcționează un test adaptiv la Computer în depășire?

pentru ca o pisică să funcționeze, are nevoie de date fiabile și de o bancă de articole cuprinzătoare, cu o bună răspândire a acoperirii conținutului și a nivelului de dificultate. Aceasta înseamnă că banca de articole trebuie mai întâi calibrată prin pre-testare. Aceasta este una dintre barierele cheie pentru CAT ca o bancă de articole mai mare și este necesară o muncă extinsă pentru a obține date fiabile înainte ca orice teste live să poată fi livrate. Regula generală este că un element trebuie expus de cel puțin 200 de ori înainte ca datele fiabile să poată fi generate. Folosind aceste date de expunere, teoria răspunsului elementului (IRT) este apoi utilizată pentru a calcula parametrii IRT pentru fiecare dintre elementele din bancă. Acești parametri IRT includ dificultatea elementului și discriminarea elementului, adică. factorul care determină cât de mult o creștere în capacitatea de un candidat va avea pe probabilitatea de a le obține acel element corect. În depășire, aceste valori sunt atașate elementelor ca etichete.

se generează un model de test care determină factori precum acoperirea conținutului testului. Mai mulți parametri pot fi, de asemenea, specificate, inclusiv, numărul minim și maxim de elemente pentru a prezenta și condițiile de oprire. Se creează un grup de elemente care conține toate elementele care ar putea apărea în test.

în timp ce cu un test liniar, sistemul știe ce elemente vor fi livrate înainte de începerea testului, cu un test adaptiv, un algoritm Selectează următorul element în timp real, în momentul în care candidatul face clic pe butonul ‘Următorul’ din driverul de testare. Algoritmul funcționează conform planului pentru a asigura o bună acoperire a tuturor zonelor de conținut și controlează expunerea articolelor în întreaga bancă (astfel încât unele articole să nu fie prezentate mai frecvent decât altele), ceea ce înseamnă că întreaga bancă de articole este utilizată cel mai eficient. Algoritmul este capabil să suporte până la trei parametri IRT – dificultate, discriminare și ghicire.

în depășire, toată această logică inteligentă se întâmplă în doar 300 de milisecunde în care cursantul Selectează ‘Următorul’ pentru a trece la următoarea întrebare, ceea ce înseamnă că nu există niciodată o întârziere pentru candidat. Algoritmul continuă până când capacitatea candidatului a fost estimată la nivelul necesar de precizie.

echipa depasi a muncit din greu pentru a se asigura că sistemul poate gestiona aceste volume mari de date fără a afecta performanța. Au fost utilizate aplicații Microsoft Azure care sunt scalabile automat în funcție de volumele anticipate, iar debitul (numărul de solicitări pe secundă) a fost testat la volume mult mai mari decât cele livrate în prezent.

unul dintre avantajele cheie ale evaluării adaptive furnizate prin intermediul depasi este că nu numai că puteți utiliza funcționalitatea standard de raportare, dar rapoartele personalizate pot fi definite și generate prin intermediul API-ului depasi, folosind toate datele bogate care sunt produse dintr-un test adaptiv. Rapoartele pot arăta călătoriile individuale ale candidaților pe tot parcursul testului, precum și raportarea la un grup sau o clasă sau chiar la nivel național.

care sunt avantajele CAT față de testarea pe hârtie?

există numeroase beneficii pentru CAT față de testarea pe suport de hârtie pentru evaluarea formativă (cu condiția ca banca de articole să fi fost calibrată corespunzător), inclusiv:

informații Precise pentru candidații de toate abilitățile

teste liniare tradiționale, în care toți candidații primesc același set de articole, provoacă cu adevărat doar treimea mijlocie a cursanților. O pisică este concepută pentru a provoca cursanții de toate nivelurile de abilități, oferind o imagine exactă și utilă a capacității mai slabe pentru toată lumea.

scăderea volumului de muncă al profesorilor

multe teste la nivel școlar sunt încă livrate pe hârtie, ceea ce prezintă un volum de muncă semnificativ pentru profesori cu marcarea și administrarea rezultatelor. Punctajul imediat și feedback-ul precis specific elevului oferă profesorilor mai mult timp să se concentreze asupra predării și implementării feedback-ului pentru a-și ajuta elevii să progreseze.

potențial la cerere

cu o evaluare personalizată pe ecran, nu există nicio restricție de livrare în fereastra de testare a hârtiei, ceea ce înseamnă că pot fi livrate în scopuri de diagnosticare în orice moment al anului, când profesorul consideră că este potrivit. Deoarece fiecare cursant primește un test personalizat, nu este nevoie ca cohorta să susțină testul exact în același timp.

feedback mai precis care poate fi acționat imediat

feedback mai precis poate fi furnizat imediat după test sub formă de declarații de abilități bazate pe competențe, mai degrabă decât un scor. Acest lucru indică zonele candidate pe care le-au făcut bine și zonele pe care ar putea avea nevoie să le îmbunătățească. Acest tip de feedback este mai util în evaluarea formativă, demonstrând cursanților că există domenii în care să progreseze sau îndrumări constructive cu privire la unde să se îmbunătățească. Profesorii pot vedea, de asemenea, performanța unei clase în ansamblu, indicând domeniile pe care ar putea avea nevoie să-și concentreze predarea.

implicarea cursantului

cu întrebări care provoacă cursanții de toate abilitățile, implicarea cursantului pe tot parcursul testului este mai bine menținută. Cei cu rezultate slabe sunt încurajați, iar cei cu rezultate ridicate sunt provocați. Evaluările Adaptive pot dura, de asemenea, mai puțin timp pentru a fi finalizate decât un test liniar tradițional, cu o măsurare precisă a capacității atinsă într-un timp mai scurt.

utilizarea CAT pentru un program național de testare la scară largă în Marea Britanie: Un studiu de caz

la Conferința depășește 2019, Gavin Busuttil-Reynaud de la AlphaPlus a actualizat comunitatea depășește cu privire la utilizarea testelor adaptive construite în depășește pentru un program național de testare la scară largă a copiilor de școală primară și secundară din țara Galilor. Unele dintre punctele cheie sunt rezumate aici, sau puteți prinde pe prezentarea în întregime prin vizionarea acestui videoclip.

după introducerea testelor naționale pentru școlarii din țara Galilor (Marea Britanie) pe hârtie în 2013, un studiu de fezabilitate a fost realizat din timp pentru a determina modul în care ar putea fi livrat pe ecran. În 2018, a început tranziția treptată a acestor teste la teste adaptive computerizate, prima fiind numerația procedurală și care va fi urmată de citire și Raționament Numeric. Acest lucru este considerat revoluționar, având în vedere că testarea pe hârtie domină încă programele de testare guvernamentale globale. În 2004, Ken Boston, pe atunci șeful autorității pentru Calificări și Curriculum, a declarat că evaluarea pe ecran va atinge în scurt timp viața fiecărui cursant din țară, unul dintre obiectivele sale pentru următorii 5 ani fiind că toate calificările noi vor include o opțiune pentru evaluarea pe ecran. După cum știm, după 15 ani, acest lucru nu este cazul, cu multe calificări încă livrate exclusiv pe hârtie, ceea ce face ca realizările proiectului din țara Galilor să fie și mai remarcabile, în special pentru evaluarea pre-16.

numai în primul an, 268.000 de cursanți au susținut o evaluare personalizată în calculul procedural, care echivalează cu 96% din cohorta de cursanți din anii 2-9 din țara Galilor, care corespunde ratei de finalizare a testelor de hârtie.

introducerea evaluării pe ecran a înregistrat, de asemenea, o reducere semnificativă a numărului de lucrări modificate necesare. În 2018, au fost comandate peste 4000 de lucrări modificate pentru acest test, care a fost redus la doar 357 de tipărituri mari modificate și 12 evaluări braille în 2019.

evaluarea poate fi auto-programată, oferind profesorilor flexibilitatea de a o utiliza în scopuri de diagnosticare în orice moment al anului. Cu toate acestea, în primul an, multe școli s-au lipit de perioada tradițională de testare la sfârșitul termenului, deși este posibil ca această practică să se schimbe în viitor, pe măsură ce profesorii devin mai familiarizați cu aceste teste.

cum a fost primit acest nou mod de testare de către profesori?

există multe avantaje ale evaluărilor personalizate în acest scenariu, după cum se detaliază în secțiunea de mai sus. AlphaPlus au primit feedback pozitiv de la profesori pentru pilotul de evaluare a numerației procedurale, care a fost punctul central al acestui studiu de caz. Un chestionar al Profesorului a arătat că 78% au considerat că elevii au fost implicați, 83% au considerat că evaluările au lungimea corectă, iar peste 60% au considerat că elevul și rapoartele de feedback sunt utile.

cu toate acestea, în timpul prezentării sale la Conferința depășește 2019, Gavin a observat că există încă unele bariere de depășit pe măsură ce mentalitatea se schimbă de la testarea pe hârtie. Cu o evaluare personalizată, algoritmul se oprește odată ce poate oferi cu încredere o estimare a abilităților, astfel încât unii cursanți văd mai multe întrebări decât alții, ceea ce nu s-ar întâmpla la un test pe hârtie.

„există o parte a culturii noastre de hârtie care este atât de adânc înrădăcinată încât corectitudinea înseamnă să faci exact același lucru pentru toți oamenii, chiar dacă este o potrivire teribilă pentru unii dintre acești oameni…mesajul de personalizare nu a ajuns încă la toți profesorii.”

Gavin Busuttil-Reynaud, AlphaPlus

în plus, deoarece o pisică este concepută pentru a provoca cursanții cu abilități ridicate, candidaților li se pot prezenta întrebări din grupe de vârstă mai în vârstă pe care nu le-au fost predate în mod oficial. În timp ce obiectivul acestui lucru este de a arăta cursanților la ce pot trece sau chiar de a demonstra capacități dincolo de grupa lor de vârstă, Gavin a continuat să observe:

„unii profesori îmbrățișează acest lucru … alții cred că este groaznic că un elev a fost întrebat ceva ce nu va fi predat până anul viitor și cred că predarea lor este judecată pe ceva ce nu au fost încă predate… există încă o călătorie culturală masivă pentru toată lumea pentru că aceste teste sunt atât de diferite de practica actuală, dar scopul principal al tuturor acestor lucruri este de a oferi un feedback detaliat.”

Gavin Busuttil-Reynaud, AlphaPlus

prioritatea acestor teste este de a informa predarea și învățarea cu rapoarte detaliate bazate pe toate datele disponibile concepute pentru a ajuta profesorii să identifice domeniile de îmbunătățire și nu sunt utilizate ca măsură de responsabilitate școlară. Nici un scor este dat pe raportul cursantului, doar declarații de fapt pentru a evidenția punctele forte și punctele slabe.

profesorul este prevăzut cu un profil de competențe pentru clasa lor, oferindu-le o indicație de unde să se concentreze predarea lor, furnizarea de date fiabile sunt disponibile, precum și diagrame de călătorie cursantului, care arată calea au luat prin testul și poate arăta modele de comportament cursantului.

Rob Nicholson, directorul școlii comunitare Borras Park ai cărei cursanți au participat la aceste evaluări au comentat:

„evaluările personalizate pot fi utilizate alături de alte forme de evaluare pe care școlile have…it poate fi folosit pentru a solidifica doar scoruri și evaluări și cunoștințe ale copilului.”

Rob Nicholson, directorul școlii comunitare Borras Park

cum au fost primite evaluările personalizate de către cursanți?

pentru acest proiect, echipa a fost conștientă de vârsta fragedă a cursanților, astfel încât pilotul de test depășește a fost personalizat pentru a simplifica interfața și a crea cea mai bună experiență posibilă. Testele ar putea fi livrate pe computere desktop, laptopuri sau tablete, ceea ce a fost important din cauza inconsecvenței hardware-ului Disponibil în școlile din toată țara.

fiecare candidat este contestat de întrebările care le sunt prezentate, astfel încât să poată demonstra ceea ce știu mai degrabă decât ceea ce nu, cu algoritmul conceput astfel încât cursanții să obțină 50% din articole corecte și 50% greșite. Pentru prima dată, unii dintre cei cu rezultate înalte au găsit întrebări cu care nu erau familiarizați, în timp ce cei cu rezultate mai mici au câștigat încredere prin faptul că au putut răspunde la unele dintre întrebări.

„pentru cursanții de la capătul inferior al spectrului de abilități, de obicei, atunci când făceau testul pe hârtie, ar fi greșit undeva între 90-95% din articole. Ce experiență incredibil de descurajantă. Dar au ieșit din acest test adaptiv mergând, aș putea să o fac!… Și înalții fluturași care treceau printr-un test de hârtie în zece minute deodată spun acum: ‘a fost un test dificil, trebuia să mă gândesc’…cel puțin îi face să-și dea seama că mai este ceva la care să treacă.”

Gavin Busuttil-Reynaud, AlphaPlus

cursanții sunt, în general, nemulțumiți de o mutare pe ecran, după cum a observat Jenny Jones, director adjunct al școlii comunitare Borras Park:

„sunt obișnuiți să lucreze online, sunt obișnuiți să-și folosească iPad-urile sau computerele, astfel încât să se simtă încrezători că le folosesc. E o activitate distractivă.”

Jenny Jones, director adjunct al școlii comunitare Borras Park

au existat, de asemenea, beneficii pentru acei cursanți cu deficiențe de vedere sau cerințe de accesibilitate care ar însemna de obicei că necesită o versiune modificată a testului de hârtie. Singura diferență reală este în cazul în care diagramele sunt incluse, astfel încât o versiune simplificată sau o versiune braille este inclusă într-o broșură de hârtie. Instrumentele de accesibilitate, cum ar fi o lupă și un cititor de ecran, înseamnă că testul de pe ecran este accesibil cât mai multor persoane. AlphaPlus a lucrat cu cursanții cu deficiențe de vedere și a concluzionat că cursanții preferă din toată inima versiunile online și nu sunt uimiți de instrumentele de accesibilitate, deoarece este modul lor obișnuit de lucru și salută posibilitatea de a lucra la un computer la fel ca toți ceilalți.

concluzie

studiul de caz al unei implementări CAT naționale de succes în Marea Britanie demonstrează că acest tip de testare poate fi introdus și poate avea beneficii semnificative față de testele fixe, în special într-un cadru formativ. Testele mai scurte, personalizate, cu conținut adecvat cursantului, oferă o implicare mai mare a cursantului și o experiență mai bună a cursantului. Rezultatele sunt procesate mai repede, astfel încât acestea pot fi revizuite cu elevul în timp ce experiența lor de evaluare este încă proaspătă în mintea lor.

rezultatele valide din punct de vedere psihometric, împreună cu datele bogate despre fiecare candidat, oferă o mai bună înțelegere a ceea ce sunt capabili cursanții și, utilizate împreună cu alți indicatori, pot informa mai bine predarea și învățarea și pot oferi cele mai bune oportunități posibile pentru progresul cursantului.

comentând munca cu școlarii din țara Galilor, Roger Murphy, profesor emerit de educație la Universitatea Nottingham a declarat:

„este o caracteristică a sistemului de învățământ din țara Galilor, care este urmărit foarte atent de multe țări din întreaga lume.”

Roger Murphy, profesor emerit de educație la Universitatea Nottingham

cu toate acestea, trebuie remarcat faptul că CAT nu va fi adecvat în toate scenariile. Pisica se limitează la tipuri de întrebări obiective, restricționând tipul de abilități care pot fi testate, iar opinia general acceptată este că producerea unei pisici este costisitoare. Poate, pe măsură ce tehnologia de evaluare progresează și mai mult, funcționalitatea, cum ar fi generarea automată de articole, ar putea atenua unele dintre implicațiile costurilor în jurul creării unor bănci de articole mai mari. În cele din urmă, costul de producție trebuie cântărit în raport cu beneficiile pentru a determina dacă CAT este calea cea bună pentru programul dvs. de testare.

dacă sunteți interesat să aflați mai multe despre evaluările personalizate din depășește, vă rugăm să discutați cu managerul de cont depășește.