Computer Adaptive Testing: Background, benefici e casi di studio di un programma di test nazionale su larga scala
Computer Adaptive Testing (CAT) è un tema caldo tra la comunità di valutazione, tuttavia, nonostante i suoi numerosi vantaggi, non è ancora molto In questo articolo, stiamo andando a darvi una panoramica di CAT, un run-down di alcuni dei vantaggi, e senza troppo gergo, una panoramica della tecnologia dietro di esso. Per contribuire a contestualizzarlo, faremo riferimento a un recente caso di studio su come la tecnologia CAT in Surpass è stata utilizzata per fornire un innovativo programma nazionale di valutazione personalizzata che sta cambiando la forma dell’educazione nazionale.
Che cos’è un test adattivo per computer?
In parole povere, un test adattivo al computer (a volte indicato come valutazione personalizzata) è un test che si adatta alle capacità del candidato in tempo reale selezionando diverse domande dalla banca al fine di fornire una misura più accurata del loro livello di abilità su una scala comune.
Che cosa è un Computer Adaptive Test come per un candidato?
Una valutazione personalizzata raccoglie domande da un ampio pool di elementi che sono stati accuratamente calibrati al fine di determinare il loro livello di difficoltà (maggiori informazioni nella sezione successiva).
Quando un candidato inizia il test, viene presentato per la prima volta un elemento di media difficoltà ritenuto appropriato per il proprio gruppo di anni. Se ottengono quella domanda giusta, il prossimo elemento che vedono sarà leggermente più difficile, se lo sbagliano, vedranno un elemento leggermente più semplice. Il sistema calcola costantemente la capacità stimata del candidato a seconda di ciò che ottiene nel modo giusto e sbagliato, e presenta loro un set personalizzato di elementi fino a quando il livello di fiducia nella stima della capacità ha superato un livello predefinito (o il numero massimo di domande è stato presentato) e il test termina. Poiché ogni studente prende un percorso diverso attraverso il test, con un diverso insieme di domande, può potenzialmente ricevere test di una lunghezza diversa.
In contrasto lineare test, che in alcuni scenari dare solo risultati utili per gli studenti di media capacità, con un servizio personalizzato e di valutazione, tutti gli elementi presentati al candidato sono progettati per essere impegnativo; il numero di easy elementi che vengono presentati per alta capacità dei candidati è ridotto, così come il numero di domande difficili per la bassa capacità dei candidati, né come dare una chiara indicazione della capacità dei discenti.
Poiché tutto è segnato in tempo reale, alla fine del test il candidato può ricevere un feedback immediato sotto forma di dichiarazioni di abilità anziché un punteggio grezzo o un voto, che fornisce informazioni fattuali sui loro punti di forza e di debolezza in base alle domande a cui ha risposto.
Come funziona un Computer Adaptive Test in Surpass?
Affinché un GATTO funzioni, ha bisogno di dati affidabili e di una banca di articoli completa con una buona diffusione della copertura dei contenuti e del livello di difficoltà. Ciò significa che la banca dell’articolo deve prima essere calibrata attraverso il pre-test. Questo è uno degli ostacoli chiave per CAT come una banca di oggetti più grande e un ampio lavoro è necessario per ottenere dati affidabili prima di qualsiasi test dal vivo può essere consegnato. La regola generale è che un elemento deve essere esposto almeno 200 volte prima di generare dati affidabili. Utilizzando questi dati di esposizione, Item Response Theory (IRT) viene quindi utilizzato per calcolare i parametri IRT per ciascuno degli elementi della banca. Questi parametri IRT includono la difficoltà dell’articolo e la discriminazione dell’articolo, cioè il fattore che determina quanto un aumento della capacità di un candidato avrà sulla probabilità di loro ottenere tale elemento corretto. In Surpass, questi valori sono collegati agli elementi come tag.
Viene generato un test ‘blueprint’ che determina fattori come la copertura del contenuto del test. Molti altri parametri possono anche essere specificati, tra cui, numero minimo e massimo di elementi per presentare e condizioni di arresto. Viene creato un pool di elementi che contiene tutti gli elementi che potrebbero apparire nel test.
Mentre con un test lineare, il sistema sa quali elementi verranno consegnati prima dell’inizio del test, con un test adattivo, un algoritmo seleziona l’elemento successivo in tempo reale, nel punto in cui il candidato fa clic sul pulsante “avanti” nel driver di prova. L’algoritmo lavora al blueprint per garantire una buona copertura di tutte le aree di contenuto e controlla l’esposizione degli articoli in tutta la banca nel suo complesso (in modo che alcuni articoli non vengano presentati più frequentemente di altri), il che significa che l’intera banca degli articoli viene utilizzata in modo più efficiente. L’algoritmo è in grado di supportare fino a tre parametri IRT: difficoltà, discriminazione e ipotesi.
In Surpass, tutta questa logica intelligente avviene in soli 300 millisecondi dallo studente che seleziona ‘Next’ per passare alla domanda successiva, il che significa che non c’è mai un ritardo per il candidato. L’algoritmo continua fino a quando la capacità del candidato è stata stimata al livello di precisione richiesto.
Il team di Surpass ha lavorato duramente per garantire che il sistema possa gestire questi grandi volumi di dati senza influire sulle prestazioni. Sono state utilizzate app Microsoft Azure che sono scalabili automaticamente in base ai volumi previsti e il throughput (numero di richieste al secondo) è stato testato a volumi molto più alti di quelli attualmente in consegna.
Uno dei vantaggi chiave della valutazione adattiva fornita attraverso Surpass è che non solo è possibile utilizzare la funzionalità di reporting standard, ma i report personalizzati possono essere definiti e generati tramite l’API Surpass, facendo uso di tutti i ricchi dati prodotti da un test adattivo. I rapporti possono mostrare i viaggi dei singoli candidati durante il test, nonché i rapporti su un gruppo o una classe o anche a livello nazionale.
Quali sono i vantaggi di CAT rispetto ai test cartacei?
Ci sono numerosi vantaggi per CAT rispetto ai test cartacei per la valutazione formativa (a condizione che la banca degli articoli sia stata calibrata correttamente) tra cui:
Informazioni precise per i candidati di tutte le abilità
I test lineari tradizionali, in cui tutti i candidati ricevono lo stesso set di articoli, sfidano sempre e solo il terzo medio degli studenti. Un GATTO è progettato per sfidare gli studenti di tutti i livelli di abilità, fornendo un’immagine accurata e utile di abilità più snella per tutti.
Diminuzione del carico di lavoro degli insegnanti
Molti test a livello scolastico sono ancora consegnati su carta, il che presenta un carico di lavoro significativo per gli insegnanti con la marcatura e la somministrazione dei risultati. Il punteggio immediato e il feedback specifico dello studente accurato offrono agli insegnanti più tempo per concentrarsi sull’insegnamento e sull’implementazione di feedback per aiutare i loro studenti a progredire.
Potenziale per on-demand
Con una valutazione personalizzata su schermo, non ci sono restrizioni da consegnare all’interno della finestra di test cartaceo, il che significa che possono essere consegnati a scopo diagnostico in qualsiasi momento durante l’anno quando l’insegnante ritiene che sia adatto. Poiché ogni studente riceve un test personalizzato, non c’è bisogno che la coorte si assista al test esattamente nello stesso momento.
Feedback più accurato che può essere attivato immediatamente
Un feedback più accurato può essere fornito immediatamente dopo il test sotto forma di dichiarazioni di abilità basate sulla competenza piuttosto che di un punteggio. Ciò indica alle aree candidate che hanno fatto bene e alle aree che potrebbero aver bisogno di migliorare. Questo tipo di feedback è più utile nella valutazione formativa, dimostrando agli studenti che ci sono aree in cui progredire o indicazioni costruttive su dove migliorare. Gli insegnanti possono anche vedere le prestazioni di una classe nel suo complesso, indicando le aree che potrebbero aver bisogno di concentrare il loro insegnamento su.
Learner engagement
Con domande che sfidano gli studenti di tutte le abilità, l’impegno degli studenti durante il test è meglio mantenuto. I low-achievers sono incoraggiati e gli high-achievers sono sfidati. Le valutazioni adattive possono anche richiedere meno tempo per essere completate rispetto a un test lineare tradizionale, con una misurazione accurata della capacità raggiunta in un tempo più breve.
Utilizzo di CAT per un programma nazionale di test su larga scala nel Regno Unito: Un caso di studio
Alla Conferenza Surpass 2019, Gavin Busuttil-Reynaud di AlphaPlus ha aggiornato la comunità Surpass sull’uso di test adattivi costruiti in Surpass per un programma di test nazionale su larga scala di bambini delle scuole primarie e secondarie in Galles. Alcuni dei punti chiave sono riassunti qui, oppure puoi recuperare il ritardo sulla presentazione per intero guardando questo video.
Dopo aver introdotto test nazionali per gli scolari in Galles (Regno Unito) su carta nel 2013, uno studio di fattibilità è stato condotto nella fase iniziale per determinare come potrebbe essere consegnato sullo schermo. Nel 2018 è iniziata la transizione graduale di questi test ai test adattivi al computer, il primo dei quali è la matematica procedurale, seguito dalla lettura e dal ragionamento numerico. Questo è considerato rivoluzionario considerando che i test cartacei dominano ancora i programmi di test governativi globali. Già nel 2004, Ken Boston, allora capo della Qualifications and Curriculum Authority ha dichiarato che “la valutazione sullo schermo toccherà a breve la vita di ogni studente nel paese”, con uno dei suoi obiettivi per i prossimi 5 anni che ” tutte le nuove qualifiche includerebbero un’opzione per la valutazione sullo schermo.”Come sappiamo, 15 anni dopo, questo non è il caso, con molte qualifiche ancora fornite esclusivamente sulla carta, che rendono i risultati del progetto in Galles ancora più notevoli, in particolare per la valutazione pre-16.
Nel solo primo anno, 268.000 studenti hanno sostenuto una valutazione personalizzata in matematica procedurale che equivale al 96% della coorte di studenti negli anni 2-9 in Galles, corrispondendo al tasso di completamento dei test cartacei.
L’introduzione della valutazione su schermo ha visto anche una significativa riduzione del numero di documenti modificati richiesti. In 2018, oltre 4000 carte modificate sono state ordinate per questo test che è stato ridotto a solo 357 modificato grande stampa e 12 valutazioni braille in 2019.
La valutazione può essere auto-programmata, dando agli insegnanti la flessibilità di utilizzarla per scopi diagnostici in qualsiasi momento dell’anno. Tuttavia, nel primo anno, molte scuole hanno aderito al tradizionale periodo di test di fine mandato, anche se è possibile che questa pratica cambierà in futuro man mano che gli insegnanti acquisiranno maggiore familiarità con questi test.
Come è stato accolto questo nuovo modo di testare dagli insegnanti?
Ci sono molti vantaggi per le valutazioni personalizzate in questo scenario, come dettagliato nella sezione sopra. AlphaPlus ha ricevuto un feedback positivo da parte degli insegnanti per il pilota di valutazione procedurale di numeracy che è stato al centro di questo caso di studio. Un questionario degli insegnanti ha rivelato che il 78% pensava che gli studenti fossero impegnati, l ‘ 83% pensava che le valutazioni fossero della giusta lunghezza e oltre il 60% ha trovato utili i rapporti di apprendimento e feedback.
Tuttavia, durante la sua presentazione alla conferenza Surpass 2019, Gavin ha osservato che ci sono ancora alcune barriere da superare man mano che la mentalità si sposta dai test cartacei. Con una valutazione personalizzata, l’algoritmo si ferma una volta che può fornire con sicurezza una stima delle capacità, quindi alcuni studenti vedono più domande di altri, cosa che non succederebbe su un test cartaceo.
“C’è una parte della nostra cultura cartacea che è così profondamente radicata che l’equità consiste nel fare esattamente lo stesso per tutte le persone, anche se è una misura terribile per alcune di quelle persone the il messaggio di personalizzazione non è ancora arrivato a tutti gli insegnanti.”
Gavin Busuttil-Reynaud, AlphaPlus
Inoltre, poiché un GATTO è progettato per sfidare gli studenti ad alta capacità, i candidati possono essere presentati con domande provenienti da gruppi di età più avanzata che non sono stati formalmente insegnati. Mentre l ” obiettivo di questo è quello di mostrare gli studenti che cosa possono passare a, o anche dimostrare le capacità al di là della loro fascia di età, Gavin ha continuato a osservare:
“Alcuni insegnanti abbracciare questo… pensano gli altri è terribile che uno studente era stato chiesto qualcosa che non va insegnato fino al prossimo anno e pensano che il loro insegnamento è di essere giudicati su qualcosa che ancora non è stato insegnato ancora… C’è ancora un enorme viaggio culturale per tutti coloro che vogliono andare sul perché questi test sono così diversi dalla pratica corrente, ma lo scopo principale di tutto questo è di fornire un feedback dettagliato.”
Gavin Busuttil-Reynaud, AlphaPlus
La priorità di questi test è informare l’insegnamento e l’apprendimento con report dettagliati basati su tutti i dati disponibili progettati per aiutare gli insegnanti a identificare le aree di miglioramento e non vengono utilizzati come misura di responsabilità scolastica. Nessun punteggio è dato sul rapporto studente, solo dichiarazioni di fatto per evidenziare i punti di forza e di debolezza.
L’insegnante è dotato di un profilo di competenze per la loro classe, dando loro un’indicazione di dove concentrare il loro insegnamento, fornendo dati affidabili sono disponibili, così come i grafici di viaggio degli studenti, che mostrano il percorso che hanno preso attraverso il test e possono mostrare modelli di comportamento degli studenti.
Rob Nicholson, preside della Borras Park Community School i cui studenti hanno sostenuto queste valutazioni hanno commentato:
“Le valutazioni personalizzate possono essere utilizzate insieme ad altre forme di valutazione che le scuole have…it può essere utilizzato per solidificare solo i punteggi e le valutazioni e la conoscenza del bambino.”
Rob Nicholson, preside della Borras Park Community School
Come sono state ricevute le valutazioni personalizzate dagli studenti?
Per questo progetto, il team era consapevole della giovane età degli studenti, e così il test driver Surpass è stato personalizzato per semplificare l’interfaccia e creare la migliore esperienza possibile. I test potrebbero essere consegnati su computer desktop, laptop o dispositivi tablet, il che era importante a causa dell’incoerenza dell’hardware disponibile nelle scuole in tutto il paese.
Ogni candidato è sfidato dalle domande presentate loro, in modo che possano dimostrare ciò che sanno piuttosto che ciò che non lo fanno, con l’algoritmo progettato in modo che gli studenti ottengano il 50% degli elementi giusti e il 50% sbagliato. Per la prima volta, alcuni high achievers trovato domande che non avevano familiarità con, mentre i più bassi achievers guadagnato fiducia essendo in grado di rispondere ad alcune delle domande.
“Per gli studenti all’estremità inferiore dello spettro di abilità, in genere, quando stavano facendo il test di carta, avrebbero ottenuto da qualche parte tra il 90-95% degli elementi sbagliati. Che esperienza incredibilmente scoraggiante. Ma escono da questo test adattivo andando, potrei farlo!the E gli high flyers che sfrecciavano attraverso un test di carta in dieci minuti improvvisamente ora dicono: “è stato un test difficile, ho dovuto pensare”least almeno sta facendo loro capire che c’è qualcos’altro da passare.”
Gavin Busuttil-Reynaud, AlphaPlus
Gli studenti sono generalmente impassibili da un passaggio sullo schermo, come ha osservato Jenny Jones, vice preside della Borras Park Community School:
“Sono abituati a lavorare online, sono abituati a usare i loro iPad o i computer in modo che si sentano sicuri di usarli. È un’attività divertente.”
Jenny Jones, vice preside della Borras Park Community School
Ci sono stati anche benefici per gli studenti con disabilità visiva o requisiti di accessibilità che di solito significano che richiedono una versione modificata del test cartaceo. L’unica vera differenza è dove i diagrammi sono inclusi in modo da una versione semplificata o versione braille è incluso in un libretto di carta. Strumenti di accessibilità come una lente di ingrandimento e un lettore di schermo significano che il test sullo schermo è accessibile a quante più persone possibile. AlphaPlus ha lavorato con gli studenti ipovedenti e concludere che gli studenti ‘con tutto il cuore preferiscono le versioni online’ e sono impassibili da strumenti di accessibilità come è il loro solito modo di lavorare, e benvenuto essere in grado di lavorare a un computer come tutti gli altri.
Conclusione
Il caso studio di un’implementazione CAT nazionale di successo nel Regno Unito dimostra che questo tipo di test può essere introdotto e può avere vantaggi significativi rispetto ai test fissi, in particolare in un contesto formativo. Test più brevi e personalizzati con contenuti appropriati per gli studenti offrono un maggiore coinvolgimento degli studenti e un’esperienza migliore. I risultati vengono elaborati più velocemente, in modo che possano essere rivisti con lo studente mentre la loro esperienza di valutazione è ancora fresca nella loro mente.
I risultati psicometricamente validi insieme ai ricchi dati su ogni candidato offrono una maggiore comprensione di ciò di cui gli studenti sono capaci e, utilizzati in combinazione con altri indicatori, possono informare meglio l’insegnamento e l’apprendimento e dare le migliori opportunità possibili per la progressione dello studente.
Commentando il lavoro con gli scolari in Galles, Roger Murphy, professore emerito di educazione alla Nottingham University ha dichiarato:
“E’ una caratteristica del sistema educativo in Galles che viene osservato molto da vicino da molti paesi in tutto il mondo.”
Roger Murphy, Professore emerito di Educazione alla Nottingham University
Tuttavia, va notato che CAT non sarà appropriato in tutti gli scenari. Il GATTO è limitato a tipi di domande oggettive, limitando il tipo di abilità che possono essere testate e la visione generalmente accettata è che produrre un GATTO è costoso. Forse, man mano che la tecnologia di valutazione progredisce ulteriormente, funzionalità come la generazione automatica di articoli potrebbero mitigare alcune delle implicazioni sui costi della creazione di banche di articoli più grandi. In definitiva, il costo da produrre deve essere valutato rispetto ai benefici per determinare se CAT è la strada giusta da percorrere per il tuo programma di test.
Se sei interessato a saperne di più sulle valutazioni personalizzate in Surpass, contatta il tuo Account Manager Surpass.