Computer Adaptive Testing: Background, benefits and case study of a large – scale national testing programme

Computer Adaptive Testing (CAT) is a hot topic Among the assessment community, however, despite its many benefits, it still isn’t very widely used. Neste artigo, vamos dar-lhe uma visão geral da CAT, um resumo de alguns dos benefícios, e sem muito jargão, uma visão geral da tecnologia por trás dela. Para ajudar a contextualizá-lo, vamos fazer referência a um estudo de caso recente de como a tecnologia de gatos em Surpass tem sido usada para fornecer um inovador programa de avaliação personalizada nacional que está mudando a forma da Educação Nacional. O que é um teste adaptativo ao computador?

simplificando, um teste adaptativo ao computador (por vezes referido como avaliação personalizada) é um teste que se adapta à capacidade do candidato em tempo real, selecionando diferentes perguntas do banco, a fim de fornecer uma medida mais precisa do seu nível de capacidade em uma escala comum.

o que é um teste adaptativo para computador como para um candidato?

uma avaliação personalizada retira perguntas de um grande conjunto de itens que foram cuidadosamente calibrados a fim de determinar o seu nível de dificuldade (mais sobre isso na próxima seção).

quando um candidato começa o seu teste, eles são apresentados pela primeira vez com um item de dificuldade média considerada apropriada para o seu grupo de ano. Se eles fizerem a pergunta certa, o próximo item que virem será um pouco mais difícil, se eles fizerem mal, eles verão um item um pouco mais fácil. O sistema está constantemente calculando a capacidade estimada do candidato, dependendo do que ele está certo e errado, e apresentando-lhes um conjunto personalizado de itens até que o nível de confiança na estimativa da capacidade tenha excedido um nível pré-definido (ou o número máximo de perguntas foram apresentadas) e o teste termina. À medida que cada aluno toma um caminho diferente através do teste, com um conjunto diferente de perguntas, eles podem potencialmente receber testes de um comprimento diferente.

ao contrário de um linear de teste que, em alguns cenários de apenas fornecer resultados úteis para os alunos de média capacidade, com um diagnóstico personalizado, todos os itens apresentados para o candidato são projetados para ser um desafio; o número de fácil itens que são apresentados à alta capacidade de candidatos é reduzido, assim como o número de questões difíceis para baixa capacidade candidatos, nem como dar uma indicação clara da capacidade desses alunos.Como tudo é pontuado em tempo real, no final do teste o candidato pode receber feedback imediato sob a forma de declarações de capacidade em oposição a uma pontuação ou grau bruto, que fornece informações factuais sobre os seus pontos fortes e fracos com base nas perguntas que responderam.

como funciona um teste adaptativo ao computador no Surpass?

para que um gato funcione, necessita de dados fiáveis e de um banco de itens abrangente, com uma boa distribuição da cobertura de Conteúdo e nível de dificuldade. Isto significa que o banco de itens deve ser calibrado primeiro através de pré-testes. Esta é uma das principais barreiras para CAT como um banco de itens maior e extenso trabalho é necessário para obter dados confiáveis antes de quaisquer testes ao vivo pode ser entregue. A regra geral é que um item deve ser exposto um mínimo de 200 vezes antes que dados confiáveis possam ser gerados. Usando estes dados de exposição, a teoria de Resposta de Item (IRT) é então usada para calcular OS parâmetros IRT para cada um dos itens no banco. Estes parâmetros IRT incluem a dificuldade do item, e a discriminação do item, i.e. o fator que determina o quanto um aumento na capacidade de um candidato terá na probabilidade de que eles obtenham esse item correto. In Surpass, these values are attached to the items as tags.

é gerado um “modelo” de teste que determina fatores como a cobertura do conteúdo do teste. Muitos outros parâmetros também podem ser especificados, incluindo, o número mínimo e máximo de itens para apresentar e parar condições. Um pool de itens é criado que contém todos os itens que podem aparecer no teste.

enquanto que com um ensaio linear, o sistema sabe quais os itens que serão entregues antes do início do ensaio, com um ensaio adaptativo, um algoritmo selecciona o próximo item em tempo real, no ponto em que o candidato clica o botão “Seguinte” no condutor do ensaio. O algoritmo trabalha para o projeto para garantir uma boa cobertura de todas as áreas de Conteúdo e controla a exposição de itens em todo o banco como um todo (de modo que alguns itens não são apresentados mais frequentemente do que outros), o que significa que todo o banco de itens é mais eficientemente usado. O algoritmo é capaz de suportar até três parâmetros IRT – dificuldade, discriminação e adivinhação.

in Surpass, all of this clever logic happens in just 300 milliseconds of the learner selecting ‘Next’ to move to the next question, meaning there’s never a delay to the candidate. O algoritmo continua até que a capacidade do candidato tenha sido estimada para o nível necessário de precisão.

a equipe Surpass tem trabalhado duro para garantir que o sistema pode lidar com esses grandes volumes de dados sem afetar o desempenho. Os aplicativos Azure da Microsoft foram utilizados que são automaticamente escaláveis, dependendo dos volumes esperados, e o rendimento (número de pedidos por segundo) foi testado em volumes muito mais elevados do que os que estão sendo entregues atualmente.

um dos principais benefícios da avaliação adaptativa entregue através do Surpass é que não só você pode fazer uso da funcionalidade de relatórios padrão, mas relatórios sob medida podem ser definidos e gerados através da API Surpass, fazendo uso de todos os dados ricos que são produzidos a partir de um teste adaptativo. Os relatórios podem mostrar viagens individuais de candidatos ao longo do teste, bem como relatórios sobre um grupo ou classe ou mesmo a nível nacional.

quais são os benefícios do CAT sobre testes baseados em papel?

existem inúmeros benefícios para CAT sobre testes baseados em papel para avaliação formativa (desde que o banco de itens foi devidamente calibrado), incluindo:

informação precisa para candidatos de todas as capacidades

testes lineares tradicionais, onde todos os candidatos recebem o mesmo conjunto de itens, só realmente desafiar o terço médio dos alunos. Um gato é projetado para desafiar os alunos de todos os níveis de capacidade, proporcionando e imagem precisa e útil da capacidade mais magra para todos.

diminuição da carga de trabalho dos professores

muitos testes de nível escolar ainda são entregues no papel, o que representa uma carga de trabalho significativa para os professores com a marcação e administração dos resultados. Pontuação imediata e feedback preciso do aluno específico dá aos professores mais tempo para se concentrar no ensino, e implementar feedback para ajudar seus alunos a progredir.

potencial para on-demand

com uma avaliação personalizada no ecrã, não há restrição para entregar dentro da janela de teste de papel, o que significa que eles podem ser entregues para fins diagnósticos em qualquer ponto ao longo do ano, quando o professor sente que é adequado. Como todos os alunos recebem um teste personalizado, não há necessidade de que a coorte todos façam o teste exatamente ao mesmo tempo.

feedback mais preciso que pode ser feito imediatamente

feedback mais preciso pode ser fornecido imediatamente após o teste na forma de declarações de habilidade baseadas na competência, em vez de uma pontuação. Isto indica às áreas candidatas que fizeram bem, e áreas que podem precisar de melhorar. Este tipo de feedback é mais útil na avaliação formativa, demonstrando aos aprendentes que existem áreas para progredir ou orientação construtiva sobre onde melhorar. Os professores também podem ver o desempenho de uma classe como um todo, indicando áreas em que eles podem precisar de focar o seu ensino.Com questões que desafiam os alunos de todas as capacidades, o envolvimento dos alunos ao longo do teste é melhor mantido. Os de baixo desempenho são encorajados, e os de alto desempenho são desafiados. Avaliações adaptativas também podem levar menos tempo para completar do que um teste linear tradicional, com uma medição de capacidade precisa alcançada em um tempo mais curto.

utilizar CAT para um Programa Nacional de testes de grande escala no Reino Unido: Um estudo de caso

na Conferência Surpass de 2019, Gavin Busuttil-Reynaud da AlphaPlus atualizou a comunidade Surpass sobre o uso de Testes Adaptativos construídos em Surpass para um programa de testes nacionais em larga escala de crianças do ensino primário e secundário no País De Gales. Alguns dos pontos-chave estão resumidos aqui, ou você pode alcançar a apresentação na íntegra, assistindo este vídeo.

depois de introduzir testes nacionais para crianças em idade escolar no País de Gales (Reino Unido) no papel, em 2013, foi realizado um estudo de viabilidade para determinar como poderia ser entregue na tela. Em 2018, a transição faseada destes testes para Testes Adaptativos a computadores começou, sendo o primeiro a numeracia processual, e a ser seguido por leitura e raciocínio numérico. Isto é considerado revolucionário, considerando que testes baseados em papel ainda domina os programas de testes do governo global. Em 2004, Ken Boston, então chefe da Autoridade de qualificações e currículos, afirmou que “a avaliação em ecrã tocará em breve a vida de todos os alunos do país”, sendo um dos seus objectivos para os próximos 5 anos que ” todas as novas qualificações incluiriam uma opção para a avaliação em ecrã.”Como sabemos, passados 15 anos, tal não é o caso, com muitas qualificações ainda entregues apenas no papel, o que torna os resultados do projecto no País de Gales ainda mais notáveis, especialmente para a avaliação pré-16. Apenas no primeiro ano, 268 000 alunos fizeram uma avaliação personalizada da numeracia processual, que equivale a 96% da coorte de estudantes nos anos 2-9 no País De Gales, correspondendo à taxa de conclusão dos testes em papel.

a introdução da avaliação na tela também viu uma redução significativa no número de papéis modificados necessários. Em 2018, mais de 4000 artigos modificados foram encomendados para este teste, que foi reduzido para apenas 357 letras grandes modificadas e 12 avaliações em braille em 2019.

a avaliação pode ser auto-programada, dando aos professores a flexibilidade para usá-la para fins de diagnóstico em qualquer ponto do ano. No entanto, no primeiro ano, muitas escolas mantiveram o tradicional período de teste final do termo, embora seja possível que esta prática venha a mudar no futuro, à medida que os professores se familiarizarem mais com estes testes.Como é que esta nova forma de testar foi recebida pelos professores?

neste cenário, as avaliações personalizadas apresentam muitos benefícios, tal como descrito na secção anterior. AlphaPlus recebeu feedback positivo dos professores para o piloto de avaliação da numeracia processual, que tem sido o foco deste estudo de caso. Um questionário para professores revelou que 78% pensavam que os alunos estavam envolvidos, 83% pensavam que as avaliações eram a duração certa, e mais de 60% consideraram os relatórios do aluno e do feedback úteis.

no entanto, durante sua apresentação em conferência de 2019, Gavin observou que ainda existem algumas barreiras para superar à medida que a mentalidade muda de testes baseados em papel. Com uma avaliação personalizada, o algoritmo pára uma vez que ele pode dar confiantemente uma estimativa de capacidade, para que alguns alunos vêem mais perguntas do que outros, o que não aconteceria em um teste de papel.

“há uma parte da nossa cultura de papel que está tão profundamente enraizada que a justiça é fazer exatamente o mesmo para todas as pessoas, mesmo que seja um ajuste terrível para algumas dessas pessoas…a mensagem de personalização ainda não chegou a todos os professores.”

Gavin Busuttil-Reynaud, AlphaPlus

adicionalmente, uma vez que um gato é projetado para desafiar os alunos de alta capacidade, os candidatos podem ser presenteados com perguntas de grupos etários mais velhos que eles não foram formalmente ensinados. Enquanto o objetivo disso é mostrar aos alunos o que eles podem seguir em frente, ou mesmo demonstrar capacidades além de sua faixa etária, Gavin passou a observar:

“alguns professores abraçam isso … outros pensam que é terrível que um aluno tenha sido perguntado algo que não será ensinado até o próximo ano e pensam que seu ensino está sendo julgado em algo que ainda não foi ensinado… ainda há uma enorme Jornada cultural para todos continuarem, porque estes testes são tão diferentes da prática atual, mas o principal objetivo de tudo isso é fornecer algum feedback detalhado.”

Gavin Busuttil-Reynaud, AlphaPlus

a prioridade destes testes é informar o ensino e a aprendizagem com relatórios detalhados baseados em todos os dados disponíveis concebidos para ajudar os professores a identificar áreas para melhoria, e eles não são usados como uma medida de responsabilidade escolar. Não é dada qualquer pontuação no relatório do aluno, apenas declarações factuais para realçar pontos fortes e pontos fracos.

o Professor tem um perfil de competências para a sua classe, dando-lhes uma indicação de onde concentrar o seu ensino, fornecendo dados fiáveis está disponível, bem como mapas de viagem dos alunos, que mostram o caminho que percorreram através do teste e podem mostrar padrões de comportamento dos alunos.Rob Nicholson, Director da Escola Comunitária de Borras Park, cujos alunos frequentaram estas avaliações, comentou::

“as avaliações personalizadas podem ser utilizadas juntamente com outras formas de avaliação que as escolas have…it pode ser usado apenas para solidificar pontuações e avaliações e conhecimento da criança.”

Rob Nicholson, Headteacher of Borras Park Community School

How have the personalized assessments been received by learners?

para este projecto, a equipa estava atenta à idade jovem dos alunos, pelo que o piloto de testes Surpass foi personalizado para simplificar a interface e criar a melhor experiência possível. Os testes poderiam ser entregues em computadores de mesa, laptops, ou dispositivos tablet, o que era importante devido à inconsistência de hardware disponível em escolas em todo o país.

crianças a aprender em comprimidos

cada candidato é desafiado pelas perguntas apresentadas a eles, para que eles possam demonstrar o que eles sabem ao invés do que eles não sabem, com o algoritmo projetado para que os alunos obter 50% dos itens certos, e 50% errado. Pela primeira vez, alguns empreendedores encontraram questões que não estavam familiarizados, enquanto os mais fracos ganhavam confiança ao serem capazes de responder algumas das perguntas.

“para os alunos na extremidade inferior do espectro de habilidade, normalmente, quando eles estavam fazendo o teste de papel, eles iriam chegar em algum lugar entre 90-95% dos itens errados. Que experiência incrivelmente desanimadora. Mas eles saem deste teste adaptativo indo, eu poderia fazê-lo!…E os high flyers que passavam por um teste de papel em dez minutos, de repente, dizem: “foi um teste difícil, tive de pensar” …pelo menos, está a fazê-los perceber que há outra coisa para seguir em frente.”

Gavin Busuttil-Reynaud, AlphaPlus

Alunos são geralmente impressionam por um movimento na tela, como Jenny Jones, Vice-Director de Borras, Parque de Escola de Comunidade, observadas:

“Eles são usados para o trabalho on-line, eles estão acostumados a usar seus iPads ou os computadores para que eles se sintam confiantes de usá-los. É uma actividade divertida.”

Jenny Jones, Professora Adjunta da Escola Comunitária de Borras Park

também houve benefícios para aqueles alunos com uma deficiência visual ou requisitos de acessibilidade que normalmente significaria que eles necessitam de uma versão modificada do teste de papel. A única diferença real é onde os diagramas são incluídos de modo que uma versão simplificada ou em braille é incluída em um livreto de papel. Ferramentas de acessibilidade como uma lupa e um leitor de tela significam que o teste na tela é acessível a tantas pessoas quanto possível. A AlphaPlus trabalhou com alunos com deficiência visual e concluiu que os alunos “preferem de todo o coração as versões online” e são desafiados por ferramentas de acessibilidade como é a sua maneira habitual de trabalhar, e bem-vindos sendo capazes de trabalhar em um computador como todos os outros.

conclusão

o estudo de caso de uma implementação nacional de CAT bem sucedida no Reino Unido demonstra que este tipo de teste pode ser introduzido, e pode ter benefícios significativos sobre testes fixos, particularmente num contexto formativo. Testes mais curtos e personalizados com conteúdos adequados ao aluno proporcionam um maior envolvimento do aluno e uma melhor experiência do aluno. Os resultados são processados mais rapidamente, para que possam ser revistos com o aluno enquanto a sua experiência de avaliação Ainda está fresca na sua mente.Os resultados Psicometricamente válidos, juntamente com dados ricos sobre cada candidato, dão uma maior compreensão do que os alunos são capazes e, utilizados em conjunto com outros indicadores, podem informar melhor o ensino e a aprendizagem e dar as melhores oportunidades possíveis para a progressão do aluno.Roger Murphy, Professor Emérito de Educação na Universidade de Nottingham, comentou sobre o trabalho com crianças em idade escolar no País De Gales.:

” é uma característica do sistema educacional no País De Gales, que está sendo vigiado de muito perto por muitos países em todo o mundo.”

Roger Murphy, Emérito Professor de Educação na Universidade de Nottingham

no entanto, deve-se notar que CAT não vai ser apropriado em todos os cenários. O CAT limita-se a tipos de perguntas objectivas, restringindo o tipo de competências que podem ser testadas e a opinião geralmente aceite é que a produção de um gato é dispendiosa. Talvez, à medida que a tecnologia de avaliação avança ainda mais, funcionalidade como a geração automática de itens poderia mitigar algumas das implicações de custo em torno da criação de maiores bancos de itens. Em última análise, o custo de produção deve ser ponderado contra os benefícios para determinar se CAT é o caminho certo para ir para o seu programa de testes. Se estiver interessado em aprender mais sobre avaliações personalizadas em Surpass, por favor fale com o seu gestor de conta Surpass.