コンピュータ適応テスト:大規模な国家試験プログラムの背景、利点、ケーススタディ

コンピュータ適応テスト(CAT)は、評価コミュニティの中でホットなトピックですが、その多くの利点にもかかわらず、まだあまり広く使用されていません。 この記事では、CATの概要、いくつかの利点の概要、および専門用語をあまり使用せずに、その背後にある技術の概要を説明します。 それを文脈化するのを助けるために、私たちはSurpassのCAT技術が、国家教育の形を変えている革新的な国家パーソナライズされた評価プログラムを提供す

コンピュータ適応テストとは何ですか?

簡単に言えば、コンピュータ適応テスト(個人化された評価と呼ばれることもあります)は、共通のスケールで能力レベルのより正確な尺度を提供するために、銀行から異なる質問を選択することによって、候補者の能力にリアルタイムで適応するテストです。

候補者のためのコンピュータ適応テストのようなものは何ですか?

パーソナライズされた評価は、難易度を決定するために慎重に調整されたアイテムの大規模なプールから質問を引き出します(詳細は次のセクションで)。

候補者がテストを開始すると、最初にその年のグループに適していると考えられる中程度の難易度の項目が提示されます。 彼らはその質問の権利を取得した場合、彼らが見る次の項目は、彼らがそれを間違って取得した場合、彼らは少し簡単に項目が表示されます、わずかに困 システムは、彼らが善悪を得るものに応じて、常に候補者の推定能力を計算し、能力推定値の信頼のレベルが事前に定義されたレベルを超えた(または問 すべての学習者がテストを通じて異なるパスを取るように、質問の異なるセットで、彼らは潜在的に異なる長さのテストを受けることができます。

いくつかのシナリオでは、平均的な能力の学習者にのみ有用な結果を与える線形テストとは対照的に、パーソナライズされた評価では、候補者に提示されるすべての項目は挑戦的であるように設計されています。高能力の候補者に提示される簡単な項目の数は減少し、低能力の候補者には難しい質問の数も減少します。これらの学習者の能力を明確に示すものではありません。

すべてがリアルタイムで採点されるため、テストの最後に、候補者は生のスコアや成績ではなく、能力声明の形で即座にフィードバックを受けることができ、回答した質問に基づいて長所と短所に関する事実上の情報を提供する。

コンピュータ適応テストはどのように動作しますか?

猫が働くためには、信頼性の高いデータと、コンテンツのカバレッジと難易度の良い広がりを持つ包括的なアイテムバンクが必要です。 これは、アイテムバンクが最初に事前テストによって較正されなければならないことを意味します。 これは、より大きなアイテムバンクとしてCATの重要な障壁の一つであり、ライブテストを配信する前に信頼性の高いデータを取得するために大規模な作業が必要です。 一般的なルールは、信頼性の高いデータを生成するには、アイテムを最低200回公開する必要があるということです。 次に、この暴露データを使用して、品目応答理論(IRT)を使用して、銀行内の各品目のIRTパラメータを計算します。 これらのIRTパラメータには、アイテムの難易度、およびアイテムの識別が含まれます。 候補者の能力の増加は、それらが正しいその項目を取得する確率に持つことになりますどのくらいを決定する要因。 Surpassでは、これらの値はタグとしてアイテムに添付されます。

テストのコンテンツカバレッジなどの要因を決定するテスト’blueprint’が生成されます。 さらに多くのパラメータを指定することもできます,含めて,提示する項目の最小および最大数と停止条件. テストに表示される可能性のあるすべての項目を含む項目プールが作成されます。

線形テストでは、システムはテストが始まる前にどの項目が配信されるかを知っていますが、適応テストでは、アルゴリズムはリアルタイムで次の項目を選択し、候補者がテストドライバの”次へ”ボタンをクリックした時点で次の項目を選択します。 このアルゴリズムは、すべてのコンテンツ領域の良好なカバレッジを確保するために青写真に動作し、バンク全体のアイテムの露出を制御します(一部のアイテムが他のアイテムよりも頻繁に表示されないように)。 このアルゴリズムは、難易度、識別、および推測の三つのIRTパラメータまでサポートすることができます。

Surpassでは、この巧妙なロジックはすべて、学習者が次の質問に移動するために”次へ”を選択してからわずか300ミリ秒で発生します。 このアルゴリズムは、候補者の能力が必要なレベルの精度に推定されるまで継続されます。

Surpassチームは、パフォーマンスに影響を与えることなく、システムがこれらの大量のデータを処理できるように懸命に働いてきました。 予想されるボリュームに応じて自動的に拡張可能なMicrosoft Azureアプリが利用されており、スループット(1秒あたりの要求数)は、現在配信されているものよりもはるかに高いボリュームでテストされています。

Surpassを通じて提供される適応評価の主な利点の一つは、標準レポート機能を利用できるだけでなく、適応テストから生成される豊富なデータをすべて利用 レポートは、テスト全体の個々の候補者の旅だけでなく、グループやクラス、さらには国家レベルでの報告を表示することができます。

紙ベースのテストよりもCATの利点は何ですか?

すべての能力の候補者のための

正確な情報

すべての候補者が同じ項目セットを受け取る伝統的な線形テストでは、学習者の中三分の一に本当に挑戦するだけです。 猫は、すべての能力レベルの学習者に挑戦するように設計されています,提供し、すべての人のためのスリムな能力の正確かつ有用な画像.

教師の作業負荷の減少

多くの学校レベルのテストはまだ紙で配信されており、結果のマーキングと管理で教師にとって大きな作業負荷を示しています。 即時の得点と正確な学習者固有のフィードバックは、教師が教えることに集中するより多くの時間を与え、生徒が進歩するのを助けるためにフィー

オンデマンドの可能性

画面上のパーソナライズされた評価では、紙のテストウィンドウ内で配信する制限はなく、教師がそれが適切だと感じたときに、一年を通してどの時点でも診断目的で配信できることを意味します。 すべての学習者がパーソナライズされたテストを受けるので、コホートがすべて同時にテストに参加する必要はありません。

すぐに実行できるより正確なフィードバック

スコアではなく、コンピテンシーベースの能力ステートメントの形で、テストの直後により正確なフィー これは、彼らがうまくいった候補地域と、改善する必要があるかもしれない地域を示しています。 この種のフィードバックは、形成的評価、進行する領域があることを学習者に示す、または改善する場所に関する建設的なガイダンスに役立ちます。 教師はまた、クラス全体のパフォーマンスを見ることができ、教えることに集中する必要があるかもしれない領域を示します。

学習者のエンゲージメント

すべての能力の学習者に挑戦する質問では、テスト全体の学習者のエンゲージメントがよりよく維持されます。 低達成者は励まされ、高達成者は挑戦される。 適応性評価は、従来の線形テストよりも完了までの時間が短く、正確な能力測定が短時間で達成されることもあります。

英国の大規模な国家試験プログラムのためのCATの使用: ケーススタディ

2019Surpass会議で、AlphaPlusのGavin Busuttil-Reynaudは、ウェールズの小中学校の子供たちの大規模な全国テストプログラムのためにSurpassに構築された適応テストの使 重要なポイントのいくつかはここで要約されている、またはあなたはこのビデオを見て、完全にプレゼンテーションに追いつくことができます。

2013年にウェールズ(英国)の学童のための国家試験を紙に導入した後、それが画面上でどのように配信できるかを決定するために、早期に実現可能性調査が実施された。 2018年には、これらのテストのコンピュータ適応テストへの段階的な移行が始まり、最初は手続き的な数値であり、その後に読書と数値推論が続きます。 これは、紙ベースのテストが依然として世界的な政府のテストプログラムを支配していることを考慮すると、革命的であると考えられています。 2004年には、当時の資格とカリキュラムの責任者であったケン-ボストンは、”画面上の評価はすぐに国のすべての学習者の生活に触れる”と述べ、今後5年間の彼の目標の一つは”すべての新しい資格には画面上の評価のためのオプションが含まれるだろう”と述べた。”私たちが知っているように、15年前に、これは多くの資格がまだ特に16前の評価のために、ウェールズでのプロジェクトの成果をさらに顕著にする紙

最初の年だけで、268,000人の学習者が、ウェールズの2-9年の学習者のコホートの96%に相当する手続き的数でパーソナライズされた評価を受けており、紙のテストの完了率と一致しています。

画面上の評価の導入により、必要な修正された論文の数も大幅に減少しました。 2018年には、このテストのために4000以上の修正された論文が発注されましたが、2019年には357の修正された大活字と12の点字評価に削減されました。

評価は自己スケジュールすることができるため、教師は年の任意の時点で診断目的に使用する柔軟性があります。 しかし、最初の年には、多くの学校が伝統的な期末テスト期間に固執しましたが、教師がこれらのテストに慣れていくにつれて、この練習が将来的に変

この新しいテスト方法はどのように教師によって受け入れられましたか?

このシナリオでは、上記のセクションで詳述したように、パーソナライズされた評価には多くの利点があります。 AlphaPlusは、このケーススタディの焦点となっている手続きnumeracy評価パイロットのための教師から肯定的なフィードバックを受けています。 教師のアンケートでは、78%が学習者が従事していると考え、83%が評価が正しい長さであると考え、60%以上が学習者とフィードバックレポートが有用であること

しかし、2019年のSuppassカンファレンスでの発表で、Gavin氏は、紙ベースのテストから考え方が移行するにつれて克服すべき障壁がまだあることを観察しました。 パーソナライズされた評価では、アルゴリズムは自信を持って能力の推定値を与えることができると停止するので、一部の学習者は紙のテストでは発生しない他のものよりも多くの質問を見ることができます。

“私たちの紙の文化の一部は非常に深く根付いているので、公平性はすべての人々のためにまったく同じことをすることです,それはそれらの人々の”

Gavin Busuttil-Reynaud,AlphaPlus

さらに、猫は高能力の学習者に挑戦するように設計されているため、候補者は正式に教えられていない高齢者グループからの質問を提示するこ これの目的は、彼らが上に移動したり、自分の年齢層を超えた能力を実証することができるものを学習者を表示することですが、ギャビンは観察する:

“いくつかの教師はこれを受け入れます…他の人は、学習者が来年まで教えられないことを尋ねられたことはひどいと思い、彼らの教えはまだ教えられていないことで判断されていると思います…これらのテストは現在の練習とは非常に異なっているので、誰もが続けるための大規模な文化的旅がまだありますが、このすべての主な目的は、いくつかの詳細なフィードバックを提供することです。”

Gavin Busuttil-Reynaud,AlphaPlus

これらのテストの優先順位は、教師が改善のための領域を特定するのに役立つように設計されたすべての利用可能なデータに基づいて詳細なレポー スコアは学習者のレポート、強さおよび弱さを強調するちょうど事実上の声明で与えられない。

教師には、クラスのスキルプロファイルが提供され、教育を集中させる場所の指示、信頼できるデータが提供され、学習者の旅チャートが提供されます。

Rob Nicholson、学習者がこれらの評価を座っているBorras Park Community Schoolの校長はコメントしています:

“パーソナライズされた評価は、学校が評価の他の形態と一緒に使用することができますhave…it ちょうど子供のスコアと評価と知識を固めるために使用することができます。”

ロブ-ニコルソン、ボラス-パーク-コミュニティ-スクールの校長

学習者はどのようにパーソナライズされた評価を受けましたか?

このプロジェクトでは、チームは学習者の若い年齢に留意していたため、Surpassテストドライバーはインターフェイスを簡素化し、可能な限り最高の経験を作 テストは、全国の学校で利用可能なハードウェアの不一致のために重要であったデスクトップコンピュータ、ラップトップ、またはタブレットデバイス上で提供することができました。

タブレットで学ぶ子供たち

すべての候補者は、彼らに提示された質問によって挑戦されるので、彼らは学習者が右の項目の50%を取得し、50%が間違っているように設計されたアルゴリ 最初に、ある高い達成者はより低い達成者は質問のいくつかに答えられることによって信任を得たが、不慣れだった質問を見つけた。

“能力スペクトルの下端にある学習者のために、通常、彼らは紙のテストをやっていたとき、彼らは間違った項目の90-95%の間のどこかになるだろう。 どのような信じられないほどdispiriting経験。 しかし、彼らは行くこの適応テストから出てくる、私はそれを行うことができます!…そして、突然十分で紙のテストをwhizだろう高いチラシは、今、”それは難しいテストだった、私は考えなければならなかった”と言う…少なくともそれは彼らがに移動するために何か他のものがある実現しています。”

Gavin Busuttil-Reynaud,AlphaPlus

ボラス-パーク-コミュニティ-スクールの副校長であるジェニー-ジョーンズが観察したように、学習者は一般的に画面上への移動によって困惑してい:

“彼らはオンラインで働くことに慣れています、彼らは彼らのipadやコンピュータを使用することに慣れていますので、彼らはそれらを使用して自信を それは楽しい活動です。「

Jenny Jones,Deputy Headteacher of Borras Park Community School

視覚障害やアクセシビリティの要件を持つ学習者には、通常、紙のテストの修正版が必要であるという利点もあります。 唯一の本当の違いは、図が含まれているので、単純化されたバージョンまたは点字バージョンが紙の小冊子に含まれている場所です。 拡大鏡やスクリーンリーダーなどのアクセシビリティツールは、画面上のテストができるだけ多くの人にアクセス可能であることを意味します。 AlphaPlusは視覚障害のある学習者と協力し、学習者は”心をこめてオンライン版を好む”と結論づけ、アクセシビリティツールは通常の働き方であり、他の人と同じようにコンピュータで働くことができることを歓迎しています。

結論

英国における全国的なCAT実装の成功のケーススタディは、このタイプのテストを導入することができ、特に形成的な設定では、固定テストよりも大きな利点を持つことができることを示しています。 学習者に適したコンテンツを備えた短くパーソナライズされたテストは、学習者のエンゲージメントが向上し、学習者の経験が向上します。 結果はより速く処理されるので、彼らの評価の経験はまだ彼らの心の中で新鮮である間、彼らは学習者とレビューすることができます。

心理測定的に有効な結果とすべての候補者の豊富なデータは、学習者が何ができるかをより深く理解し、他の指標と組み合わせて使用することで、教育と学習をよりよく知らせ、学習者の進行のための可能な限り最高の機会を与えることができます。

ウェールズの学童との仕事についてコメントし、ノッティンガム大学の教育のロジャー*マーフィー、名誉教授は述べています:

“それはウェールズの教育システムの特徴であり、世界中の多くの国によって非常に密接に監視されています。”

ロジャー-マーフィー、ノッティンガム大学教育名誉教授

しかし、CATはすべてのシナリオで適切ではないことに注意する必要があります。 猫は、テストすることができ、一般的に受け入れられているビューは、猫を生産することは高価であるということであるスキルの種類を制限し、客観的 おそらく、評価技術がさらに進歩するにつれて、自動アイテム生成などの機能は、より大きなアイテムバンクを作成する際のコストへの影響のいず 最終的には、CATが試験プログラムのための正しい方法であるかどうかを判断するために、生産コストを利点と比較して検討する必要があります。

Surpassでパーソナライズされた評価についての詳細を学ぶことに興味がある場合は、Surpassアカウントマネージャーに話してください。