FCL 研究の評価

この章で扱う問い

本章の問いは、ただ一つです——本書のテーマに沿って作ったシステムが「効いた」と、僕たちはどうすれば言えるのか。形式化と中間表現を整え、ITS や適応的環境を実装したところで、それが学習者にとって本当に役立っているという証拠を示せなければ、本書の枠組みは工学的な実用には届いても、学問としての説得力を持ちません。第 12 章までは「何をどう作るか」を扱ってきました。本章と次章は、それを「どう確かめるか」を扱います。教育研究や Learning Analytics の研究室から来た方は馴染みのある話題が多いと思いますが、AI 系・HCI 系から学習支援に踏み込んだ方には、教育という領域がどれだけ評価を要求するかを感じてもらう章でもあります。

評価の枠組みは、結局のところ次の三つの軸に尽きます。何を測るのか（学習者の満足度なのか、知識獲得なのか、転移なのか、長期的な生涯影響なのか）。何と比べるのか（無処置との比較なのか、既存教材との比較なのか、人間家庭教師との比較なのか）。誰に対して妥当なのか（実験室の少数例で示された効果は、別の学校・別の学習者集団・別の文化圏にも当てはまるのか）。本章はこの三軸を順に立て、その上で本書の枠組みに固有の評価課題——中間表現が認知的に妥当かをどう示すか、説明可能性をどう評価するか、孤立したシステム評価を超えてエコシステム視点で測るとは何か——を論じます。次章（第 14 章）はこれらの問いに応える統計的な道具立てを与えます。

なぜ本書の枠組みに評価が必要か——「もっともらしさの罠」

本書のテーマに沿うシステムには、評価をしないで済ませたくなる強い誘惑があります。なにしろ、認知科学の理論を引き、形式化を行い、中間表現で記述し、それに基づいて適応的に介入する——構成原理のすべてに正当化の根拠が並んでいるのですから、効果がないはずはないように見えます。

しかし教育研究の歴史は、理論的にもっともらしいものほど、実証されてみると効果が思ったほどないか、むしろ逆効果だった という事例で埋め尽くされています。学習スタイルに合わせた指導は直感的ですが、メタ分析では効果が確認されません。動画を見せながら同じ内容のテキストを画面に出すのは「冗長性で記憶が定着する」と思われていましたが、実際にはワーキングメモリを圧迫して理解を妨げます（cognitive load theory の冗長性効果）。Cognitive Tutor の最初のフィールド研究（1996 年頃）は、研究室で見られた効果が現場ではほとんど消えてしまうところから始まりました。理論が正しいことと、特定のシステム実装が学習者を助けることのあいだには、必ず経験的なギャップがあるのです。

このギャップは、「形式化された理論に基づくから機能するはずだ」と論じるアプローチでこそ、いっそう警戒されるべきものです。形式化はあくまで「考えを揃え、検証可能にする」ための道具であって、考えそのものの正しさを保証しません。誤った認知モデルを精緻に形式化しても、学習者の現実から外れていれば、システムは精緻に外れ続けるだけです。形式化は仮説の表現手段であって、仮説の検証ではない。検証は経験データに依る——これが本章の出発点です。

加えて、本書の枠組みには固有の理由から評価が二重に重要になります。第一に、本書の枠組みは「説明可能性」を重視します。説明できるということは、説明が当たっているか、誤って当たっているように見えているだけかを区別する義務を負うということです。第二に、本書は中間表現の再利用とエコシステムの累積を目指します。再利用に値するかどうかは、誰かが使ったときにそのモデルが本当に学習を助けたという証拠の蓄積でしか正当化できません。形式化と再利用と評価は、三位一体なのです。

第一の軸——何を測るか

「効果があった」と言うとき、何が改善されたことを以って効果と呼ぶのかを、まず決めなければなりません。同じ介入が、見方を変えれば「大成功」にも「ほとんど無効」にもなります。

Kirkpatrick の四層モデルとその適用

企業研修の評価のために提案された Kirkpatrick の四層モデル [Kirkpatrick1994] は、教育技術にもよく適用されます。Level 1: Reaction（学習者が満足したか、続けたいと思ったか）、Level 2: Learning（知識・スキルを獲得したか）、Level 3: Behavior（学んだことを実際の文脈で使えているか＝転移）、Level 4: Results（組織や社会のレベルで結果が出たか——卒業率、進学率、社会参加など）の四層です。

レベル	名称	測定対象	測定方法の例	FCL での重み
1	Reaction	学習者の満足度	質問紙、評価アンケート	補助的
2	Learning	知識・スキルの獲得	事前事後テスト、パフォーマンス課題	中心
3	Behavior	実践での適用	転移課題、観察、追跡調査	中心
4	Results	組織・社会への影響	卒業率、進学率、長期的成果	重要だが測定困難

表 13-1: Kirkpatrick の四層モデルと FCL での重み付け

Duolingo のレビューが好評で利用者数が伸びているのは Level 1 の話であって、その利用者が CEFR の B1 に到達できたかどうかは Level 2 の話です。両者は相関するとは限りません——A/B テストで「ユーザーが楽しい」と「学習者が伸びる」が乖離する現象は、Duolingo 自身が公開している通り、実際にしばしば起きます（第 16 章参照）。FCL が測りたいのは原則 Level 2 と Level 3 です。Level 1 だけで判断してはならないし、Level 4 まで届かなければ社会的価値があるとも言い切れません。

測定が難しい層ほど重要になる

ここに評価の本質的な難しさがあります。測りやすいものは Level 1 と Level 2 の浅い側面——選択式テストの正答率、システム上のスキル習得フラグ——であり、真に重要なものは Level 3 以上の深い側面——別の文脈で同じスキルを再活用できるか、半年後にも保持されているか、その学習が次の学習に踏み切る自信や習慣を生んだか——です。

例えば代数学習で「両辺から定数を引く」操作の習熟率が上がっただけでは、文章題に変換された問題を解けるとは限りません。Cognitive Tutor の評価が単元末テストで効果が見えても次年度に持ち越されないという観察は、転移と保持の弱さとして報告されてきました。本書の評価設計では、Level 2 の浅いところで満足せず、転移課題の設計——文脈、表現、難度を学習時とずらした問題で検証すること——が必須です。

何を測るかは「価値判断」を伴う

第三に、何を測るかという問いはそれ自体が価値判断であることを忘れてはなりません（第 17 章とも繋がる論点です）。「正答率を上げる」を効果と呼ぶことは、「速く正確に答える学習者が良い学習者である」という前提を埋め込みます。これは概念的理解、創造性、批判的思考、メタ認知の発達といった他の価値を相対的に低く扱うことを含意します。形式化を重視するアプローチは、形式化しやすい指標——手続き的習熟、ステップ正答率、習熟確率の閾値到達——に評価が偏りやすい構造的バイアスを抱えます。設計者は、この偏りを意識的に補正する必要があります。

第二の軸——どう比較するか

「学習者の成績が伸びた」だけでは、それが介入のおかげなのか、自然な成熟や同時期に起きた他の出来事のおかげなのかが分かりません。比較こそが因果推論の核です。

ランダム化比較試験——内的妥当性のゴールドスタンダード

Randomized Controlled Trial（RCT）は、学習者を介入群と統制群にランダムに割り当て、群間のアウトカムの差を介入の因果効果として推定します。ランダム割り当てが鍵で、これにより観測されない交絡変数——潜在的な能力差、家庭環境、動機づけ——が群間で確率的に均等化されます。教育研究で RCT は内的妥当性（介入が本当に結果の原因か）の最高水準として位置付けられます [Shadish2002]。

具体例を一つ通して見ましょう。VanLehn のメタ分析 [VanLehn2011] でしばしば引かれる元実験——個別ステップフィードバック付き ITS と、大講義との比較——は、典型的にはこのような構造を取ります。物理または代数の同一カリキュラムを、介入群（ITS でステップフィードバックを受けながら問題を解く）と統制群（同じ問題を紙で解き、後でまとめて解説を聞く）に割り当てます。学習時間と学習量は揃えます。事前事後テストで知識獲得を、ずらした文脈の転移問題で深さを、半年後の保持テストで持続性を測ります。VanLehn のメタ分析は、こうした研究を集約した結果として、ステップレベルの ITS は人間の家庭教師に近い水準（効果量 $d \approx 0.76$ ）で、テキスト・大講義の統制条件を上回ることを示しました。

Cognitive Tutor の RAND 大規模評価 [Pane2014] は、同じ哲学を「実験室を出た」スケールで実行した稀有な事例です。テキサス州を中心に 7 学区 147 校・約 18,700 名の生徒を、学校単位（クラスター）でランダムに介入群と統制群に割り当てました。介入群は 1 年目に Cognitive Tutor 中心の代数 I カリキュラムへ移行し、2 年目もそのまま継続しました。1 年目は有意差なし、2 年目に介入群が標準テストで $d \approx 0.20$ 高かった。これが、教育介入として「実環境で再現性のある統計的有意差」として歴史に残る数字です。VanLehn の研究室実験での $d \approx 0.76$ と RAND の現場実験での $d \approx 0.20$ の差——ほぼ 4 倍——が、この章のあと半分で議論する「内的妥当性と外的妥当性のトレードオフ」の物質的な現れと言えるでしょう。

準実験デザイン——現場が押し付けてくる現実

教育現場では、クラスを無作為に割り当てることが倫理的・実践的に困難なことがしばしばあります。同じ学校内で「あなたのクラスは新システム、隣のクラスは旧来通り」と分けることは、保護者や教師の納得を得にくいです。そこで使われるのが 準実験デザイン です——異なる学校、異なる学期、異なる教師のクラスを比較します。

問題は当然、群間に事前の差（selection bias）が入り込むことです。新システムを導入する学校は、たいてい教師がもとから熱心で、設備が整っており、学力的にも上の側にいます。それを補正するために、いくつかの統計的手法が常用されます。

事前テストによる共変量調整（ANCOVA）は、事前テストの成績を共変量としてモデルに入れ、群間で「同じ事前学力ならどちらが伸びるか」を比較します。差分の差分法（Difference-in-Differences）は、事前事後の変化量を群間で比較し、各群の初期値の差をキャンセルします。傾向スコアマッチング（Propensity Score Matching）は、観測された特性（年齢、性別、過去成績、社会経済指標など）から「介入群に入る確率」を推定し、その確率が近い学習者同士をペアにして比較します。

デザイン	利点	欠点・課題
RCT	因果推論のゴールドスタンダード；交絡変数を制御；内的妥当性が高い	教育現場では実施困難；コストが高い；外的妥当性に課題
準実験デザイン	実践的に実施可能；現実的な文脈での評価；コストが低い	選択バイアスのリスク；統計的調整が必要；内的妥当性に課題

表 13-2: 実験デザインの比較

これらはどれも、観測されない交絡（measured covariate に乗ってこない要因）に対しては無力です。「同じ事前テスト得点でも、新システムを使う側のクラスは教師が三倍熱心だった」のような状況は、共変量調整では消えません。準実験は実用的ですが、結論を絶対視しないという習慣を要求します。

比較の単位——個人かクラスか

教育研究では割り当ての単位（個人なのか、クラスなのか、学校なのか）が決定的に重要です。クラスを単位に割り当てた研究を、個人レベルで分析するとサンプルサイズを過大評価して有意差を出しすぎてしまいます（クラスタリングの問題）。RAND の Cognitive Tutor 評価が学校単位での割り当てだったのは偶然ではありません——介入の本質が「学校全体のカリキュラム移行」であった以上、それより小さな単位では現場が成立しないのです。第 14 章で扱う階層線形モデル（HLM）は、この多層構造を正面から扱う統計的道具です。

第三の軸——誰に対して妥当か

VanLehn のメタ分析と RAND の評価で効果量に 4 倍近い差が生じたのは、被験者の質や数の違いだけではありません。研究室で示された効果が、別の文脈にどこまで一般化できるか——これが 外的妥当性（external validity）の問題です [Shadish2002]。

内的妥当性と外的妥当性のトレードオフ

研究室の RCT は、介入の純粋な因果効果を抽出するために、ノイズを徹底的に除去します。同質な大学生被験者、訓練された実験者、統制された時間と環境——これらは内的妥当性を最大化します。しかし同時に、現場では決して再現されない条件 を作り上げてしまうのです。実際の中学校では、学力差の大きい生徒が混ざり、教師は ITS の使い方に十分習熟しておらず、ネットワーク障害で 30 分遅れる日もあり、生徒の半数は前夜の睡眠が足りていません。

Cognitive Tutor の RAND 評価が 1 年目に有意差を出せなかった主因は、実装の忠実度——教師が研修通りに ITS の時間配分やダッシュボード活用を行えていたか——のばらつきでした。2 年目に効果が出始めたのは、教師がシステムに慣れ、実装が研究計画に近づいたからです。これが意味するのは、「ITS の効果」を測ったつもりで、実は「ITS と現場の摩擦」を測っていたという、教育介入評価が常に直面する逆説です。

両者を埋めるために、近年は段階的なアプローチが取られます——まず研究室で内的妥当性の高い実験で「効くこと」を示し、次に少数校でフィージビリティ研究を行い、最後にスケール RCT で「現場でも効くこと」を確かめます。Efficacy（理想条件での効果）と Effectiveness（現場条件での効果）の区別 は、教育評価の語彙として定着しています。本書のテーマに沿う評価設計は、これを意識的に切り分ける必要があります。

構成概念妥当性——「測ったものは本当に測りたかったものか」

外的妥当性と並んで重要なのが 構成概念妥当性（construct validity）です——テストで「代数の理解」を測ったつもりが、実は「テスト形式への慣れ」や「読解速度」を測っているだけかもしれません。本書の関心からは、特に次の三つが問題になります。

第一に、ITS の中で測れるスキルと、現実の数学的能力との対応 です。Cognitive Tutor が「両辺を割る」スキルを習熟と判定したことが、紙の試験で同じ操作を再現できることを意味するとは限りません。インタフェース固有の手がかり（例えば「次のステップ」ボタンの配置）に依存して問題を解いているかもしれません。

第二に、短期記憶と長期保持の混同 です。事後テスト直後の正答率は、長期記憶への定着を意味しません。間隔を空けた保持テスト、できれば翌学期のテストでの再評価が必要です。

第三に、多肢選択 vs パフォーマンス課題 です。多肢選択テストは採点が安全で大規模に実施できますが、深い理解、推論の柔軟性、概念の関連付けを測る能力は限定的です。FCL が標榜する「概念的理解」を評価したいなら、説明課題、誤り検出課題、転移課題などのパフォーマンス課題が必要となります。

文化的・社会的妥当性

本書のような形式化されたシステムは、開発元の文化的前提を内在させやすいものです。日本の数学教育は文章題の構造的読解を重視し（第 16 章で扱う Monsakun はその発想に立ちます）、米国の数学教育は手続き的流暢さを早期に重視します。日本で開発された認知モデルが米国の教室でそのまま機能する保証はありません。本書のエコシステム構想は中間表現の再利用を狙いますが、再利用するときに 文化的・教育制度的妥当性の再検証 が要ります——これは形式化の限界を画す重要な制約です。

本書の枠組みに固有の評価課題

ここまでの三軸——何を測るか、どう比較するか、誰に対して妥当か——は、教育介入研究全般に共通する話です。本書の枠組みに固有の評価課題は、これらの上に、さらに三つ加わります。

中間表現の認知的妥当性をどう示すか

本書の枠組みは中間表現を「学習者の認知構造のモデル」として書き下します。しかしそれが学習者の頭の中で実際に起きていることに対応しているかは、自明ではありません。例えば Cognitive Tutor は数学問題の解法を ACT-R プロダクションルールの集合として表現しますが、実際の学習者がそのルールに対応する操作を心の中で実行しているという証拠は、独立に確かめる必要があります。

確かめ方には二系統あります。一つは 予測的妥当性——モデルが「学習者がこのスキルでつまずく」と予測した箇所で実際に誤答が増えるか、モデルが習熟と判定した箇所で実際に転移課題でも成功するか。これは大規模ログデータで検証できます（第 14 章の HLM や BKT 分析がここで使えます）。もう一つは プロセス的妥当性——思考発話法（第 14 章）でのプロトコル分析や、視線追跡データで、モデルが想定する認知ステップが実際に観察されるか。後者は規模が出せませんが、モデルの意味的妥当性に直接迫れます。

本書の評価設計では、両方を組み合わせる必要があります。予測精度だけ高くて、内部のプロセスがブラックボックスでは、それは Deep Knowledge Tracing と区別がつかないからです。

説明可能性をどう評価するか

「説明可能である」というのは、本書の主張する核心的な価値の一つです。だがこれは検証されなければなりません。三つの観点で問えます。

正確さ——システムが提示する説明（「あなたはここでスキル X を誤適用した」）が、内部のモデル状態を正しく反映しているか。LLM が生成する説明は、しばしば内部状態と乖離します（事後合理化）が、これは形式モデルでも油断なりません。

理解可能性——その説明を、学習者・教師・保護者が実際に読んで意味を取れるか。形式的に正確でも、専門用語まみれで読まれない説明は、説明していることになりません。説明の理解度は、ユーザー研究（インタビュー、理解度クイズ、行動変容の追跡）で測ります。

行動への寄与——説明を読んだ学習者・教師は、その説明に基づいて自分の学習・指導を変えるか。説明可能性が「飾り」で終わらず、メタ認知的調整や教師の介入判断に実際に使われていることを示すには、説明の有無で群分けした介入実験が要ります。

エコシステム視点での評価——孤立から累積へ

第三に、本書の野心は「個別システムの効果」を超えて「エコシステムとしての累積」にあります（序章、第 15 章、第 18 章参照）。となると、評価の単位もまた、個別システムを超えて拡張されるべきです。

具体的には、次のような問いが評価の対象になります。ある中間表現で書かれた認知モデルが、別の研究グループによって再利用された頻度はどれくらいか。再利用されたとき、再利用先のシステムでも効果を生んだか。PSLC DataShop [Koedinger2010] のような共有データに対して、コミュニティが累積的に改善した知見の量はどれくらいか。これらは個別の RCT では測れない、コミュニティ・レベルの評価指標 です。

これは現状ほとんど整備されていません。学術論文の引用数や DataShop での再利用回数といった粗い指標で代替されているのが実情です。本書の発展は、エコシステム評価のメトリクスそのものを設計することを伴う——これは第 18 章の課題です。

評価設計の道筋——三軸を組み合わせる

これら三軸を実際の研究計画に落とすときの、典型的な道筋を示しましょう。

問いを言語化する ところから始まります——「このシステムは効くか」では雑すぎます。「このシステムは、どのレベル（Level 1〜4）で、何との比較で、どの集団に対して効くか」を明示します。本書の評価では、Level 2 と Level 3 を中心に据え、しかし「概念的理解」「転移」「メタ認知的調整」のうち何を中心とするかを宣言します。

比較条件を設計する。「介入なし」は弱い基準です。同等の学習時間で行う既存の方法、人間家庭教師、別の ITS、自分のシステムの一部機能を切り落としたバージョン（ablation）——どれと比べるかで結論の重みが大きく変わります。本書のように「説明可能性」「中間表現」「適応性」など複数のコンポーネントを持つシステムでは、ablation 比較がコンポーネント別の効果を分離する上で不可欠です。

割り当て単位を選ぶ。個人なのかクラスなのか学校なのか。本書の介入が「学習者の認知に直接働く」なら個人レベル、「教師の指導と組み合わさって機能する」ならクラスレベル、「カリキュラム全体の置き換え」なら学校レベル。割り当て単位より小さな単位での効果推定はできません。

外的妥当性の射程を宣言する。研究室実験なら「この結果はこの集団・この条件での効果である」と限定的に書きます。複数文脈での再現がなければ一般化は控えるべきです。これは本書のエコシステム志向にとって倫理的にも重要なところで——再利用される中間表現は、その評価の射程と一緒に流通すべきだからです。

事前登録を行う。仮説と分析計画を実験前に公開登録する慣習（pre-registration）は、HARKing（Hypothesizing After the Results are Known）を防ぎ、評価の信頼性を担保します。これは次章の話題ともつながります。

形成的評価と総括的評価——開発のサイクルへ

ここまでは「すでに作ったものをどう確かめるか」（総括的評価, summative evaluation）の話でした。本書の実際の研究では、もう一つの評価——開発の途中で設計を改善するための 形成的評価（formative evaluation）——が同じくらい重要になります。

形成的評価は、少数の学習者を対象にしたパイロット試行、思考発話法（第 14 章）による問題箇所の特定、教師との対話、A/B テストによるインタフェース改善の繰り返しから成ります。Wieman らの PhET は、各シミュレーションを開発する過程で多数の学生インタビューを反復し、設計を磨きました [Wieman2008]。これは Design-Based Research（第 14 章）の哲学そのものです。

形成的評価と総括的評価は対立しません——前者は仮説の精緻化、後者はその検証です。本書の評価は、両者の循環として組まれるべきです。中間表現に基づくシステムは、形成的評価で発見された誤概念や予想外の躓きを、中間表現の修正としてフィードバックできる——これが本書のエコシステム志向の中核的なプロセスです。

次章への橋渡し

本章では、FCL 研究の評価を「何を測るか」「どう比較するか」「誰に対して妥当か」の三軸で立て、その上に FCL 固有の三つの課題——中間表現の認知的妥当性、説明可能性の評価、エコシステム視点——を重ねました。これらは「枠組み」の話で、実際にこれらを実行するには統計的な道具立てが要ります。

次章では、その道具立て——効果量、検出力、多重比較補正、構造方程式モデリング、階層線形モデル、シーケンス分析、そして思考発話法やデザインベース研究といった質的・反復的手法——を、FCL 研究の具体的な場面に即して紹介します。統計が苦手でも追えるように、手を動かして確かめられる小さな例を多めに置きました。本章で枠組みを立てた問いに、定量的に答える術を見ていきましょう。

古池謙人流『教育AIの見取り図』