応用事例——いま動いているシステムを見渡す

この章で扱う問い

本章は 応用事例の章 です。「答えを返すだけでは、なぜ学ぶ力は育たないのか?」という本書を貫く問いを、ここでは具体的なシステムに即して見ていきます。前章までに整理してきた認知科学・知識工学・ITS の理論が、現実の教育現場で動いているシステムにどう結実しているのか——代表的な十数のシステムについて、(1) 誰がいつ何のために作ったか、(2) どのような認知モデル・学習モデルに基づくか、(3) 実際の学習者から見た UI・データの流れはどうなっているか、(4) 効果を裏付ける証拠は何か、(5) 限界と未解決問題は何か、を、できるだけ具体的に並べていきます。

その上で、これらを本書がたびたび戻ってきたいくつかの軸——形式化、認知科学との結合、中間表現、エコシステム指向、説明可能性 (第 13 章参照)——から横断的に眺め直します。Cognitive Tutor、ASSISTments、ALEKS、Khan Academy、Duolingo、Error-based Simulation、Monsakun、AutoTutor、Wayang Outpost などは、本書のどの枠組みのために作られたわけでもありません。けれども、それぞれの設計判断のなかに、本書が大事にしてきた発想と重なる部分・離れる部分が見えてきます。事例から学ぶことで、次世代システムが目指せる具体像が、少しずつ手触りをもって浮かび上がってくるはずです。

ITS や AIED の開発に関心のあるあなたには、ここで挙げる十数の設計事例が「自分の研究領域はこのなかのどこにいて、どこに空きがあるか」を考える手がかりになるでしょう。認知モデルの形式化に関心があるなら、各システムが認知のどの粒度をどう書き下しているかを並べて比べてみてください。

論文化や発表のスキルそのものは本書ではあまり踏み込みません。研究としての書き方・伝え方を体系的に学びたい場合は、姉妹編『研究の一歩目』(https://koike-lab.org/) の第 5・6 部にまとまっています。本書はそちらと対をなす「分野コンテンツ編」として、システムの中身そのものに紙幅を使っていきます。

本章の構成は次の通りです。まず数学・科学の ITS として Cognitive Tutor / MATHia、ASSISTments、ALEKS、Khan Academy を扱います。続いて言語学習として Duolingo、エッセイ評価として Criterion を取り上げます。次に問題解決・推論支援として AutoTutor、Wayang Outpost / MathSpring、iTalk2Learn を概観します。日本の AIED 研究の重要な貢献である Error-based Simulation と Monsakun には独立した節を設け、認知的衝突 (cognitive conflict) と問題作成 (problem posing) という 2 つのアプローチを詳しく紹介します。さらにプログラミング教育、科学探究、専門職教育の事例を扱い、僕の研究室で進めているささやかなプロジェクトも一例として並べてから、最後に横断的な見方と研究上の提案でまとめます。

数学・科学の ITS

数学教育は ITS の最も成功した応用領域です。手続き的知識が形式化しやすく、誤りパターンが体系的で、評価が客観的に行えるからです。一方で概念的理解、表現の柔軟性、文章題の意味理解など、形式化が容易でない側面も豊富にあり、問題作成・概念理解・適応的評価といった多様なシステムが共存しています。

Cognitive Tutor / MATHia (Carnegie Learning)

Cognitive Tutor は Carnegie Mellon 大学の John R. Anderson らのグループが 1980 年代後半から開発を進め、1990 年代後半に Pittsburgh の公立学校への大規模導入で広く知られるようになった代数・幾何の ITS です [Anderson1995]; [Koedinger1997]。商用化のために Carnegie Learning 社が 1998 年に設立され、現在は Web ベースの MATHia として米国の中学・高校で広く使われています。Cognitive Tutor の理論的基盤は Anderson の ACT-R 認知アーキテクチャ (第 2 章参照) であり、数学の問題解決を プロダクションルール の系列として表現する点が決定的に特徴的です [Anderson1993]; [Anderson2007]。

実際の学習者体験を見てみましょう。一次方程式 $3 x + 5 = 14$ を解く画面では、左側に問題が表示され、右側に複数列のワークシートがあります。学習者は「両辺から 5 を引く」「両辺を 3 で割る」「 $x$ の値を確認する」といった各ステップを自分で書き込んでいきます。各ステップ入力ごとに、システムは内部の 認知モデル——当該領域で熟達した人間がもつであろうプロダクションルールの集合——と入力を照合する モデル追跡 (model tracing) を行い、正しいプロダクションが適用されたか、典型的な誤適用 (bug rule) のいずれに該当するかを判定します。誤りに対しては即座にフィードバックが返り、学習者がつまずいた場合には段階的なヒント (scaffolding) が 3〜4 段階に分けて提示されます。並行して Bayesian Knowledge Tracing (BKT) [Corbett1995] が個々のスキル (knowledge component, KC) の習得確率を更新し、Mastery Learning の閾値 (典型的には $p (習得) \geq 0.95$ ) に達したスキルは練習対象から外されます。教師には、クラス全体・個人別の習得状況を示すダッシュボードが提供されます。

効果については Pittsburgh やその後の多くの学区で蓄積されたエビデンスがあります。代表的な評価として、Pane et al. (2014) が RAND Corporation の主導で実施した大規模 RCT があります。147 校・約 18,700 名の生徒を対象とし、2 年間の介入を行った結果、Cognitive Tutor を fidelity 高く運用した学校 で標準テストに対して効果量 d ≈ 0.20 程度の有意な学習効果が報告されました [Pane2014]。VanLehn (2011) のメタ分析でも、ステップレベルの個別フィードバックを行う ITS は人間の個別指導に近い効果量を示すことが指摘されています [VanLehn2011]。

一方で限界も明確です。第一に、認知モデルは数学領域に特化しており他領域へ転用できません。第二に、概念的理解 (なぜその手続きが正しいのか) の評価は手続きに比べて弱いです。第三に、効果は実装の忠実度に強く依存し、教員研修や授業時間配分が崩れると効果は失われます。第四に、開発コストは膨大で、ユニットを一つ作るためにかなりの時間の認知タスク分析が必要とされます。これらの限界は、Cognitive Tutor 単体ではなく 教員と組み合わせて使う Learning Engineering 的な運用 (第 13 章参照) を必要とすることを意味します。

ASSISTments (Heffernan, WPI)

ASSISTments は Worcester Polytechnic Institute (WPI) の Neil Heffernan と Cristina Heffernan が 2003 年頃から開発を進めている、宿題支援を中心とする数学学習プラットフォームです [Heffernan2014]。名前は "assist" + "assessments" の合成で、生徒を 援助しながら同時に評価する という設計思想を表しています。教師は授業の延長として、既存の教科書やワークシートに対応する問題セットを ASSISTments で配信します。生徒は自宅で問題に取り組み、誤った解答を入力すると即座に hint や正解、関連する補助問題 (scaffolding question) が提示されます。翌朝にはクラス全員の解答ログがダッシュボードに集約され、「どの問題でクラスの何割がつまずいたか」が一目で分かる Common Wrong Answer Reports が表示されます。

ASSISTments のもう一つの大きな特徴は、米国の研究者コミュニティに対する TestBed としての役割です。新しい hint 生成アルゴリズム、新しい問題形式、新しいフィードバック介入を、既存の利用者集団に対して A/B 形式で容易に実験できる仕組み (ASSISTments TestBed, E-TRIALS) が用意されており、多くの学習科学・EDM 研究の基盤となっています。Roschelle et al. (2016) は、Maine 州の 7 学年生徒約 2,800 名を対象とした大規模 RCT を実施し、ASSISTments を 1 年間使った群が対照群に比べて、州標準テスト (MCAS) で効果量 d ≈ 0.22 (およそ 1 学年分の追加学習に相当) の有意な改善を示すことを報告しました [Roschelle2016]。学校全体で展開可能で、Educator Reports Tool による教師の介入意思決定が学習効果に寄与していることが示唆されています。

限界としては、ASSISTments はあくまで 問題提示と即時フィードバック に特化しており、Cognitive Tutor のような内的な認知モデルやステップ単位のモデル追跡をもちません。学習者が「なぜ間違えたか」の理由は教師や hint 設計者が事前に書いておく必要があります。また、本格的な習熟度推定や適応的問題選択は研究プロジェクトベースで実装されているものの、デフォルトの利用形態では教師がカリキュラム順を選びます。

それでも、ASSISTments の 教師中心の設計思想 (「教師の意思決定を補強するためのデータを提供する」) は、ITS が孤立して稼働するのではなく classroom orchestration の一要素として位置づけられるべき、という Holstein らが強調する方向性と一致しており [Holstein2019]、教育実践と研究を継続的につなぐ稀有な事例となっています。

ALEKS (McGraw-Hill, Knowledge Space Theory)

ALEKS (Assessment and LEarning in Knowledge Spaces) は、Jean-Claude Falmagne と Jean-Paul Doignon らが提唱した Knowledge Space Theory (KST) [Doignon1999]; [Falmagne2006] を基盤に、UC Irvine 発のスタートアップが商用化したシステムで、現在は McGraw-Hill 傘下にあります。K-12 から大学初年次レベルの数学・科学を中心に、米国を中心とした広範な学校・大学で利用されています。

KST の核は、ある領域の知識項目集合 $Q$ について、学習者がもち得る「実際に観察され得る知識状態」の全体 $K \subseteq 2^{Q}$ を考えるという発想です。 $K$ は項目間の前提関係に従って閉じた knowledge space をなします。例えば「2 桁の足し算ができる」が「3 桁の足し算ができる」の前提なら、後者を含む状態は必ず前者を含みます。学習者の知識状態は単なるスカラー能力 $θ$ (IRT, 第 3 章参照) ではなく、 $Q$ の 部分集合 として表現されます。ALEKS の 初期評価セッション では、学習者に 25〜30 問程度の問題が適応的に提示され、各回答ごとに Bayesian 更新で「現在の knowledge state がどの集合か」の確率分布が絞り込まれていきます。

評価が終わると、学習者には円形のダッシュボード (pie chart) が示され、すでに習得済みの項目、いま学習可能な項目 (outer fringe: 現状態に 1 項目を足せば移行可能な状態の差分)、まだ前提が揃っていない項目が色分けされます。学習者は学習可能な項目のリストから次に取り組むトピックを選び、概念説明と練習問題のペアに進みます。一定のミニ評価ごとに knowledge state が再推定され、円グラフが更新されます。Falmagne et al. (2006) の総説および McGraw-Hill が公開する内部評価では、ALEKS 利用が標準テストや単位取得率を有意に改善することが報告されています [Falmagne2006]。一方で、KST は膨大な knowledge space を専門家の判断とデータから構築する必要があり、構築コストとモデルの透明性に関する批判もあります。また、純粋に手続き的・項目的な学習に強い反面、概念的・探究的学習との相性は限定的です。

Khan Academy

Khan Academy は、2006 年に Salman Khan が親類向けに作った数学解説 YouTube 動画から始まり、現在は数学・科学・人文学・経済学・コンピュータ科学など広範な領域を扱う非営利の無料オンライン学習プラットフォームに成長しました。月間アクティブ利用者は世界で 1 億人を超え、規模の点では本章で扱う他のどのシステムをも圧倒しています。

学習者の体験は次のようになります。各トピックは数分の解説動画と、自動採点付きの練習問題の組で構成され、学習者は mastery-based progression によって進みます。例えば「分数の足し算」で連続正答数が一定数に達すると、そのスキルは "Familiar"→"Proficient"→"Mastered" と段階を上がっていきます。各単元の前提関係は Knowledge Map として可視化され、学習者は自分の進度マップを俯瞰できます。教員・保護者向けには進捗ダッシュボードがあり、教室での補助教材としても広く使われています。

研究上の特徴は、Cognitive Tutor のような 理論駆動の精緻な認知モデル を持たないことです。スキル間の前提関係は専門家の判断で記述され、学習者の状態は単純な連続正答カウントで管理されます。それでも巨大なリーチによる教育機会の平等への寄与は大きく、補助的に利用される設定での穏やかな学習効果は複数の準実験的評価で報告されてきました。2023 年以降、Khan Academy は GPT-4 を活用した Khanmigo を一部の学校で実証導入しています。Khanmigo は学習者の質問に答えるだけでなく、教師に対する授業計画や差別化提示の支援、ライティングの相手役 (Socratic dialogue) など、複数の役割を担う設計です。教育的効果は 2026 年現在まだエビデンス蓄積の途上ですが、LLM を ITS の枠組みに組み込む大規模実装の代表例として注目されています [Pardos2023]; [Stamper2024]。トレードオフは明確で、巨大なスケール と 弱い認知モデル の組み合わせは、個別の躓きの構造的診断には弱く、ハルシネーションのリスクも残ります。

言語学習

言語学習は規則性 (文法・語彙) と例外、長期記憶への定着、発音や聴取といった非テキスト・モダリティが入り混じる領域で、ITS の多様な側面が試される場です。

Duolingo: 大規模 A/B テストと half-life regression

Duolingo は 2011 年に Luis von Ahn と Severin Hacker が始めた語学学習アプリで、現在は 100 以上のコース、月間アクティブユーザ約 1 億人を抱える世界最大級の言語学習プラットフォームです。ゲーミフィケーション (XP, streak, league, heart system) と短時間レッスン (典型的には 1 レッスン 2〜5 分) を中心とし、空き時間学習に最適化された設計が特徴です [Deterding2011]。

Duolingo の認知科学的に最も興味深いコンポーネントは、語彙の長期記憶定着のための 間隔反復スケジューラ です。Settles & Meeder (2016) は、half-life regression (HLR) と呼ばれる手法を提案・公開しました [Settles2016]。各単語ペア $(u, w)$ について、現在の記憶強度を半減期 $h$ で表現し、最後のレビューからの経過時間 $Δ$ に対して想起確率を $p = 2^{- Δ/ h}$ とモデル化します。 $h$ は学習者・単語の特徴量 (過去の正解回数、誤答回数、その単語固有の難しさなど) から線形回帰で推定され、学習者の忘却曲線 (第 5 章参照) を個別に近似します。スケジューラは「想起確率が一定の閾値を下回る直前」に当該単語を復習問題として浮上させます。これは Atkinson の最適スケジューリング、Pimsleur のグラデーテッド間隔反復、SuperMemo の SM-2 アルゴリズムなどの伝統に連なる、認知理論と機械学習の橋渡しの好例といえます。

Duolingo は同時に、UI、レッスン構造、難易度カーブ、通知文面に至るまであらゆる要素を 大規模 A/B テスト で最適化することで知られます [Settles2016]。これは Learning Engineering (第 13 章参照) の反復最適化サイクルが極限まで産業化された例といえます。一方で、A/B テストの最適化指標は 学習成果ではなくエンゲージメント (継続率、レッスン完了数) に偏りがちで、「どれくらい英語が話せるようになるか」と「どれくらい毎日アプリを開いてくれるか」の間にはしばしば乖離が生じます。"learning vs engagement" のトレードオフは Duolingo 自身も認識する課題で、社内研究グループは CEFR 準拠の言語熟達度評価との対応付けを継続的に発表しています [Settles2016]。

Criterion: 自動エッセイ評価とフィードバック

Criterion は Educational Testing Service (ETS) が開発した、英文エッセイの自動評価とフィードバックを行う Web サービスです [Burstein2004]。学習者がエッセイを提出すると、文法・用法・スタイル・構成・論理展開の 5 側面それぞれにスコアと具体的なフィードバックが返ります。例えば「パラグラフ間の接続詞が不足している」「同じ語彙の繰り返しが多い」「主張に対する根拠が示されていない」といった指摘がインライン注釈として表示されます。

Criterion の核となる採点エンジンは e-rater で、表層特徴量 (語彙の多様性、文長、構文の複雑度、ディスコースマーカーの使用パターンなど) を回帰モデルで人手評価スコアに対応付けます。学習者向け利用法として最も推奨されるのは「下書き段階での自己評価ツール」としての使い方で、これにより推敲を重ねる動機付けが高まることが報告されています。一方、Perelman (2014) ら批判者は、e-rater が長く複雑な文を機械的に高評価する傾向、深い意味理解を行えないことなどを指摘し、ハイステークス試験での単独利用には警鐘を鳴らしています [Perelman2014]。

問題解決・推論支援

数値計算や語彙暗記のような「答えが一意に決まる課題」を超えて、複数の手順や対話的な思考を要する課題への支援も活発に研究されてきました。

AutoTutor: 自然言語による対話型チューター

AutoTutor は Memphis 大学の Arthur Graesser らのグループが 1990 年代後半から開発を続けている、自然言語対話を通じて学習者を導くチューターです [Graesser2004]。物理 (ニュートン力学)、コンピュータ・リテラシー、批判的思考など複数のドメインで実装されています。AutoTutor の中心的な教授戦略は expectation and misconception tailored (EMT) discourse と呼ばれるもので、各問題について「学習者が言語化すべき期待表現 (expectations)」と「典型的な誤概念 (misconceptions)」のセットが事前に定義されています。

学習者体験は、画面上のアニメーションエージェント (talking head) との対話として進みます。エージェントが問題を提示し、「あなたはどう思いますか?」と促します。学習者がテキスト (または音声) で回答すると、AutoTutor は Latent Semantic Analysis (LSA) や正規表現マッチを用いて、学習者の発言が事前定義された expectation のどれにどの程度近いか、misconception のどれを示しているかを評価します。

期待された内容が出てこない場合、AutoTutor は段階的に介入の具体性を高めていきます。

pump: 「他には何かありますか?」と発話量を増やすよう促す
hint: 「摩擦があるとどうなるでしょう?」と方向性のあるヒントを与える
prompt: 「重力加速度は ___ ?」と空所補充させる
assertion: 「重力加速度は 9.8 m/s² です」と直接情報を与える

最終的に誤概念があれば明示的に否定し、正解の expectation を学習者自身に言わせるよう導きます。これは Socratic 対話 (第 13 章参照) の自動化と見なすこともできます。

複数の評価研究で、AutoTutor は熟練人間チューターには及ばないものの、教科書を読むだけの統制条件と比べて効果量 d ≈ 0.4〜0.8 の学習効果を示すことが報告されています [Graesser2004]; [VanLehn2011]。後継システムである Operation ARIES! (科学的探究) や AutoTutor-Lite などへ展開され、学習者の感情状態を検出して介入する Affective AutoTutor [DMello2008] も開発されました。限界としては、LSA ベースの応答評価は深い意味理解を行えず、表現が想定から外れると性能が落ちる、対話の自由度が制約される、などがあり、近年は LLM 統合への移行が議論されています。

Wayang Outpost / MathSpring: 情動を読む数学チューター

Wayang Outpost は University of Massachusetts Amherst の Ivon Arroyo と Beverly Park Woolf らが開発した、米国 SAT/MCAS 数学を対象とする ITS です [Arroyo2014]; [Woolf2009]。後継システムは MathSpring として現在も運用されています。技術的に Cognitive Tutor 系統のステップレベル指導を行うとともに、学習者の情動状態 (affect) を多モダリティで検出し、それに応じた介入を行うことが大きな特徴です。

学習者の前にはアニメーションキャラクター (例: Jane) が常駐し、学習者の解答パターン (解答時間、ヒント要求頻度、誤答パターン) と、必要に応じて Web カメラからの表情、姿勢センサ、皮膚電気反応などの生体信号から、frustration (苛立ち)、boredom (退屈)、confusion (混乱)、engagement (没入) などの情動状態が推定されます [Whitehill2014]。frustration が検出されればキャラクターが共感的なメッセージを返す、boredom にはより難しい問題で挑戦を促す、confusion には追加のスキャフォールディングを与える、といった affect-aware tutoring が行われます。Arroyo et al. (2014) の評価では、特に女子生徒や数学不安の高い生徒においてエンゲージメントと学習成果の改善が示されています [Arroyo2014]。

Wayang Outpost 系統の意義は、ITS の関心を「正解にたどり着く認知プロセス」から「学習活動を続けるための情動・動機づけプロセス」へ拡張した点にあります。これは Csikszentmihalyi のフロー理論 [Csikszentmihalyi1990] や Ryan & Deci の自己決定理論 [Ryan2000] の ITS への実装でもあります。一方で限界として、生体信号からの情動推定は精度・プライバシー・倫理の三重の課題を抱えており、教室導入への普及には依然として慎重な議論が必要です [Holmes2022]。

iTalk2Learn: マルチモーダル分数学習 (補足)

iTalk2Learn は EU の Horizon 2020 プロジェクトの一部として、ロンドン大学・ハンブルク大学などが共同開発した小学校高学年向けの分数学習システムです。音声入力 と タッチ操作の操作型ツール (Fractions Lab)、構造化問題 (Whizz Maths Tutor)、自由探索の 3 要素を組み合わせ、生徒の発話・操作の両方からつまずきを検出してフィードバックします。マルチモーダル ITS の代表例として、欧州圏の AIED 研究の流れを示しています。

日本の AIED 研究: Error-based Simulation と Monsakun

日本の AIED 研究は世界的に独自の貢献をしてきており、とりわけ広島大学の 平嶋宗 (Tsukasa Hirashima) らのグループによる Error-based Simulation (ES) と Monsakun は、欧米中心の ITS 研究にはない発想を提示してきました。両者に共通するのは、誤りや問題作成という「学習者の能動的な外化」を学習機会の中心に据える点です。

Error-based Simulation (ES): 誤りを可視化する物理シミュレーション

Error-based Simulation (ES) は、平嶋・今井・堀口・東本らが 2000 年代以降、主に高校・大学初年次の物理 (力学) を対象に開発してきた学習支援システムの方法論です [Hirashima2009]; [Horiguchi2014]。中心的なアイデアは、学習者の 誤った信念に従って物理現象をシミュレートし、その結果として得られる「奇妙な振る舞い」を視覚的に提示する ことで、認知的衝突 (cognitive conflict) を引き起こし、誤概念の修正を促すことにあります。

具体例で説明しましょう。「重い物体は軽い物体より速く落ちる」という Aristotle 的な誤概念をもつ学習者がいるとします。通常の教示では「いえ、空気抵抗を無視すれば同じ速度で落ちます」と正解を伝えますが、学習者の素朴信念はそれだけでは容易には覆りません。

ES では違うアプローチをとります。まず学習者に、糸でつながれた重さの異なる 2 つの物体が斜面を滑る問題を与え、力の図示と運動の予測をさせます。ここで学習者が誤った力の図 (例: 軽い物体が引きずられているのに、糸の張力を考慮しない) を入力すると、システムはその誤った力の組み合わせを そのまま物理エンジンに与えてシミュレーション し、結果として現実にはあり得ない振る舞い (例: 物体が空中に飛び上がる、糸が伸び続ける) が画面上に再生されます。

学習者は「自分の力の図に従えばこんな変なことが起きる」ことを直接目撃し、強い違和感を感じます。これが認知的衝突であり、学習者は自発的に力の図を修正したくなります。Piaget の同化と調節の用語で言えば、ES は 調節 (accommodation) を強制的に引き起こす環境 だと言えるでしょう。

ES の設計上の鍵は、誤りそのものを単にエラー扱いせず、学習資源として再活用する ところにあります。Horiguchi & Hirashima (2014) は、ES が単なる正誤フィードバックよりも誤概念の修正において有意に効果的であることを実験的に示しました [Horiguchi2014]。応用は力学に限らず、運動の合成、電気回路、円運動など多岐にわたります。本書の視点からは、ES は 誤概念を形式化された因果モデルに乗せて実行可能にする という、強い形式化と認知科学的洞察の融合の好例です。限界としては、シミュレーションが「変に見える」ためには学習者がその時点で何が「変」かを判断できる素朴感覚を持っている必要があり、概念が完全に欠落している場合には機能しないこと、ドメインごとに物理エンジンと誤概念モデルを構築するコストが高いこと、などが挙げられます。

Monsakun (もんさくん): 文カードによる問題作成型学習

Monsakun (作問くん) は、平嶋らが 2007 年頃から開発を進めてきた、小学校算数の 文章題作成 (problem posing) を支援するタブレット型学習環境です [Hirashima2007]; [Hirashima2014]。「与えられた問題を解く」のではなく「正しい問題を組み立てる」ことを学習活動の中心に据える点が決定的に新しいところです。

学習者の体験はこうです。画面上部に「条件: 引き算の問題で、答えが 2 になるもの」のような 目標条件 が示されます。下部には複数の 文カード が並びます。例えば次のようなものです。

「りんごが 3 個あります」 (存在文)
「りんごをトムが 2 個もらいました」 (関係文)
「全部で何個になるでしょう」 (問題文)
「のこりは何個でしょう」 (問題文)
「りんごを 5 個もらいました」 (関係文)

学習者は 3 枚 (典型的には「存在文・関係文・問題文」の 3 種) を選んで縦に並べることで、ひとつの算数文章題を構成します。完成した問題はシステム内部の 意味的構造記述 に変換され、次の 2 点が自動的に判定されます。

(a) 算数文章題として構造的に成立しているか (変化型 change / 合併型 combine / 比較型 compare のいずれかの schema に当てはまるか)。

(b) 目標条件 (演算と答え) を満たすか。

誤りには「主語が一致していません」「演算が引き算になりません」など、構造に基づくフィードバックが返ります。

Monsakun の認知科学的な背景は、Polya 以来の「問題を解くより問題を作ることのほうが深い理解を要する」という洞察にあります。算数文章題の理解は、単に計算の手順を知るだけでなく、問題文の 意味的 schema (誰が誰にどれだけ何をした、結果は何か) を読み取る能力に依存します。問題を作る活動は、この schema を能動的に操作することを強制します。日本国内の小学校での実証研究では、Monsakun を用いた授業を受けた児童は、対照群に比べて文章題の構造理解と転移問題の解答率で有意に上回ることが報告されています [Hirashima2014]。算数の文章題以外にも、代数や英語の文構成など、構成要素と関係に分解できる対象であれば適用できる枠組みとして展開が試みられており、問題作成型学習 (learning by problem posing) という汎用的なパラダイムを形成しつつあります。本書の関心からは、Monsakun は問題の意味構造そのものを 形式化された中間表現 として明示する点で、僕がこの本で繰り返し触れてきた発想に極めて近いシステムだと言えます。

僕の研究室で進めているささやかなプロジェクト

ここで、僕の研究室で現在進めているささやかなプロジェクトも、上記と並ぶ多くの試みの一つとして、簡単に紹介しておきます。本書で繰り返し触れている形式化や中間表現といった発想は特定の研究グループのものではなく、ITS / AIED / 認知科学・教育工学のさまざまな研究者が共有しうる地図ですが、その地図上の一つの実践例として読んでもらえればと思います。詳しい設計判断や評価結果は僕の論文 [Koike2026] にまとまっています。

CHUNK [Koike2020a]: プログラミング学習における FBS (Function–Behavior–Structure) 三層モデルに基づく中間表現の試みです。学習者がコードの「何をするか (機能)」「どう動くか (振舞い)」「どう書かれているか (構造)」をどの粒度で行き来できるかを サブゴール柔軟性 と呼んで概念化し、BROCs や Compogram といったプロトタイプで検証してきました。Cognitive Tutor 系統がプロダクションルールで構造を扱うのに対し、ここでは三層を横断する中間表現を立てるところに違いがあります。
CLOVER [Koike2023a]: 力学などの領域で、誤りを 制約違反 として実行可能にし、学習者に観察させる枠組みです。上で紹介した平嶋らの Error-based Simulation を継承する系譜にあり、Teachable Agent への応用 (TAME) や、フィードバック設計のためのフレームワーク (ELMER) を派生させています。
OCEAN [Koike2023c]: 学習環境全体を「認知・行動・動機・目標」の四層で記述してみる試みです。WHALE という学習パス推薦エージェントが、この四層モデルに基づいて次の課題を選ぶよう設計されています。学習者を一つのスキル変数で表すのではなく、複数の側面をそれぞれ別の中間表現として持つ、という発想です。
CCS (Computational Cognitive Schemas) [KoikeCCS2026]: 領域横断的な思考スキルを「操作–状態系列」として書き下す、いわば「中間表現のための中間表現」です。CHUNK・CLOVER・OCEAN がそれぞれの領域で立てた中間表現を、より上位の共通言語で並べ直そうとしています。

これらは未完の試みで、本書全体の主張がこれらに依存するわけではありません。あくまで「本書で論じてきた中間表現や形式化を、ある研究室がこういう形で具体化してみている」という事例です。詳しくは僕の論文 [Koike2026] や研究室のサイト (https://koike-lab.org/) を参照してください。

プログラミング教育

プログラミング教育は、ITS と適応的学習支援の重要な応用領域です。プログラミングは明確に形式化された知識領域でありながら、初学者には多様な躓きポイントと誤概念が存在します。

プログラミング学習の認知的課題

Pea (1986) と Soloway (1986) の古典的研究は、初学者のプログラミング学習における体系的な誤概念を明らかにしました。例えば、「プログラムは上から順に実行される」という誤った線形モデル、変数の値が「同時に」変わるという誤解、ループの意味的理解の困難などです [Pea1986]; [Soloway1986]。

これらの誤概念は単なる知識不足ではなく、日常的な因果推論や時間的理解からの不適切な転移です (第 8 章参照)。効果的な学習支援のためには、これらの誤概念を体系的にモデル化し、診断・修正する必要があります。

自動評価・データ駆動ヒント

Code.org や Codecademy などのプラットフォームは、学習者のコードを自動実行してテストケースと照合し、即座にフィードバックを提供します。より高度なシステムは、単なる正誤判定を超えて、エラーの原因を診断し、適応的なヒントを生成します。Rivers and Koedinger (2017) の Intelligent Programming Tutor は、過去の学習者の解答パターンから自動的に解答状態空間を構築し、現在の学習者のコードに最も近い「次のステップ」をデータ駆動で抽出してヒントとして提示します [Rivers2017]。これは Cognitive Tutor 流の専門家手書き認知モデルとは対照的に、学習者自身のログから生成される認知モデル という別解の好例です。

ビジュアルプログラミングと実行可視化

ビジュアルプログラミング環境 である Scratch、Blockly などは、抽象的な構文を具体的な視覚的ブロックとして表現することで、認知負荷を軽減します (第 7 章参照)。Guzdial (2004) は、こうした環境が特に初学者の動機づけと概念理解に効果的であることを示しています [Guzdial2004]。実行過程の可視化 ツールは、プログラムの動的な振る舞いを理解させます。Python Tutor [Guo2013] は、プログラムの各ステップで変数とメモリの状態を視覚化し、学習者のメンタルモデル構築を支援します。

認知的徒弟制と AI アシスタント

Pair Programming (ペアプログラミング) と Peer Code Review (ピアコードレビュー) は、認知的徒弟制 (第 4 章参照) の原則を具現化した実践です [Williams2002]。熟練者が問題解決プロセスを「声に出して考える」ことで、初学者は専門家の思考プロセスを観察し、模倣し、内在化します。近年は、AI による「バーチャル・ペアプログラマー」も研究されています。LLM ベースのコーディングアシスタント (GitHub Copilot、ChatGPT など) は、学習ツールとしての可能性と同時に、学習者の思考機会を奪う危険性も指摘されています (第 12 章参照)。

科学教育: シミュレーション、教えることで学ぶ、探究

科学教育では、概念的理解、探究スキル、科学的推論の支援が重要です。物理、化学、生物における誤概念は広く研究されており、効果的な学習支援には概念変化 (conceptual change) を促す必要があります。

PhET Interactive Simulations

PhET はコロラド大学ボルダー校の Carl Wieman らが 2002 年に開始したインタラクティブな科学シミュレーション集です [Wieman2008]。物理・化学・生物・数学・地学にわたる多数のシミュレーションが、ブラウザ上で無料で動作します。学習者はパラメータ (角度、摩擦係数、質量、波長など) をスライダーで変化させ、結果を観察することで因果関係を探究的に理解します。例えば「摩擦のある斜面上の物体の運動」シミュレーションでは、力の矢印、運動エネルギー、位置エネルギーの内訳がリアルタイムに表示され、抽象概念が直接見えるようになります。

設計上の特徴は、認知科学者・科学教育研究者・グラフィックデザイナーが協働し、各シミュレーションごとに 学生インタビュー によるユーザビリティテストを反復することにあります (第 15 章 Design-Based Research の実例とも見なせます)。Wieman et al. (2008) のレビューでは、PhET を用いた学習が従来の演習より高い学習成果をもたらすことが多くの研究で示されています [Wieman2008]。特に電場、量子力学など視覚化困難な抽象概念で効果が大きいことが分かっています。一方、構成主義的探究を支える設計のため、学習者の状態を診断・追跡する仕組みは弱く、教師の介入や事前事後テストと組み合わせて初めて学習成果に結びつくことが多いです。

Betty's Brain: 教えることで学ぶ

Betty's Brain は Vanderbilt 大学の Gautam Biswas らが開発した、learning by teaching を中核に据える環境です [Biswas2005]。学習者は、生態系や気候変動などのトピックについて概念マップを構築し、その内容をエージェント Betty に「教えます」。学習者がノードとリンク (例: 「CO₂ → 温度上昇」) を編集すると、Betty はそのマップを推論エンジンに変換し、メンターからの試験問題に回答します。Betty の回答が誤っていれば、それは学習者の概念マップが不完全か誤りを含むことを意味し、学習者はメンター教師 (Mr. Davis) からのフィードバックや、自分でマップを読み返す メタ認知活動 を通じて修正していきます。

この設計は、Vygotsky の社会的構成主義と Schwartz らの教えることによる学習研究を背景とし、学習者を「教師役」に置くことで自己調整学習を促します。実証研究では、Betty's Brain 群は対照群に比べて概念的理解とメタ認知スキルの両方で改善を示しました [Biswas2005]。

ChemCollective と仮想実験

ChemCollective [Yaron2010] は Carnegie Mellon の David Yaron らが開発した仮想化学実験室で、学習者が試薬を選び、実験を計画・実行し、データを分析します。実際の実験室では危険・高コスト・時間的制約があるため実施困難な実験も、仮想環境では安全に試行錯誤できます。White & Frederiksen (1998) の ThinkerTools [White1998] は物理力学を探究的に学ぶ環境で、仮説生成、実験計画、データ収集、結論という探究プロセスとその reflection を支援します。

言語・作文・読解の補足

Duolingo と Criterion はすでに上で扱いましたが、言語学習の領域には他にも参照価値の高い事例があります。

Project LISTEN's Reading Tutor は Carnegie Mellon の Jack Mostow らが 1990 年代から開発した英語朗読チューターで、児童が画面のテキストを音読すると、音声認識で誤読・つまずきを検出し、画面上のキャラクターが該当語の発音や意味を補助します。読解と発音という、ITS が伝統的に苦手としてきた領域に音声処理技術で踏み込んだ重要な事例です。第二言語の語彙学習では Quizlet、Memrise、Anki など spaced repetition を中核とするツールが多数あり、Duolingo の HLR と同様の認知科学的設計を共有しています。

日本語学習領域では、東京外国語大学発の Reading Tutor が日本語学習者向け読解支援を行い、Lang-8 系の作文相互添削プラットフォームが学習者コミュニティを形成してきました。最近では LLM チャットによる作文添削、発音採点、対話練習などが急速に広がりつつあり、Duolingo の Birdbrain や Khanmigo の同型として、日本語学習領域でも独自の生態系が形成されています。これらは認知モデルの厳密さよりも 大規模データと LLM の汎用性 に依拠する点で、第 13 章で論じた AIED 的アプローチに位置づけられます。

専門職教育

医療、法律、工学などの専門職教育では、複雑な推論、意思決定、実践的スキルの習得が求められます。FCL と ITS のアプローチは、これらの高度な認知スキルの支援にも応用されてきました。

医療教育: 診断推論の支援

医療診断は、症状から病名を推論する複雑な問題解決プロセスです。MYCIN [Shortliffe1976] は 1970 年代に開発された感染症診断のエキスパートシステムで、後に GUIDON [Clancey1984] として教育用に拡張されました。GUIDON は MYCIN のルールベースを教材として、学習者の診断推論を Socratic 対話で導きます。現代の医療教育システムは、よりリアリスティックな症例シミュレーションを提供します。DxR Clinician などのシステムは、バーチャル患者 (virtual patient) との対話を通じて、病歴聴取、身体診察、検査オーダー、診断、治療計画の全プロセスを練習できます。重要なのは、単に正しい診断に到達するだけでなく、診断推論のプロセスを支援することです。学習者の推論を追跡し、認知バイアス (確証バイアス、利用可能性ヒューリスティックなど) を指摘したり、見落としている可能性のある診断を示唆したりします。

法学教育: 事例ベース推論

CATO [Ashley1990] は、判例に基づく法的推論 (case-based legal reasoning) を教えるシステムです。学習者は新しい事例を分析し、過去の判例と比較してどちらの当事者に有利かを論証します。CATO は判例間の類似性と相違性を factor hierarchy として構造的に表現し、学習者の論証を評価します。法的推論では事実の細部が結論を左右するため、単純なルールベースのアプローチでは不十分で、事例ベース推論 (Case-Based Reasoning, CBR) のアプローチが適しています。

専門職教育における共通課題

専門職教育への ITS 適用には共通の課題があります。知識の複雑性: 専門的知識は形式化が困難な暗黙知 (tacit knowledge)、文脈依存性、例外の多さなどの特徴があります。倫理的・社会的側面: 専門職の実践には倫理的判断、対人コミュニケーション、チームワークなど、純粋に認知的ではない側面があります。real-world complexity との乖離: シミュレーション環境は必然的に単純化されており、実際の診療や法律実務との乖離をどう扱うかが重要です。「transfer of learning」 (学習の転移、第 8 章参照) を促進する設計が求められます。

横断的視点: 事例から見えるもの

ここまで Cognitive Tutor / MATHia、ASSISTments、ALEKS、Khan Academy、Duolingo、Criterion、AutoTutor、Wayang Outpost、iTalk2Learn、Error-based Simulation、Monsakun、CHUNK / CLOVER / OCEAN / CCS、PhET、Betty's Brain、ChemCollective、各種プログラミング学習環境、医療・法学教育システムを概観してきました。これらを横断的に眺めると、あなたの目にもいくつかの設計上の軸が浮かんでくるはずです。

下表は、本章で扱った主要システムを設計次元で整理したものです。

システム	領域	認知モデルの種類	学習者状態の表現	主な評価エビデンス
Cognitive Tutor / MATHia	数学 (代数・幾何)	ACT-R プロダクションルール (手書き)	BKT 確率, KC 単位	Pane et al. 2014 RCT (d≈0.20)
ASSISTments	数学 (宿題支援)	問題ごとの hint ツリー (手書き)	正答率, 共通誤答	Roschelle et al. 2016 RCT (d≈0.22)
ALEKS	数学・科学	Knowledge Space (集合論的)	knowledge state 部分集合	多数の準実験 (Falmagne 2006)
Khan Academy	多領域	knowledge map (手書き)	mastery 段階	観察研究中心, 一部 RCT
Duolingo	語彙・文法	half-life regression (データ駆動)	単語ごと半減期 $h$	A/B テスト, CEFR 対応評価
AutoTutor	物理・批判的思考	EMT discourse + LSA	expectation 充足度	準実験 (d≈0.4–0.8)
Wayang Outpost	数学 + 情動	ステップモデル + 情動推定	スキル + 情動状態	Arroyo et al. 2014
Error-based Simulation	物理 (力学)	誤概念を実行可能なモデルに (手書き)	図示された力ベクトル	校内実験 (Horiguchi 2014)
Monsakun	算数文章題	文構造schema (change/combine/compare)	構成された問題の意味構造	校内実験 (Hirashima 2014)
PhET	物理・化学・生物	シミュレーションモデル	(明示的状態追跡なし)	Wieman 2008 等
Betty's Brain	科学概念	学習者作成の概念マップ	学習者外化マップ	準実験 (Biswas 2005)

第一に、認知モデルの作り方 には大きく 3 系統あります。

(a) 専門家が手書きで構築するルールベース (Cognitive Tutor、AutoTutor、CATO、ES、Monsakun の構造判定)。

(b) 集団データから自動構築するもの (Rivers & Koedinger のヒント生成、ALEKS の knowledge space 推定の一部、Duolingo HLR、Deep Knowledge Tracing)。

本書が望ましいと考えるのは (a) と (b) のハイブリッドで、加えて (c) の活動が生成する学習者外化を中間表現に乗せていく方向です。

第二に、誤りの扱い にも特徴的な対比があります。Cognitive Tutor や ASSISTments では誤りはステップフィードバックの引き金、ALEKS では knowledge state の確率的更新の証拠、ES では誤りそのものを実行して可視化する素材、Monsakun では誤った組み合わせを構造的に診断する材料、Betty's Brain では Betty の回答誤りを通じた学習者自身の自己診断機会となります。「誤りは何のためのものか」のデザインの違いが、教授戦略の違いに直結します。特に ES と Monsakun が示すのは、誤りは罰すべきものでも単に修正すべきものでもなく、能動的な意味構築のための原材料となり得る という洞察です。

第三に、学習活動の能動性 にも幅があります。Cognitive Tutor や ASSISTments は与えられた問題を解く受動寄りの活動、PhET や ChemCollective は探究、Betty's Brain は教えること、Monsakun は問題を作ること、ES は予測することを学習活動の中心に据えています。能動性が高くなるほど、学習者の認知負荷は増えますが、深い理解と転移可能性が高まる傾向があります。Kapur (2008) の productive failure 研究 [Kapur2008] もこの方向の示唆を与えています。

第四に、エビデンスの種類と質 も多様です。Cognitive Tutor / MATHia と ASSISTments には大規模 RCT があります [Pane2014]; [Roschelle2016]。Duolingo は CEFR との対応評価と無数の社内 A/B テスト。AutoTutor は中程度規模の準実験。ES と Monsakun は中規模の校内実験。Khan Academy は大規模ですが因果同定が難しい観察研究中心です。VanLehn (2011) のメタ分析が示すように、ステップレベルの個別フィードバックを行う ITS の効果量は、人間チューターに迫るレベルになり得ます [VanLehn2011]; [Ma2014]。

第五に、スケーラビリティ の対比もあります。Khan Academy と Duolingo は数千万から億のオーダーで利用されています。Cognitive Tutor / MATHia は米国の多くの学区で運用されており、ASSISTments や ALEKS も学校単位の導入が進んでいます。一方、AutoTutor、ES、Monsakun、および僕の研究室のプロジェクトを含む大半の研究系システムは、研究室レベルや特定の協力校での実験的展開が中心で、一回の評価実験は数十名規模で行われることがほとんどです。スケールの大きさと認知モデルの精緻さは現状トレードオフの関係にあり、両立を目指すことは本書が繰り返し戻ってくる課題の一つです。

五つの軸からの横断評価

これまで見てきたシステムを、本書がたびたび戻ってきた軸 (形式化、認知科学との結合、中間表現、エコシステム、説明可能性。第 13 章参照) から眺め直してみましょう。

形式化の程度: 成功と限界

成功例: Cognitive Tutor / MATHia は ACT-R に基づく厳密な認知モデルを持ち、数学の問題解決をプロダクションルールとして形式化しています。ALEKS は知識状態を集合論的に明示し、Knowledge Space Theory による形式化を持ちます。ES は誤概念そのものを物理シミュレータで実行可能な形に形式化します。Monsakun は問題の意味構造 (change/combine/compare) を明示的な schema として形式化します。これらは、本書がしばしば望ましいと述べてきた方向に近いアプローチです。

限界: しかし、いずれの認知モデルも システム固有 であり、他のドメインやシステムと共有できません (中間表現の欠如)。Duolingo の HLR モデルや Khan Academy の knowledge map は領域非依存的ですが、認知科学的な深さは限定的です。PhET のシミュレーションは構成主義的学習を支援しますが、学習者の認知プロセスの形式化は限定的で、「何を学んだか」の追跡は弱いです。

認知科学との結合: 理論駆動 vs データ駆動

Cognitive Tutor は ACT-R、Betty's Brain はメタ認知理論、ES は認知的衝突理論、Monsakun は schema 理論と問題作成研究、AutoTutor は対話的足場かけ理論と、それぞれ強い認知理論基盤を持ちます。一方、Duolingo や Khan Academy の多くは データ駆動 のアプローチが優勢です。Duolingo の HLR は記憶理論に基づきますが、UI や問題選択の多くは A/B テストによる最適化です。これは効果的ですが、「なぜ機能するか」の認知的説明は限定的です (第 13 章の AIED と認知学習工学の対比参照)。本書がしばしば望ましいと述べてきたのは 理論駆動とデータ駆動のハイブリッド で、理論が初期設計を導き、データが理論を検証・精緻化する関係です。

中間表現と相互運用性: 決定的な欠如

ほぼすべてのシステムが、中間表現を欠いています。Cognitive Tutor の認知モデル、ALEKS の knowledge space、Duolingo の語彙モデル、PhET のシミュレーションモデル、Monsakun の問題 schema は、それぞれ独自の内部表現を持ち、相互に交換できません。例えば Cognitive Tutor で開発された代数スキルのモデルを ASSISTments や ALEKS で再利用できませんし、Duolingo の語彙習得モデルを読解システムと統合することもできません。異なるシステム間で学習者の知識状態を引き継ぐこともできません。

これは重大な問題です。本書がもっとも貢献できそうだと考えているのが、まさにこの空白です。標準化された中間表現 (第 6 章参照) により、ドメイン知識、学習者モデル、教授戦略を異なるシステム間で共有できれば、学習支援研究はずいぶん見通しが効くようになるはずです。

エコシステム指向: 孤立 vs 連携

現状では、各システムは孤立しています。Cognitive Tutor のコミュニティ、Duolingo のユーザー、PhET の利用者、Monsakun の利用学校は、それぞれ独立しており、知見が体系的には共有されません。例外的に PSLC DataShop [Koedinger2010] と ASSISTments TestBed は、研究者間でデータと介入を共有するプラットフォームとして機能しています。本書が思い描くエコシステム (序章参照) は、こうした取り組みを一般化し、(a) 認知モデルリポジトリ、(b) プライバシー保護下での学習データ共有、(c) プラグイン可能なモジュール (学習者モデリング、適応的課題選択、フィードバック生成など) を視野に入れています。

説明可能性: 透明性と信頼

Cognitive Tutor は比較的説明可能で、学習者の誤りが「どのプロダクションルールの誤適用か」を追跡できます。ALEKS は knowledge state を pie chart で学習者・教師に可視化する open learner model [Bull2010] の好例です。Monsakun の問題構造診断、ES の物理的因果の可視化も、学習者にとって理解可能なフィードバックを与えます。一方、Duolingo の機械学習ベース問題選択や Khanmigo の LLM 応答は、相対的に ブラックボックス 寄りで、「なぜこの問題が提示されたか」「なぜこの応答が返ったか」は学習者に十分には説明されません。これは説明可能性を重視する立場とは相性が悪く、特にハイステークス利用や学習者・教師の信頼が問われる場面で問題になります。

次世代システムに向けた研究の手がかり

既存システムを並べてみると、これからの研究で取り組めそうな課題がいくつか浮かび上がります。

中間表現の標準化と認知モデルの共有

ドメイン横断的な認知スキル・概念のオントロジーを開発し、標準化された中間表現を確立する道があります。例えば「変数」という概念は代数、プログラミング、化学、統計など複数のドメインに現れ、各ドメインでの意味は微妙に異なりますが共通の抽象構造をもちます。共通の中間表現があれば、これらを統一的に記述し、ドメイン間での知見の転用が現実味を帯びます。

技術的課題: OWL (第 4 章参照) 等の記述言語の選択、バージョン管理、コミュニティによる合意形成プロセス。
既存資産との接続: PSLC DataShop の KC モデル、Khan Academy の Knowledge Map、ALEKS の knowledge space などの異なる粒度・形式のモデルを橋渡しする必要があります。
期待される効果: 新規ドメインで ITS を開発する際に既存認知モデルを再利用でき、システム間で学習者状態を転送できます。これは現在の ITS 開発の最大の障壁である コールドスタート問題 の緩和に直結します。

説明可能な適応的システム

機械学習の予測力と認知モデルの説明可能性を統合したハイブリッドシステムを構築する方向もあります。例えば Duolingo の HLR を ACT-R の活性化拡散モデル (第 2 章参照) と結合すれば、システムは「あなたの単語 X の記憶強度は現在 Y 程度で、忘却が始まる時期に近いので、今復習するのが最適です」と説明できます。Cognitive Tutor の BKT を Deep Knowledge Tracing [Piech2015] と組み合わせる Hybrid Knowledge Tracing [Tang2023] などはこの方向の試みです。

期待される効果は次の 3 点です。

学習者のメタ認知支援: 自分の学習プロセスを理解し、自己調整学習につなげる (第 6 章参照)。
教師の信頼と介入能力: ブラックボックス推薦に頼らず、教師がシステムの判断を吟味して介入できる。
倫理的透明性: ハイステークス利用におけるアルゴリズムの説明責任 [Holmes2022]; [Baker2022] を担保する。

クロスドメイン転移を支援するシステム

異なるドメイン間での学習転移を明示的に支援するシステムを設計する方向もあります。例えばプログラミングで学んだ「ループ」の概念が、数学の数列、化学の周期表、生物のライフサイクルなど他のドメインでも現れることを示し、抽象化と具体化を促す。共通の中間表現を持てば、「ループ」の抽象構造 (「一定の規則に従って繰り返される過程」) を形式化し、異なる具象化とマッピングしやすくなります。技術的には Structure Mapping Theory (第 3 章参照) の類推的推論モデル化、適切な転移機会の検出アルゴリズムが必要です。

問題作成型・誤り活用型 ITS の一般化

Monsakun と ES は、欧米中心の ITS 研究にはない設計原理を示しています。問題作成型は学習者の能動的外化を中間表現に乗せ、誤り活用型は誤りそのものを実行可能な形に形式化します。共通の中間表現が整備されれば、これらの設計原理を他の領域 (プログラミングの作問、歴史の論証作成、生物のシステム図作成など) に広げていくことが現実的になります。

形式化の限界を認識したデザイン

すべてを形式化しようとせず、形式化可能な部分 (手続き的知識、明示的な概念関係など) と形式化困難な部分 (創造性、暗黙知、社会的スキルなど) を識別し、適切に設計する道もあります。例えばプログラミング学習システムで、アルゴリズムの正しさは ITS が支援し、コードの「美しさ」「読みやすさ」「創造的解法」についてはピアレビューや教師のフィードバックに委ねる、というハイブリッドデザインです。

次章への橋渡し

本章では、Cognitive Tutor / MATHia から Monsakun、Error-based Simulation、Duolingo、Khan Academy、AutoTutor、Wayang Outpost、そして僕の研究室のプロジェクトを含む代表的な学習支援システムを、各々のシステムが解こうとした問題、認知モデル、UI、効果の証拠、限界を含めて具体的に見てきました。それぞれが独自の成功と限界を抱えており、いずれもシステム固有の認知モデルにとどまり、中間表現の欠如、エコシステムの未形成、説明可能性の不足という共通課題が残されている ことを、本書の視点からは確認できました。これらの課題に向き合いながら、より再利用可能で、説明可能で、理論的に厳密な学習支援を作っていけるかどうか——それがあなたを含む次の世代の研究者の仕事になります。

ところで、これらのシステムが「どの程度効果的か」を客観的に評価することは、科学的な学習支援研究の核心でもあります——けれども本章では効果の話を、各システムごとに代表的な数字を挙げる程度に留めてきました。次章ではそこから一歩離れて、システムを社会に出すときに避けて通れないもう一つの問い——プライバシー、公平性、自律性、説明責任、ラベリング、教師の労働——を扱います。倫理は、形式化と並ぶ、設計に内在する制約です。

認知的教育AIの地図