本書の使い方

この本は古池研究室のサイト (https://koike-lab.org/) からリンクされています。研究室の学生さんはもちろん、近い研究アプローチを取っている研究室の方々や、教育 AI に関心のある社会人の方にも開かれた本でありたい、と思いながら書いています。最初にこの章で、「自分にとってこの本をどう使うのが良さそうか」を一緒に整理しておきましょう。なお、本書の作り方や限界についてはまえがきの末尾「本書の限界について」にまとめています。引用や参照に使うときは、ぜひそちらに先に目を通してください。

姉妹編との読み合わせ

本書には対をなす姉妹編「研究の一歩目」があります。姉妹編が研究の HOW (どう問いを立て、論文を書き、査読と付き合うか) を扱うのに対し、本書は教育 AI / 認知学習工学という分野の WHAT (何を研究するか、どんな素材・方法・歴史があるか) を扱います。

特に古池研究室の学生さん、あるいは近接ラボで研究を始めようとしているあなたには、二冊をペアで読むことを勧めています。姉妹編は研究室サイト https://koike-lab.org/ からアクセスできます。

文献調査・問いの立て方・論文化のコツ → 姉妹編
認知科学・学習科学・ITS / AIED・倫理などの分野的中身 → 本書

このペアで、研究室での日々の判断のかなりの部分が地図上に置けるはずです。

想定読者

本書が想定しているのは、おおよそ次のような方々です。

古池研究室で研究を始めようとしている学部生・大学院生 研究室で扱う問題意識 (認知の形式化、ITS、中間表現アプローチなど) の地図として読んでください。
近接する研究分野の学生・若手研究者 ITS / AIED / LA / EDM / HCI / 認知科学 / 教育学のいずれかに重心を持つラボの方々を想定しています。「自分の研究はこの地図のどこに位置するのか」を考える材料として使ってもらえると嬉しいです。
教育 AI に興味のある実践者・社会人 関心ある章を辞書的に拾って読んでいただく形でも、十分役に立つはずです。

前提知識について

必須：大学初年次レベルの数学 (確率・統計の基礎) と、プログラミングに対する基本的な慣れ
あると読みやすい：心理学・認知科学の入門的な知識、データ構造とアルゴリズムの基礎
さらにあれば：機械学習や HCI の基礎

ただ、本書は各分野を基礎からたどり直すように書いてあるので、これらが揃っていなくても読み進められると思います。詰まったら遠慮なく該当章をスキップして、後で戻ってきても構いません。

三通りの読み方

本書は通読しても辞書的に使ってもいいように設計しました。あなたのスタンスに応じて、おおまかに次の三つの使い方があります。

(i) 全体を通読する読み方 (コミットして読む方向け)

研究テーマとして本格的に取り組もうとしている学生さん、博士課程を志望している方、教育 AI を研究領域として一望したい方は、第 1 章から順に通読することをおすすめします。各章は前後の章と緩やかに繋げてあるので、流れに沿って読むと、教育 AI 研究という領野の輪郭が自然に見えてくるはずです。

(ii) 関心のある部分を深く読む読み方 (テーマ志向の読者向け)

「学習者モデルだけは丁寧に押さえたい」「ITS の系譜は知っているけれど、認知科学の章を補強したい」――そんなふうに、すでに自分の関心がはっきりしているあなたは、関連する章を集中的に読んでもらって構いません。下の節で章の構成を示していますので、そちらを参照しながらピックアップしてください。

(iii) 辞書・索引として参照する読み方 (ライトな読者向け)

教育 AI 領域全体の見取り図を 手元に一つ持っておきたい、という使い方も大いにありです。気になった用語や分野が出てきたら、目次や巻末の用語集を起点に該当章だけ拾ってください。各章は単独でもある程度読めるように書いてあります。

本書の構成

本書は 6 部 18 章で構成されています。

第 I 部：基礎理論編 (第 1〜4 章) 認知科学、教育学・学習科学、知識工学という、本書が立脚する学問分野の基礎を扱います。「認知とは何か」「学習とは何か」「知識をどう表現するか」という根本的な問いに向き合う部分です。
第 II 部：方法論編 (第 5〜7 章) 認知をどう分析し、形式化し、それに基づいてどんな学習活動を設計するか――本書の中核となるテーマである「形式化」と「中間表現」もここで登場します。
第 III 部：技術編 (第 8〜12 章) ITS、学習者モデリング、適応的学習支援、HCI、AI 応用といった、適応的学習環境を実装するための技術トピックを扱います。
第 IV 部：評価編 (第 13〜14 章) 実験計画法、統計的検定、効果量、質的評価などを通じて、研究成果をどう評価するかを学びます。
第 V 部：関連分野と応用 (第 15〜16 章) ITS、AIED、LA、EDM、Learning Engineering といった近接分野との関係を整理し、実際の応用事例 (僕自身のプロジェクトを含む各種システム) を紹介します。
第 VI 部：倫理と未来展望 (第 17〜18 章) 教育 AI を実装・運用するうえで避けて通れない倫理的・社会的論点と、これから先の展望を議論します。

関心別のおすすめルート

通読のあなたも、テーマ志向のあなたも、最初の手掛かりとして次のルートを参考にしてみてください。

教育工学・学習科学の背景があるあなたへ

第 I 部、特に第 2 章 (認知) と第 3 章 (学習) から
第 II 部で方法論の輪郭を掴む
第 III 部は第 8 章 (ITS 基礎) と第 11 章 (HCI) を厚めに
第 IV〜VI 部で評価・応用・倫理に進む

情報科学・AI の背景があるあなたへ

第 1 章で全体像、第 4 章 (知識工学) を厚めに
第 6 章 (形式化と中間表現) に重点
第 III 部、特に第 9 章 (学習者モデリング) と第 12 章 (AI 応用)
折り返して第 2・3 章で認知・学習の基礎を補う

開発・実装に関心があるあなたへ

第 1 章で全体像
第 III 部を中心に実装技術
第 II 部で設計方法論
第 V 部で応用事例
必要に応じて第 I 部の該当章で背景を補う

教育実践・現場志向のあなたへ

第 1 章、第 3 章 (学習) で基礎概念
第 7 章 (学習課題と学習活動の設計) を厚めに
第 V 部 (応用事例) と第 VI 部 (倫理と展望)
必要に応じて第 III 部の技術章を参照

各章の構成要素

各章は次のような要素で構成されています。

章の概要：その章で扱う問いと、本書全体の中での位置づけを最初に示します。読み始める前に必ず目を通してください。
本文：歴史的背景から最新動向まで、議論の流れを大切に書いています。重要な概念は太字で示し、専門用語は初出時に定義します。
事例・具体例：抽象的な概念をつかみ直すためのケーススタディを差し挟んでいます。
図表：概念図、システム図、データ例などをできる限り添えました。
コラム：歴史的エピソードや実践現場の声、補足的な議論を扱います。本筋から少し逸れますが、研究の手触りを伝える役割を意識しています。
まとめ：章の要点を整理します。復習や辞書的な参照に使ってください。
次の章へ：その章を踏まえて、次にどの問いへ進むのかを短く案内します。
さらに学ぶために：そのトピックを深掘りしたい方のための文献・リソースを紹介します。

図表・数式・コードの扱い

概念図：認知プロセスやシステム構成、データの流れを視覚化するために、各章に概念図を添えました。
数式：認知モデル、統計手法、アルゴリズム記述に必要な範囲で数式を使います。なるべく直感的な説明と並べる形にしました。
コード例：実装を扱う章では Python を中心としたコード例を載せています。読みやすさを優先してコメントを多めに付けています。

記法と凡例

太字：重要な概念・キーワード
イタリック：強調や、専門用語の初出
等幅フォント：コード、変数名、ファイル名

文献引用と用語

文献引用は [著者名年] の形式で、本文中のリンクから巻末の参考文献に飛べます。古典的・基盤的な文献は初出時に簡単な解説を付けてあります。
専門用語は初出時に定義し、巻末の付録「用語集」にもまとめています。気になる語が出てきたら、そちらも合わせて参照してください。

本書のあとに

本書はあくまで地図を提示するところまでを役割としています。読み終えたあと、もし「著者がこの地図上で実際にどんな研究をしているのか、もう少し具体的に見てみたい」と思ってくださったあなたには、僕自身の研究論文 [Koike2026] を一つの実践例として読んでいただけると嬉しいです。中間表現アプローチを軸にした認知形式化の話で、本書第 6 章・第 16 章と内容的に呼応しています。論文 PDF は研究室サイト (https://koike-lab.org/) からアクセスできます。

ただし、本書の続きが必ずしも僕の研究路線である必要はありません。あなたが、本書の地図上のどこか別の場所に自分の研究を立てるのも、十分にあり得る歓迎すべき進み方です。

学習のヒント

最後に、僕自身が研究指導をしながらよく感じているコツを少しだけ。

既知の概念と関連づけて読む：新しい用語に出会ったら、すでに知っている概念とどう違うのか・どう似ているのかを問いながら読むと、定着が良くなります。
具体例で考える：抽象的な議論は、自分が触れた教材・授業・システムに置き換えてみると、急に手触りが出てきます。
批判的に読む：本書に書かれた整理も、あくまで一つの整理です。「自分ならこの分け方をしない」と感じたら、そこから自分の研究問いが立ち上がるかもしれません。
手を動かす：可能であれば、興味のある章で扱った手法を小さなコードや分析に落とし込んでみてください。
対話する：同じ関心の仲間と議論することで、地図の精度はずいぶん上がります。

それでは、本書をどうぞ自由に使ってください。あなたの研究や実践の良き伴走者になれれば幸いです。

まえがき

この本を手に取ってくださって、ありがとうございます。著者の古池謙人と申します。神奈川大学工学部で、知的学習支援システム (ITS) や認知科学・知識工学を背景にした研究室を運営しています。本書は、僕の研究室サイト https://koike-lab.org/ からリンクされていて、研究室に興味を持ってくれた学生さん、近い分野の研究室の方々、そして教育 AI に関心のあるすべての人に向けた「地図」になればと思って書きました。

なぜこの本を書いたのか

教育と AI のあいだには、長い歴史があります。1960 年にイリノイ大学で立ち上がった PLATO や、1970 年に Carbonell が発表した SCHOLAR [Carbonell1970scholar]、それに続く SOPHIE といった初期の知的個別指導システムは、「機械が一人ひとりに合わせて教える」という夢を本気で追いかけました。1984 年には Bloom が「2σ 問題」を提起し [Bloom1984]、家庭教師指導群の中央値が一斉授業群の上位約 2% に到達するという衝撃的な結果を示して、「この差を社会全体でどう実現するか」という問いを後の世代に残しました。

2010 年代以降は、Learning Analytics (LA) や Educational Data Mining (EDM) が大きく伸び、学習データから何かを読み取ろうとする方向の研究が盛んになりました。そしていまは大規模言語モデル (LLM) の時代に入り、「ChatGPT が先生になるのか?」という問いを毎週のように耳にしています [Kasneci2023]。

ただ、こうした流れを少し離れて眺めてみると、答えを返すこと自体は昔よりずっと簡単になった一方で、学ぶ力を育てる という古い問題は、そんなに進んでいないようにも見えます。問題集を解かせれば点数は上がるかもしれない。LLM に質問すれば「答え」は返ってくるかもしれない。でも、学習者の頭の中で何が起きていて、どこを支えれば学ぶ力が育つのか――この問いに答えるには、技術だけでも、教育論だけでも足りない、というのが僕の出発点です。

そこで本書では、認知科学・教育学・知識工学・人工知能・HCI の知見を 横断する地図 として、教育 AI 全体の見取り図を描こうとしています。地図に通し名があったほうが扱いやすいので、僕は本書のなかで 認知学習工学 (Formalized Cognitive Learning, FCL) という呼び名を立てておきました。なぜ既存の呼び名ではなく新しい名前を立てるのか、どう既存分野と区別するのか、といった事情は次章本書の見取り図でまとめて扱います。本書の目的は名前を売り込むことではなく、領野全体に散らばっている論点を、あなたの関心と結びつけられる形で並べ直すことです。

この本のスタンス

最初に正直に書いておきたいのですが、本書は何か新しい "-ism" を提案する本ではありません。同じ問題意識を ITS と呼ぶ人もいれば、AIED、LA、EDM、Learning Engineering、HCAI と呼ぶ人もいます。それぞれの呼び名にはそれぞれの歴史と強みがあって、どれかが「正しい」というものでもありません。

本書では、教育 AI 研究という広い領野を 見渡すための地図 を、いろいろな研究室がそれぞれの位置から眺められるように差し出そうとしています。ですから、ぜひ本書を「受け取るもの」ではなく「一緒に考える叩き台」として読んでもらえると嬉しいです。重要なのは、認知・学習・形式化・支援システムという論点群が、あなたの関心とどう交差するかを掴んでもらうことです。

本書には対をなす姉妹編「研究の一歩目」があります。こちらは研究の HOW（問いの立て方、論文の書き方、査読との付き合い方）を、本書は教育 AI 分野の WHAT を扱う、という分担です。詳しい読み合わせ方は本書の使い方の「姉妹編との読み合わせ」にまとめています。

想定している読者

研究室サイト経由で本書に来てくれる人を、おおまかに次のように想像しています。

古池研で研究をしようと思っている学部生・大学院生
近接する研究室 (ITS / AIED / LA / EDM / HCI / 認知科学 / 教育学) の学生さん
教育 AI 領域に興味がある社会人・実践者の方々

どの方にも、それぞれの位置から本書の地図を読んでもらえれば嬉しいです。具体的な読み方は本書の使い方の章で案内しています。

僕自身の研究との関係

僕自身は、知識工学の系譜から ITS を研究してきた人間で、ここ数年は「中間表現」を軸とした学習支援システムの設計を進めています [Koike2026]。本書のなかでも、第 6 章で形式化と中間表現の話をするときや、第 16 章で応用事例を紹介するときに、自分のプロジェクトに少し触れる場面があります。

ただ、本書は「僕の研究の解説書」ではありません。あくまで本書が描く地図の上で、ある一つの実践例 として中間表現アプローチを紹介する、という位置づけです。あなたが、自分自身の研究関心を地図のどこに置くかを考える材料の一つになれば、それで十分です。

本書の限界について

最後に一つだけ、正直にお伝えしておきます。本書は LLM をフルに活用して書かれています。章構成・枠組み・主張は僕自身が考えたものですが、各章の起草、文献整理、図の構成には LLM を相棒として大きく使いました。素のままの僕一人の手で同じ範囲を編むのは、いまの仕事と時間配分のなかでは現実的ではなかったからです。

その代償として、本書は論文ほど厳格にチェックされてはいません。誤った主張・取り違えた数字・存在しない固有名のような瑕疵が、まだ残っている可能性があります。本書を引用・参照に使うときは、必ず元の文献に戻ってください。本書はそのナビゲーターであって、論文の代わりにはなりません。おかしな箇所を見つけたら、ぜひ僕のサイトから教えてください。あなたが見つけてくれたバグを修正していくことで、本書は少しずつ信頼できる地図になっていきます。

本書の見取り図 ―教育 AI 研究をどう眺めるか

ここでは、本書がどんな領域を扱い、その中でどんな視点を取るのかを、最初にまとめておきます。あとで何度も立ち返る場所になるので、まずは一度ざっと眺めて、必要に応じて戻ってきてもらえれば大丈夫です。

本書が扱う領域

本書が地図を描こうとしている領域は、ひとことで言えば 教育 AI 研究 です。もう少し具体的に書くと、次の分野を横断する広い領野になります。

認知科学 [Neisser1967]; [Anderson2000] ―人間が情報をどう処理し、知識をどう構造化するか
教育学・学習科学 [Bransford2000]; [Sawyer2006] ―人がどう学び、どう支援すれば学びが深まるか
知識工学 [Feigenbaum1977]; [Studer1998]; [Guarino2009] ―知識をどう形式化し、機械に扱える形にするか
ITS (Intelligent Tutoring Systems) [Woolf2009]; [Nkambou2010] ―認知モデルに基づく適応的個別指導
AIED (AI in Education) [Roll2016]; [Holmes2019] ―教育への AI 応用全般
LA / EDM [Siemens2013]; [Romero2010]; [Baker2014]; [Lang2017] ―学習データから知見を引き出す研究
HCI [Norman2013] ―人と学習システムのインタラクション設計
倫理・公平性 [Holmes2019] ―教育 AI を社会に置くときに避けて通れない論点

これらの分野は互いに重なり合っていて、研究室によって重心の置き方も呼び方もさまざまです。同じ問題意識を ITS と呼ぶ人も、AIED と呼ぶ人も、学習工学 (Learning Engineering) や HCAI と呼ぶ人もいます。本書では、これらの分野をひとつの地図として並べて読み解くために、「認知学習工学 (Formalized Cognitive Learning, FCL)」 という呼び名を僕がこの本で立てます。これは既存の確立された分野名ではなく、本書の中だけで通用する作業ラベル ―「この本で僕が打ち出している見取り図」 ― だと考えてください。あなた自身の研究の足場としてそのまま採用するか、別の呼び名に置き換えて読むかは自由です。大事なのは、地図そのものとあなたの関心との対応関係であって、呼び名そのものではありません。

本書を貫く三つのテーマ

本書では、上の領野を眺めるときに、繰り返し戻ってくる三つのテーマを置いています。これは「覚えるべき教義」ではなく、章を読み進めながら何度も顔を出す 問いのまとまり だと考えてください。

形式化 (Formalization) ―認知プロセスや知識を、計算機にも人間にも読める形でどう書き下すか。
中間表現 (Intermediate Representation) ―異なるシステム・研究室・実践者のあいだで、知見をどう持ち運べる形にするか。
エコシステム (Ecosystem) ―研究と実践、理論とデータが循環する仕組みを、どう作っていくか。

これら三つは、僕自身が論文 [Koike2026] で提案している中間表現アプローチの背骨でもあり、また広い意味で ITS / AIED / Learning Engineering の研究者がそれぞれの言葉で繰り返し議論してきた論点でもあります。

graph LR
    A[本書を貫く<br/>三つのテーマ] --> B[形式化<br/>Formalization]
    A --> C[中間表現<br/>Intermediate Representation]
    A --> D[エコシステム<br/>Ecosystem]

    B --> B1[認知プロセスを<br/>計算可能に表現]
    B --> B2[人間に理解可能な<br/>形式で記述]
    B --> B3[ドメイン知識の<br/>構造化]

    C --> C1[システム間で<br/>共有可能]
    C --> C2[計算可能性]
    C --> C3[解釈可能性]

    D --> D1[研究コミュニティ]
    D --> D2[開発者]
    D --> D3[教育実践者]
    D --> D4[学習者]

    style A fill:#f9f,stroke:#333,stroke-width:4px
    style B fill:#bbf,stroke:#333,stroke-width:2px
    style C fill:#bfb,stroke:#333,stroke-width:2px
    style D fill:#fbb,stroke:#333,stroke-width:2px

図: 本書が繰り返し戻ってくる三つのテーマ

なぜ新しく「認知学習工学 (FCL)」という呼び名を立てるのか

そもそも、ITS / AIED / Learning Engineering / 学習工学 / 教育工学といった既存の呼び名がいくつもあるなかで、なぜ僕は 新しい呼び名 をわざわざ立てているのでしょうか。これは正直に書いておきたいところです。

理由は、既存の呼び名のどれもが、本書がカバーしたい範囲を 過不足なく 切り取ってくれないからです。隣接する呼び名を並べてみると、こんな感じになります。

ITS (Intelligent Tutoring Systems) は、学習支援 システム に焦点を絞り過ぎています。認知科学的な土台や、システム外で起こるエコシステム的な議論は射程の外に出がちです。
AIED (AI in Education) は逆に広すぎます。教育に AI を使う話のすべて――採点、出題、推薦、要約、自由対話――が含まれてしまい、「認知の形式化」という核心がぼやけます。
Learning Analytics / Educational Data Mining は、データから学習を読み解く方向に重心があります。認知モデルとつながらないまま予測精度だけ上げる研究が増えやすく、「なぜそう予測されるのか」という説明可能性の議論が後景に退きます。
Learning Engineering は近いのですが、学習科学の知見を実践に翻訳することを主軸にしているため、認知の 形式化そのもの を中心に据える書きぶりにはなりにくい。
教育工学・学習工学 はどちらも長い歴史を持つ確立した分野ですが、本書が強調したい「認知の計算論的な形式化と中間表現の共有」という視点は、それらの中心テーマというより周辺の関心になっています。

そこで本書では、これらの分野を横断する地図の重心を、はっきりと言葉で固定するために、新しい作業ラベルを立てています。重心はこういうことです――人間の認知を計算論的に形式化し、その形式化された表現を媒介として、システム・研究者・現場のあいだで知見を共有・累積していく。この重心を一語で呼びたいので、僕はそれを Formalized Cognitive Learning (FCL)――日本語で 認知学習工学 と呼ぶことにしました。本書を読み終えたあと、この呼び名を自分の研究に持ち帰っても、無視して元々の呼び名を使い続けても構いません。重要なのは地図そのものであって、ラベルではないからです。

本書での定義 (working definition)

その上で、本書のなかで 認知学習工学 (FCL) と書いたとき何を指しているのかを、なるべく短く、ただし他の呼び名とは違いがわかる粒度で、定義しておきます。

英語版:

Formalized Cognitive Learning (FCL) — a working label introduced in this book. An interdisciplinary engineering perspective on education-AI research whose center of gravity is the computational formalization of human cognitive processes and their objects, and the design of intermediate representations through which researchers, developers, educators, and learners can share, criticize, and reuse what has been formalized. FCL is closely related to Intelligent Tutoring Systems (ITS), AI in Education (AIED), Learning Analytics (LA), Educational Data Mining (EDM), and Learning Engineering, but differs from each of them in choosing this combination of cognitive formalization and shareable intermediate representation as its primary commitment.

日本語版:

認知学習工学 (Formalized Cognitive Learning, FCL) ―本書のなかで著者が立てる作業ラベル。 教育 AI 研究をひとまとまりに眺めるための学際的・工学的視点であり、その重心を (1) 人間の認知プロセスとその対象の計算論的な形式化 と (2) その形式化を、研究者・開発者・教育実践者・学習者のあいだで共有・批評・再利用できるようにする中間表現の設計 に置く。ITS / AIED / LA / EDM / Learning Engineering といった既存の呼び名と多くを共有するが、「認知の形式化」と「共有可能な中間表現」をいわば二本足にしてバランスを取る、というコミットメントの仕方において区別される。

この定義は、本書を貫く三つのテーマ（形式化／中間表現／エコシステム）と、互いに支え合うようにできています。形式化 (1) と中間表現 (2) を二本足として、その上にエコシステムが立ち上がる、という入れ子構造だと思ってもらえれば、章を読み進めるときの足がかりになるはずです。

なお、この定義のもとになった発想は、僕自身が論文 [Koike2026] で展開している中間表現アプローチに直接つながっています。本書はその発想を一冊の規模で広げ、教育 AI 研究全体を眺める地図に展開したものだと考えてください。

この視点を採るとき、自然と次のような問いが立ち上がります。

いま自分が扱っている認知プロセスや知識を、どこまで明示的に書き下せるか
その記述を、別のシステムや別の研究者が再利用できるか
形式化 → システム → データ → 理論精緻化、という循環を、どこかで回せているか

これらは正解のある問いではありませんが、章を読みながら自分のテーマに引き寄せて考えてもらうと、本書の地図がぐっと立体的になります。

本書での「地図」の使い方

最後に、本書の中で「地図」をどんな道具として使うのか、立ち位置を一言で押さえておきましょう。

本書は、教育 AI 研究という学際的な領野を 見渡すための地図 を提示します。固定された方法論やドクトリンではなく、自分の研究や関心を 位置づけ直すための座標系 だと思ってもらえると、ちょうど良い距離感だと思います。

たとえば、

モデル駆動の ITS を研究するラボは、形式化と中間表現の軸に重心を置いた位置に立つでしょう。
データ駆動の LA / EDM を研究するラボは、エコシステムとデータ分析の軸寄りの位置に立つかもしれません。
HCAI (人間中心 AI) や HCI に近いラボは、適応的学習環境の使われ方や、人とシステムのインタラクションの設計に重心を置くでしょう。
認知科学・教育心理 の背景が強いラボは、形式化される対象 (認知プロセスや学習) そのものの解像度を上げる方向に貢献します。

どの位置も「中の正解」ではなく、それぞれが地図上の 別々の良い場所 です。本書の役割は、その地図の輪郭を提示することで、あなたが自分のラボや関心の置き場所を意識的に選べるようにすることだと思っています。

各章を読み進めながら、ぜひ「この議論は自分の研究のどこに効くだろうか」「自分はこの軸からは離れた位置にいるけれど、それは何を意味するだろうか」と問い直してみてください。本書は、そうしたあなた自身の問い直しの足場として使われたときに、いちばん役に立つはずです。

認知学習工学とは何か

この章で扱う問い

本書を手に取ってくれたあなたの関心は、おそらく一様ではないと思います。知的学習支援システム (ITS) を作りたい人、認知科学から教育に近づこうとしている人、AIED や LA/EDM の研究室にいる人、あるいは単に「機械が人を教えるとはどういうことか」を考えてみたい人――入り口はさまざまでしょう。本章は、そうしたあなたたちに共通の出発点を用意するための章です。僕が本書で 認知学習工学 (Formalized Cognitive Learning, FCL) と呼ぶことにしている見取り図が、何を問題にし、なぜいま語る価値があるのかを、まずざっくりと素描します。続く章々で詳しく扱う「認知」「学習」「知識」といった概念が、どのような大きな絵の中に置かれているのかを、ここで先に眺めておきたいのです（FCL という呼び名の位置づけは本書の見取り図で詳しく扱っています）。

この領野は隣接分野（認知科学・教育学・知識工学・AI など）が多く、最初に踏み込んだ人がうまく地図を描けずに迷うことがよくあります。本章は、そんなときに先に眺めておきたい見取り図のようなものとして書きました。

本書の中心的な問題意識

本書の出発点になっている問題意識を、あえて一文に圧縮するなら、こう書けます。

真に効果的な個別化学習を実現するには、人間の認知プロセスを科学的に理解し、それを計算論的に 形式化 し、形式化された知識に基づいて適応的な学習環境を設計・実装することが欠かせない。

この立場は、二つの誘惑への抵抗でもあります。一つは「データを集めて機械学習に投げれば学習は最適化される」というデータ駆動の楽観主義。もう一つは「学習理論は現場で使えればよく、計算可能な形に整える必要はない」という理論側の素朴さです。本書はこの二つの中間に立つ工学的視点を取り、認知科学・教育学が蓄積してきた知見を、計算機が処理でき、かつ人間が検証できる中間的な表現に落とし込むことを目指します。

この立場が要請されるのは偶然ではありません。一斉授業の限界、家庭教師の希少性、AI の台頭と限界――半世紀にわたる試行錯誤のすべてが、この一点に収束しつつあります。以下、まずその歴史的背景から見ていきましょう。

個別化学習の必要性

万人のための教育から一人ひとりのための教育へ

「誰に、何を、どのように教えるか」という問いに対する答えは、時代とともに大きく揺れてきました。古代ギリシャのソクラテスは、一対一の対話を通じて弟子に真理を気づかせる「産婆術」を実践しました。中世ヨーロッパや日本の徒弟制度では、親方が弟子の手元を見ながら技を直接伝えていました。これらはいずれも、学習者一人ひとりに応じた個別的な営みです。

転機となったのは、近代国民国家の成立です。17 世紀のコメニウス『大教授学』[Comenius1657] は、すべての階級・性別の子どもに同じ知識を効率的に届ける方法を体系化しようとしました。そして 19 世紀、プロイセン型の学校制度は、年齢で区切ったクラス、標準化されたカリキュラム、教科書、時間割、一斉授業という現代まで続く枠組みを完成させ、それが世界中に輸出されました。この一斉授業モデルは、識字率と基礎学力を爆発的に押し上げ、産業社会の人材供給という歴史的使命を見事に果たしたといえます。

しかし、その代償として、教育は学習者一人ひとりの差異を扱うことを諦めるしかありませんでした。同じ説明を聞いてもすぐ理解する生徒もいれば、何度繰り返しても腑に落ちない生徒もいます。同じクラスにいながら前提知識は驚くほど多様であり、視覚的に把握する生徒と論理的説明を好む生徒、興味を引かれる題材も動機の源泉も一人ひとり異なります。これらすべてに「平均的な進度」で対応することは原理的に不可能です。

この差異を真正面から測定したのが、Benjamin Bloom の有名な「2 シグマ問題」[Bloom1984] です。Bloom と共同研究者は、シカゴ周辺の学校で 4・5・8 年生を対象に、同じ内容を三つの条件――通常の一斉授業、形成的評価を伴うマスタリー学習、そして一対一 (または 1 対 2〜3) の家庭教師指導――で教える比較実験を行いました。結果は劇的でした。家庭教師指導を受けた群の中央値の生徒は、一斉授業群の上位約 2% に相当する成績に到達したのです。すなわち平均で約 2 標準偏差 (2σ) の差。Bloom 自身が「これは教育研究で見たことのない大きさの効果だ」と書き、教育界を震撼させました。同時にこれは「個別指導の効果に匹敵する一斉授業の方法を見つけよ」という挑戦状でもあります。Bloom の問いは、それから 40 年が経った今もなお、完全には解かれていません。

この未解決の問いに、技術はどこまで応えられるのか――次に見るのは、その挑戦の歴史です。

テクノロジーによる個別化の最初の試み：PLATO の野望

一人の教師が数十人の生徒に個別対応することは、人件費の上でも認知的負荷の上でも現実的ではありません。しかし、コンピュータならどうでしょうか。1960 年、まさにこの問いを実践に移したのが、イリノイ大学のドナルド・ビッツァー (Donald Bitzer) が立ち上げた PLATO (Programmed Logic for Automatic Teaching Operations) プロジェクト [Alpert1969] です。

ビッツァーは電気工学者でした。軍用シミュレータの仕事を通じて「コンピュータで人を教えられないか」という構想を抱き、当時希少だった大型計算機 ILLIAC I を時間借りして実験を始めます。技術的なボトルネックはディスプレイでした。商用の CRT は高価で、グラフィックも荒く、教室に置けるものではない。そこで彼の研究室は、独自に オレンジ色のプラズマディスプレイ を発明します。記憶機能を内蔵したこの薄型ディスプレイは、配線一本で一文字ずつ書き換えられるため、低帯域でも複数端末を同時にホストにつなげました。1970 年代には PLATO IV システムが完成し、ピーク時には全米・全世界に 1000 台以上の端末が接続され、何万人もの学生が幾何学・化学・外国語・初歩的プログラミングを学びました。コミュニティ機能 (フォーラム、メッセージング、リアルタイムチャット、マルチプレイヤゲーム) も PLATO 上で先駆的に実装され、後のインターネット文化の原型となります。

しかし PLATO の教材自体は、Skinner の行動主義的プログラム学習 [Skinner1938] を電子化したものに留まっていました。学習者の応答に応じて次の画面に分岐する、正答に強化を与える、誤答には別の経路を提示する――これだけです。学習者が「なぜ」その誤りをしたのか、どの概念的理解が欠落しているのかを、システムは知りませんでした。教材作成言語 TUTOR で書かれた分岐は本質的に巨大な決定木であり、想定外の誤答や、学習者の質問にはまったく対応できなかったのです。研究者たちは早い段階でこの限界を自覚していました。PLATO の偉業は「コンピュータで教えられること」を実証したことであり、その同じ実績が、次の世代に「単なる分岐では足りない」という課題を残したわけです。

SCHOLAR と知的個別指導システムの誕生

その課題に最初に挑んだのが、1970 年に BBN (Bolt Beranek and Newman) / MIT の Jaime R. Carbonell が発表した SCHOLAR [Carbonell1970scholar] です (同名の息子 Jaime G. Carbonell は CMU の自然言語処理研究者で、別人です)。SCHOLAR は南米の地理を題材としていましたが、その本質は教材そのものではなく、知識を意味ネットワーク (semantic network) として明示的に表現する という発想にあります。「アルゼンチン――首都――ブエノスアイレス」「アルゼンチン――言語――スペイン語」「ペルー――隣国――エクアドル」といったノードとリンクの集合があれば、システムはそれを推論しながら自然な対話を組み立てられる――この発想自体は、第 4 章で扱う知識表現の議論にもそのままつながります。半世紀前にここまでの構想がすでに動いていたことには、いま読み直しても驚かされます。

SCHOLAR が実演したのは「混合主導対話 (mixed-initiative dialogue)」でした。学習者が「ペルーの言語は?」と問えば答え、しばらくすると逆にシステムが「アルゼンチンとチリの違いを述べよ」と質問を返す。学習者の答えが「ブラジル」のように単に間違っているのではなく、関連はあるが文脈に合わない場合には、知識ネットワークをたどって「ブラジルはポルトガル語ですが、私が訊いたのはアルゼンチンです」と訂正できる。電子化されたドリルとはまったく別物の、対話的な知的振る舞いがそこにはあったわけです。

しかし SCHOLAR は同時に、後のすべての知的個別指導システムが直面する根本問題も浮き彫りにしました。意味ネットワークは事実知識 (〜は〜である) の表現には適していたものの、手続き的知識 (どう問題を解くか) と、誤りを起こす学習者の認知メカニズム には踏み込めなかったのです。システムは「学習者が知らないこと」は推測できても、「学習者がなぜそう間違えたか」は分からないまま――この限界は、第 5 章で扱う認知プロセス分析の出発点でもあります。

SCHOLAR を皮切りに、続く十年で SOPHIE (電子回路のトラブルシューティングを学ぶシミュレーション環境)、WHY (気象現象のソクラテス的対話) など、いわゆる 知的個別指導システム (ITS: Intelligent Tutoring Systems) の最初の世代が次々と現れます。彼らが共通して掲げた問いは、後に標準的な 4 構成要素モデルとして定式化されました。

学習者は今何を知っており、何を知らないのか (学習者モデリング)
学習者はなぜその誤りをしたのか (診断)
次に何を学ぶべきか (教授戦略)
どのように教えるのが効果的か (教授戦術)

これらに答えるには、もはや単なる教材作成技術ではなく、人間の認知の科学的モデル、知識を記述する言語、そして両者を統合する工学が必要であることが明らかになっていきます。

BUGGY が示したこと：誤りは体系的である

その「学習者がなぜ間違えるのか」に正面から取り組んだのが、John Seely Brown と Richard Burton の BUGGY (1978) です [Brown1978]。彼らは小学生の繰り下がりのある引き算を分析し、誤答が単なる不注意ではなく、学習者が一貫して用いている誤った手続き ――彼らはこれを「バグ」と呼びました――に由来することを示しました。たとえば「上位の桁から借りるのを忘れて、下位の桁の引き算だけ独立に計算する」「0 を含む引き算で、向きに関係なく大きい方から小さい方を引いてしまう (smaller-from-larger)」といった具合です。彼らはこうしたバグを 100 以上カタログ化し、続く Repair Theory と合わせて、学習者の数題の応答パターンから、その学習者がどのバグを抱えているかを逆推定する診断アルゴリズムを構築しました。

BUGGY の衝撃は二重です。第一に、誤りは確率的な「揺らぎ」ではなく、しばしば 完全に一貫した別の正しい手続き であるということ。第二に、ということは、教師が「もっと注意せよ」と叱るのは無意味で、対症的に正答を示すのも不十分であり、学習者が現に走らせている誤った手続きそのものを書き換える 介入が必要だということになります。これは、誤りを学習者モデリングの中心に据えるという、その後の ITS 研究の方向を決定づけた発見です。第 5 章のエラー分析の議論でも、再びこの BUGGY の発想に戻ってくることになります。

Cognitive Tutor：ITS が研究室を出た日

BUGGY が手続き的誤りの構造を示した同じ頃、CMU の John Anderson は人間の認知全体を統合的にモデル化する ACT (後の ACT-R) 理論 [Anderson2007] を構築していました。ACT-R は、宣言的知識 (事実) と手続き的知識 (IF-THEN プロダクションルール) を区別し、ルールが繰り返しの使用によって強化されるという数理的仕組みを与えます。Anderson の野心は、この認知理論を そのまま教育システムに組み込む ことでした。

1980 年代後半から 1990 年代にかけて、Anderson の研究室は高校代数・幾何のための Cognitive Tutor [Anderson1995] を開発しました。中核となる二つの技術が モデルトレーシング と 知識トレーシング です。モデルトレーシングは、専門家の解法を表すプロダクションルール集合を用意し、学習者が打つ各ステップがどのルールの適用に対応するかを照合します。これにより、答えだけでなく途中経過に対して即座にフィードバックが出せます。知識トレーシングは、各ルールが習得済みである確率をベイズ的に逐次更新する仕組み (後に BKT: Bayesian Knowledge Tracing と呼ばれます) であり、これによって個々の学習者ごとに練習問題の難易度と量を調整できるわけです。

Cognitive Tutor が画期的だったのは、研究室の中で動くプロトタイプに留まらず、Anderson らがスピンアウト企業 Carnegie Learning を通じて、これをピッツバーグや全米の公立校の教科書とセットで実用化したことです。教師は専用のダッシュボードでクラス全員の進捗を見、生徒は週の一部の授業時間を Cognitive Tutor に充てます。2014 年、RAND Corporation はテキサスを中心に 7 つの学区 147 校・約 18,700 名の生徒を対象とした大規模ランダム化比較試験 (RCT) の結果を発表しました [Pane2014]。1 年目は有意差なし、しかし 2 年目には Cognitive Tutor 群の生徒が標準的代数の成績で約 0.20σ 高い成績を示したのです。Bloom の 2σ には届きませんが、教育介入として「実環境で再現性のある統計的有意差」が出たこと自体が大きな成果でした。これは、形式化された認知モデルに基づく ITS が、研究室の白板から、毎日何万人の生徒が触れる現実の教室まで橋を渡せることを示した、稀有な事例です。

なお Cognitive Tutor が ACT-R に強くコミットしているのに対し、ニュージーランドの Stellan Ohlsson は別の哲学を提示しました。制約ベースモデリング [Ohlsson1994] は、正しい解法を全列挙するのでなく、「これに違反したら誤り」という制約だけを定義し、違反検出によって学習者を診断する手法です。SQL のクエリや作文のように「正解が無数にあるが間違えのパターンは限られている」領域では、こちらが有効です。形式化のスタイルは一つではない――この点は、本書全体を通じて繰り返し意識してほしいところです。

データ駆動の時代と、その限界

2000 年代に入り、舞台は再び大きく変わります。LMS、MOOCs、各種オンライン学習プラットフォームの普及によって、学習データは桁違いに豊富になりました。Educational Data Mining (EDM) [Romero2010]; [Baker2014] は、こうしたログデータからクラスタリングや系列パターン、予測モデルを抽出し、Learning Analytics (LA) [Siemens2013] は、よりリアルタイム志向で、教師向けダッシュボードや早期介入を実装しました。2010 年代後半には、知識追跡の RNN/LSTM 版である Deep Knowledge Tracing (DKT) が登場し、純粋な予測精度では古典的な BKT を上回るようになります。

しかし、ここで構造的な問題が顕在化します。深層モデルはなぜそう予測したかを語らない のです。「この生徒は次の試験で 85% の確率で失敗する」と言われても、教師にも生徒にも、何をどう教え直せばよいのかは分かりません。説明が不在であることは、信頼性の欠如、知見の累積困難 (モデルは一般化可能な「理論」をくれない)、訓練データに含まれるバイアスの無自覚な再生産といった一連の問題を引き起こします。Cognitive Tutor が「なぜこのヒントを今出したか」を ACT-R モデルに遡って語れたのに対し、DKT は同じ精度の予測を、しかし 理由抜きで 渡してくる、というわけです。

そして 2020 年代、ChatGPT を筆頭とする大規模言語モデル (LLM) が登場します [Kasneci2023]。自然な対話、無尽蔵の例題生成、作文の添削、ソクラテス的な問いかけ――個別指導の長年の夢の一部は、確かに技術的に手が届く距離に来ました。しかし同時に、ハルシネーション (自信に満ちた虚偽)、認知プロセスの無理解、説明の一貫性のなさといった、見過ごしようのない限界も明らかになっています。LLM は学習者が「何を答えたか」には反応できても、「なぜその答えに至ったか」を学習者モデルとして保持してはいないのです。

なぜ今この地図が必要か

ここまでの歴史から見えてくる構図は単純です。PLATO は分岐の限界に、SCHOLAR は手続きの欠如に、Cognitive Tutor は形式化の労力という現実的制約に、DKT/LLM は説明可能性の欠如にぶつかってきました。それぞれの世代の限界は、次の世代によって部分的にしか乗り越えられていません。

本書の問題意識は、これらを対立軸として見るのを止めることにあります。データ駆動と理論駆動、ブラックボックスと説明可能性、技術志向と教育学志向――これらは選択肢ではなく、統合すべき二つの極です。LLM の言語能力を制御するには形式化された知識が要ります。形式化された知識を実用化するには学習データと機械学習の助けが要ります。両者を仲介するのが、人間にも計算機にも読める 中間表現 であり、両者を社会として再生産するのが エコシステム です。次節で、この三つのテーマを順に紹介していきましょう。

本書を貫く三つのテーマ：形式化・中間表現・エコシステム

形式化 (Formalization)

形式化 とは、人間の認知プロセスとその対象を、計算可能かつ人間に理解可能な形式で表現することです。本書の文脈では、形式化は互いに依存する三つのレベルで行われます。第一は ドメイン知識の形式化 ――数学・物理・プログラミングといった領域の概念、概念間の関係、手続き的知識の明示的な記述です。第二は 認知プロセスの形式化 ――学習者がどのような知識をどう活性化し、どう変容させるかを計算モデルとして書き下すこと。Cognitive Tutor のプロダクションルールはまさにこのレベルに対応します。第三は 教授戦略の形式化 ――どのような状況でどのような支援を出すかを、ルールやアルゴリズムとして明文化することです。

なぜこれが「単なる技術的要請」ではなく重要なのでしょうか。形式化が果たすのは、暗黙のうちに人間の頭の中にあった仮定を 机上に引きずり出す ことです。引きずり出されてはじめて、それは検証され、批判され、改善され、計算機で実行され、他の研究者と共有され、その推論結果について「なぜそうなるのか」を説明できるようになります。教育研究が長年「再現性に乏しい」と批判されてきた一因は、教授デザインや診断の根拠が論文の散文の中にしか存在せず、機械的に追試できなかったことにあります。形式化は、この問題に対する工学的処方箋の一つです。

この立場は、David Marr が情報処理システムを理解するための三つのレベル [Marr1982] ――計算理論レベル (何を、なぜ計算するか)、表現とアルゴリズムレベル (どう表現し処理するか)、実装レベル (物理的にどう実現するか) ――として定式化したものとよく対応します。本書での形式化は、主としてレベル 1 と 2 に位置します。「学習者の概念理解を診断する」という計算的目標を定義し (レベル 1)、それを担う表現とアルゴリズムを設計する (レベル 2)。実装の細部は変わってよいが、計算理論と表現は分野の共有財産として残す――これが本書の規範的な姿勢です。

中間表現 (Intermediate Representation)

形式化されたものを、それを書いた人間以外も使えるようにするには、もう一段の抽象化が必要です。それが 中間表現 (IR) です。コンパイラの世界で IR が異なる言語と異なる機械の間を仲介するのと同様に、ここで言う中間表現は、異なる学習支援システム間でドメイン知識を共有可能にし、学習者モデルをシステム横断で持ち運べるようにし、研究成果を実装可能な形で蓄積し、さらには教育実践者が自分の目で読んで検証・修正できる形にすることを目指します。

効果的な中間表現は、次の三つの設計原理を同時に満たす必要があります。第一に 計算可能性 ――XML、JSON、OWL のようなオントロジー言語、プロダクションルールなど、機械が自動処理できる構造を持つこと。第二に 可搬性 ――特定のシステムや実装に縛られず、標準化された語彙で異なる環境で再利用できること。第三に 解釈可能性 ――専門家 (教師、認知科学者、教授設計者) がコードを読まずとも構造として読み取れ、必要なら直接修正できること。この三原理は緊張関係にあります。形式が厳密すぎれば実践者が触れず、自然言語に近すぎれば機械が解釈できない。中間表現の設計とは、この緊張のバランスを取る作業なのです。

具体例として、プログラミング教育における「for ループ」概念を中間表現で書き下したものを見てみましょう。

リスト 1-1: ループ概念の中間表現例

<Concept id="for-loop">
  <Name>For Loop</Name>
  <Prerequisites>
    <Concept ref="variable"/>
    <Concept ref="sequence"/>
    <Concept ref="iteration"/>
  </Prerequisites>
  <Components>
    <Component id="initialization"
               description="Loop variable initialization"/>
    <Component id="condition"
               description="Termination condition"/>
    <Component id="update"
               description="Loop variable update"/>
    <Component id="body"
               description="Statements to be repeated"/>
  </Components>
  <CommonMisconceptions>
    <Misconception id="off-by-one"
                   frequency="high"
                   description="Incorrect boundary in condition"/>
  </CommonMisconceptions>
</Concept>

この記述は、機械が解釈できる構造化形式 (計算可能性) で書かれ、別のシステムでも参照できる ID 体系を用いており (可搬性)、教師が「前提知識のリストに recursion が漏れている」と指摘して直接書き換えられる (解釈可能性)。三原理が同時に満たされている例です。中間表現がどのような言語で具体的にどう書かれるべきかは、第 6 章で立ち入って論じます。なお、この中間表現を軸にした研究実践の一例は、僕自身の論文 [Koike2026] でも詳しく扱っています。

エコシステム (Ecosystem)

形式化と中間表現は、それを担う 社会的な仕組み がなければ、単発の論文や孤立した製品で終わってしまいます。三つ目のテーマが エコシステム です。

健全なエコシステムには、認知科学者 (認知プロセスの理解を提供)、教育学者・学習科学者 (効果的な教授法の知見)、知識工学者 (形式化手法)、AI 研究者・エンジニア (適応的推論技術)、HCI 研究者・デザイナー (インタラクション設計)、教育実践者 (現場のフィードバック)、そして学習者自身 (実データと経験) ――これら異なる専門性を持つ人々が、共通の中間表現を通じて成果を交換し、再利用できる場が必要です。具体的な構成要素としては、標準化された中間表現、オープンに使えるツール・データセット・ベンチマーク、AIED や ITS、EDM、LA といった研究コミュニティ、教育現場での実践共有のネットワーク、そして両者をつなぐ産学連携が含まれます。

理想形として目指すのは、下図に示すような好循環です。認知科学・教育学の知見が中間表現として記述され、それに基づいて学習支援システムが開発され、システムの利用が学習データを生み、データ分析が新たな知見を生み、それが理論を精緻化して中間表現を改善し、改善された中間表現が次世代のシステムを加速する――。

flowchart TD
    A[1: 認知科学・教育学の知見] --> B[2: 形式化手法による中間表現として記述]
    B --> C[3: 学習支援システムの開発]
    C --> D[4: 学習データの蓄積]
    D --> E[5: データ分析により新たな知見を獲得]
    E --> F[6: 理論を精緻化し中間表現を改善]
    F -.好循環サイクル.-> A

図 1-1: 教育 AI エコシステムの好循環

この循環が現状ほとんど存在していないこと――研究は研究室で閉じ、実践は実践で別のループを回し、両者をつなぐ中間表現の標準が事実上ないこと――こそが、本書がエコシステム構築を独立したテーマとして掲げる理由です。三つのテーマはそれぞれ独立した目標ではありません。形式化なしに中間表現は書けず、中間表現なしにエコシステムは機能しません。次に、この本書がどの学問分野からどう養分を得ているかを確認しましょう。

本書の構成

本書全体は、三つのテーマ (形式化・中間表現・エコシステム) を以下の順序で立ち上げていきます。

第 I 部：基礎理論編 (第 1-4 章) は、本書の科学的基盤を扱います。本章に続いて、第 2 章「認知とは何か」で認知科学の基礎、第 3 章「学習とは何か」で教育学・学習科学の基礎、第 4 章「知識とその表現」で知識工学の基礎を学びます。ここで「形式化されるべき対象」が何かが明らかになります。

第 II 部：方法論編 (第 5-7 章) では、その対象を実際に形式化する方法を扱います。第 5 章「認知プロセスの分析」、第 6 章「認知の形式化と中間表現」、第 7 章「学習課題と学習活動の設計」です。三つのテーマのうち最初の二つ――形式化と中間表現――の中核がここに集まります。

第 III 部：技術編 (第 8-12 章) は、形式化された知識の上に適応的学習環境を実装する技術です。第 8 章「知的学習支援システムの基礎」(ITS の 4 構成要素モデルの再訪)、第 9 章「学習者モデリング」、第 10 章「適応的学習支援」、第 11 章「ヒューマンコンピュータインタラクション」、第 12 章「人工知能の応用」(LLM の組み込みを含む)。

第 IV 部：評価編 (第 13-14 章) では、こうして作られたシステムをどう科学的に評価するかを論じます。第 13 章「研究の評価」、第 14 章「実験計画法と統計的分析」です。第 V 部：関連分野と応用 (第 15-16 章) で関連分野の最新動向と応用事例を、第 VI 部：倫理と未来展望 (第 17-18 章) で規範的・社会的課題と将来像を論じて全体を閉じます。三つのテーマの最後――エコシステム――は、第 V 部・第 VI 部で社会制度的側面として収束します。

まとめ

本章では、本書が扱う教育 AI / 認知学習工学という領野の中心的な問題意識と、その背景にある半世紀の歴史、そして本書を貫く三つのテーマの概要を提示しました。

中心的な問題意識は、真に効果的な個別化学習は、認知の科学的理解を計算可能かつ人間にも理解可能な形に形式化することなしには実現しない、というものです。Bloom の 2σ 問題は個別指導の効果の大きさを示しましたが、その実現を技術に委ねた半世紀のあいだに、PLATO は分岐の限界を、SCHOLAR は手続きの欠如を、Cognitive Tutor は形式化の労力という現実を、DKT と LLM は説明可能性の欠如を、それぞれ顕在化させてきました。これらの限界は互いに排他的ではなく、データ駆動と理論駆動を統合する視点のもとで、一つずつ取り扱えるはずです。

その視点を支えるのが、認知を計算可能かつ理解可能に表す 形式化、システム間で共有可能な 中間表現、研究と実践が循環する エコシステム の三つのテーマです。

次章への橋渡し

三つのテーマのうち最初の 形式化 は、まず「何を形式化するのか」がはっきりしていないと始まりません。その対象とは、人間の認知プロセスそのものです。次章からは、その対象である「認知」とは何かを、認知科学の基礎から見ていきましょう。記憶・スキーマ・問題解決・外的表現といった、形式化以前に押さえておくべき骨格が、第 2 章のテーマとなります。

さらに学ぶために

入門書

Woolf, B. P. (2009). Building Intelligent Interactive Tutors. Morgan Kaufmann. ITS の包括的入門書。歴史から最新技術まで網羅。
Bransford, J. D., Brown, A. L., & Cocking, R. R. (2000). How People Learn. National Academy Press. 学習科学の古典的名著。認知科学に基づく教育設計の原理を解説。

歴史的展望

Nkambou, R., Bourdeau, J., & Mizoguchi, R. (Eds.). (2010). Advances in Intelligent Tutoring Systems. Springer. ITS 研究の歴史的展開と最新動向を概観。
Roll, I., & Wylie, R. (2016). Evolution and Revolution in Artificial Intelligence in Education. International Journal of Artificial Intelligence in Education, 26(2), 582-599. AIED の歴史と未来を論じる重要な論文。
Dear, B. (2017). The Friendly Orange Glow: The Untold Story of the PLATO System and the Dawn of Cyberculture. Pantheon. PLATO 開発史の決定版。本章で触れたビッツァーとプラズマディスプレイのエピソードを含む。

オンラインリソース

International AIED Society: https://iaied.org/
ITS Conference: https://its-conference.com/
Learning Analytics & Knowledge (LAK) Conference: https://www.solaresearch.org/events/lak/

認知とは何か ―認知科学の基礎―

この章で扱う問い

学習を支援するシステムを設計するためには、まず「人間が情報をどう処理し、知識をどう構造化し、問題をどう解くのか」を理解しないと話が始まりません。本章は、第1章で素描した本書の枠組みの「認知」の側を埋める章です。20世紀前半の行動主義から 1950 年代の認知革命を経て現代の認知科学へと至る流れを追いながら、記憶・スキーマ・問題解決という三つの中核的トピックを概観します。最後に、同じ論理的内容でも表現形式が変われば認知プロセスそのものが変わる、という本書の見取り図にとって決定的な原理を提示します。

ITS や AIED の開発に関心がある読者にとっては、これから学習者モデリングや適応的支援を設計するときの「土台」になる章です。認知科学的な興味から本書を読んでいる読者にとっては、「学習支援工学が認知科学をどう使うのか」という見方を提供します。本章で見る記憶やスキーマは、後の章で診断・支援・評価のあらゆる場面に再登場します。

行動主義から認知主義へ

ブラックボックスとしての心

20世紀前半の心理学を支配したのは、観察可能な行動だけを科学の対象とすべきだとする立場、すなわち 行動主義 です。Ivan Pavlov [Pavlov1927] は、犬の消化に関する研究中、ベルの音（中性刺激）と餌（無条件刺激）を繰り返し対提示すると、犬がベルの音だけで唾液を分泌するようになることを発見しました。この 古典的条件づけ（classical conditioning）は、学習の基本的メカニズムとして広く認められましたが、説明できるのは刺激と反応の連合だけでした。

sequenceDiagram
    participant Bell as ベル（中性刺激→条件刺激）
    participant Food as 餌（無条件刺激）
    participant Dog as 犬
    participant Response as 反応（唾液分泌）

    Note over Bell,Response: 学習前
    Food->>Dog: 提示
    Dog->>Response: 唾液分泌（無条件反応）

    Note over Bell,Response: 学習中（対提示）
    Bell->>Dog: 音を鳴らす
    Food->>Dog: 餌を与える
    Dog->>Response: 唾液分泌

    Note over Bell,Response: 学習後
    Bell->>Dog: 音を鳴らす
    Dog->>Response: 唾液分泌（条件反応）

図 2-1: パブロフの古典的条件づけ

B. F. Skinner [Skinner1938] はより能動的な学習メカニズムとして オペラント条件づけ（operant conditioning）を提案しました。スキナー箱のなかでネズミが偶然レバーを押すと餌が出る――この設定から、望ましい行動の直後の報酬が行動を増加させる（強化）、罰が行動を減少させる（罰）、強化が止まれば学習された行動は消えていく（消去）といった一連の法則が導かれます。スキナーの理論はプログラム学習や初期の CAI の基盤となり、いまも一部のドリル型教材に影響を残しています。

しかし行動主義には根本的な限界がありました。心的プロセスをブラックボックスとして扱うため、言語・推論・創造性といった高次の認知活動を説明できず、また同じ刺激でも文脈や既有知識によって反応が異なる事実をうまく扱えなかったのです。

認知革命

1950 年代後半から 60 年代にかけて、複数の分野からの収束的な動きが、心の内部を科学的に研究することを正当化していきました。これが 認知革命 です。

George Miller [Miller1956] は論文「マジカルナンバー 7±2」で、人間の即時記憶の容量が約 7（±2）チャンクであることを示しました。これは情報処理の制約を定量的に示した最初の発見の一つで、心を「処理能力の限界をもつシステム」として論じる道を開きます。同じころ言語学者 Noam Chomsky [Chomsky1959] はスキナーの『言語行動』(1957) を厳しく批判しました。子どもは限られた言語入力から無限の文を生成できる――これは単なる刺激-反応連合では説明できず、生得的な言語獲得装置の存在を示唆する、というわけです。

決定打となったのはコンピュータの登場でした。Claude Shannon の情報理論 [Shannon1948] と Alan Turing の計算理論 [Turing1937] は、「情報」と「計算」という新しい枠組みを提供しました。これによって心的プロセスを「情報の変換と操作」として記述できるようになり、入力（刺激）→処理（認知プロセス）→出力（反応）というモデルのもとで、内部の心的プロセスを正面から扱う 認知科学（Cognitive Science）[Neisser1967] が誕生します。

行動主義と認知主義はあらゆる点で対照的です。両者の違いを整理すると次のようになります。

観点	行動主義	認知主義
研究対象	観察可能な行動のみ	内的な心的プロセス
学習の定義	刺激-反応の連合形成	知識構造の変化・再構成
心の扱い	「ブラックボックス」として無視	情報処理システムとして研究対象
主要概念	強化、罰、条件づけ	スキーマ、記憶、問題解決
研究方法	動物実験、行動観察	認知課題、プロトコル分析、脳イメージング
教育への示唆	ドリル・反復・即時フィードバック	概念理解・構造化・メタ認知

下表に、行動主義から認知科学への転換の主要な出来事を示します。

時代	年代	研究者・出来事	内容
行動主義時代	1900–1927	Pavlov	古典的条件づけ
	1913–1930	Watson	行動主義宣言
	1938–1960	Skinner	オペラント条件づけ
移行期	1948	Shannon	情報理論
	1950	Turing	チューリングテスト
	1956	Miller	マジカルナンバー7±2
	1959	Chomsky	言語批判
認知革命	1967	Neisser	認知心理学
	1968	Atkinson & Shiffrin	記憶モデル
	1972	Newell & Simon	問題解決
認知科学確立	1975–1990	–	認知科学の発展

表 2-1: 認知革命のタイムライン

記憶のシステム

人間の記憶は単一の貯蔵庫ではなく、性質の異なる複数のサブシステムから成り立っています。この構造を理解することは、教材設計や課題提示において「いま学習者の心のどこに負荷がかかっているのか」を判断する基礎になります。

多重貯蔵モデル

Atkinson と Shiffrin [Atkinson1968] は、記憶を三つのシステムに分ける 多重貯蔵モデル を提案しました。

感覚記憶（Sensory Memory）：視覚、聴覚などの感覚情報を 1 秒未満の極短時間だけ保持します [Sperling1960]。
短期記憶 / ワーキングメモリ（Short-term Memory / Working Memory）：限られた容量（およそ 7±2 チャンク）で情報を一時的に保持・操作します。
長期記憶（Long-term Memory）：ほぼ無制限の容量で、情報を長期間保存します。

graph LR
    A[外部刺激] --> B[感覚記憶<br/>Sensory Memory<br/>容量：大<br/>持続時間：&lt;1秒]
    B -->|注意| C[ワーキングメモリ<br/>Working Memory<br/>容量：7±2チャンク<br/>持続時間：数十秒]
    C -->|符号化・リハーサル| D[長期記憶<br/>Long-term Memory<br/>容量：ほぼ無制限<br/>持続時間：永続的]
    D -->|検索| C
    C -->|忘却| E[消失]

    style A fill:#e1f5ff
    style B fill:#fff4e1
    style C fill:#ffe1e1
    style D fill:#e1ffe1
    style E fill:#f0f0f0

図 2-2: 記憶の多重貯蔵モデル

このうち教材設計に最も大きな影響を与えるのが、ワーキングメモリの 容量制約 です。たとえば「3, 8, 1, 9, 4, 7, 2」という 7 桁の数字は多くの人が一度で復唱できますが、「3, 8, 1, 9, 4, 7, 2, 5, 6, 0」と 10 桁になると途端に困難になります。一方、同じ 10 桁でも「090-1234-5678」のように電話番号として意味づけられた瞬間に楽に保持できる。これが Miller の言う「チャンク化」の効果であり、既有知識が情報を意味のあるまとまりに束ねることで、見かけ上の容量制限を押し広げているのです。

ワーキングメモリの内部構造

Alan Baddeley [Baddeley1986] は、短期記憶を単一のバッファではなく、専門化したサブシステムの集合として捉え直しました。音韻ループ は言語情報を内的リハーサルで保持し、視空間スケッチパッド は視覚・空間情報を保持し、中央実行系 が注意を割り振ります。後年（2000年）には、複数のモダリティを横断する情報を統合する エピソードバッファ が追加されました。

このモデルの教育的含意は明確です。複雑すぎる教材は処理しきれず学習を阻害するため、提示する情報量を学習者のワーキングメモリ容量に合わせて設計する必要があります。これは認知負荷理論 [Sweller2011] として体系化され、第7章で改めて取り上げます。

長期記憶の種類

長期記憶もまた一枚岩ではありません。Tulving [Tulving1972] による区分は、教育的な観点からとりわけ重要です。

意識的に想起でき言語で表現できる 陳述的記憶 は、さらに 意味記憶 と エピソード記憶 に分けられます。意味記憶は文脈から独立した一般的知識で、「パリはフランスの首都」「 $a^{2} + b^{2} = c^{2}$ は直角三角形の関係式」といった事実が該当します。エピソード記憶は時間と場所に結びついた個人的経験の記憶で、「昨日の夕食」「初めて自分のプログラムが動いたときの喜び」といった出来事として想起されます。これに対し 手続き的記憶 は、自転車の乗り方やタイピングのように、言語化しにくく身体に刻まれた「やり方」の記憶です。

記憶の種類	特徴	教育的示唆
意味記憶	・文脈から独立した知識・言語化可能・意識的アクセス	概念の構造化、関係性の明示、スキーマ形成が重要
エピソード記憶	・文脈依存的・個人的な経験・時間・場所情報を含む	具体的な体験を通じた学習、ストーリーテリング、実践的文脈の重視
手続き的記憶	・言語化困難・自動化される・練習により形成	反復練習、フィードバック、段階的な技能習得、自動化までの支援

表 2-2: 長期記憶の種類と特徴

これら三種類の記憶は、それぞれ異なる学習プロセスと支援を必要とします。概念理解（意味記憶）には構造化と関連づけが、体験的学習（エピソード記憶）には文脈の豊かさが、技能習得（手続き的記憶）には反復と段階的フェーディングが効きます。学習支援システムは、対象とする学習成果がどの記憶に属するのかを意識して設計しなければならない、というわけです。

知識の構造化：スキーマ理論

記憶は受動的な録画装置ではありません。新しい情報は、既有の知識構造に照らし合わせ、解釈され、再構成されて取り込まれます。この知識構造を スキーマ と呼びます。

Bartlett の再生実験

スキーマ概念の出発点は Frederic Bartlett [Bartlett1932] の古典的実験です。彼はイギリスの被験者に「幽霊の戦争」という北米先住民の民話を読ませ、時間をおいて繰り返し再生させました。被験者は物語を逐語的に思い出すのではなく、自分の文化的枠組みに合うように歪めて想起しました。たとえば「カヌー」が「ボート」に置き換わり、超自然的な要素は合理化され、なじみのない要素は脱落していく。Bartlett はここから、記憶が「録音と再生」ではなく既有知識に基づく「再構成」であると結論します。

スキーマの効果は、文脈情報の与え方ひとつでも劇的に現れます。Bransford と Johnson [Bransford1972] は被験者に、衣類を分類して洗濯機に入れ、洗剤を加え、適切な設定を選び……と続く一節を提示しました。事前に「これは洗濯の話です」と告げられた群は内容を容易に理解し記憶できましたが、何の文脈も与えられなかった群は同じ文章を抽象的で意味不明と感じ、ほとんど記憶できませんでした。同じ言語入力でも、活性化されるスキーマの違いが理解そのものを左右するのです。

スキーマの機能

スキーマ（schema）は、概念や出来事や手続きについて構造化された知識の枠組みです。たとえば「レストラン・スキーマ」には、入店して席に着き、メニューを見て注文し、食事をし、会計をして退店するという典型的な流れと、ウェイターやテーブルやメニューといった登場人物・道具、そしてチップを払うかどうかといった文化的規範が含まれます。

このスキーマは少なくとも四つの働きをします。第一に 理解の促進 ――新しい情報を既存のスキーマに統合することで、断片的な入力が意味のある全体として把握できる。第二に推論 ――明示されていない情報を補えるため、「レストランにはテーブルがある」と聞かなくてもそう想定できる。第三に 記憶の補完 ――欠けている部分をスキーマで埋めるため、ときに実際にはなかったことまで「思い出して」しまう。第四に 注意の誘導 ――スキーマに関連する情報に自然と注意が向く、という働きです。

学習はスキーマの変化である

Piaget [Piaget1952] は学習を二つのプロセスの組み合わせとして捉えました。同化（assimilation）は新しい情報を既存のスキーマに取り込むこと、調節（accommodation）は既存のスキーマそのものを修正・拡張して新しい情報に適応することです。多くの学習は同化で済みますが、既有スキーマでは捉えきれない経験に直面したとき、学習者は調節を迫られます。この同化と調節の動的均衡こそが学習の本質であり、効果的な支援とは、学習者の現在のスキーマを診断し、適切な同化・調節を引き出すことにほかなりません。この見方は、次章でより詳しく扱う構成主義の核となる発想です。

問題解決と推論

知識の獲得と並んで認知科学が中心的に扱ってきたのが、問題解決です。とりわけ Newell と Simon の枠組みは、ITS や ICAI の設計に直接の影響を与えてきました。

問題空間としての問題解決

Newell と Simon [Newell1972] は、問題解決を 問題空間（problem space）における探索として定式化しました。問題は、初期状態、目標状態、状態を変換するオペレータ、そして許される操作についての制約からなります。問題を解くとは、オペレータを適用して初期状態から目標状態への経路を見つけることです。

人間（と古典的 AI）が実際によく使う戦略が 手段-目的分析（means-ends analysis）です。現在状態と目標状態の差異を同定し、その差異を減らすオペレータを選び、適用し、新しい状態でまた同じことを繰り返す。たとえばハノイの塔では、「最大の円盤を目標の柱に移す」というサブゴールを設定し、その前提条件（小さい円盤を別の柱に退避する）をさらにサブゴール化していく、という再帰的構造として記述できます。この見方は、学習者がつまずく場所を「サブゴール構造のどの段階で目的-手段の対応が見えていないか」として特定する手がかりを与えてくれます。第5章の認知タスク分析では、この発想を実際に方法論として使うことになります。

初心者と専門家の違い

Chi らの古典的研究 [Chi1981] は、物理学の問題を初心者と専門家に分類させたとき、両者の分類基準が劇的に異なることを示しました。初心者は「斜面」「ばね」「滑車」といった 表面的特徴 で問題をまとめるのに対し、専門家は「エネルギー保存則が使えるか」「ニュートンの第二法則の問題か」といった 深い構造 ――解くために適用すべき原理――でまとめるのです。

この違いは、専門知識が単なる事実の量ではなく、知識の 構造化 と スキーマ化 によって特徴づけられることを示しています。学習支援の目標は、知識の量を増やすことだけではなく、表面的類似性に縛られた知識を深い構造に基づくスキーマへと組み替えることにある――この観点は、次章で扱う「転移」の議論にも直結します。

Marr の三つのレベル

David Marr [Marr1982] は、情報処理システムを理解するには三つのレベルを区別する必要があると論じました。計算理論レベル は「何を」計算しているのか、そして「なぜ」それが適切なのかを問います（例：視覚は網膜像から3次元世界を復元する。それは行動に必要だから）。表現とアルゴリズムレベル は、その計算をどんな表現と手順で実現するかを問います（例：エッジ検出 → 輪郭抽出 → 面の認識）。実装レベル は、それが物理的に何によって実現されているかを問います（例：神経回路）。

本書で僕たちが主に扱うのは上の二つのレベル、すなわち「学習において何を達成すべきか」（概念理解、スキル習得など）と、「それをどんな表現とアルゴリズムで支援するか」です。実装レベル――脳神経科学的な機構――は背景に置きつつ、計算理論とアルゴリズムのレベルで支援を設計する、というのが本書の基本的な立場です。

外的表現と認知的道具

ここまで述べてきたのは、心の内側で起こっていることです。ですが、認知は心の中だけで完結するものではありません。紙、図、記号、計算機といった 外的表現 が、しばしば思考そのものを形作ります。本章の最後に、この点を強調しておきたいのです。なぜなら学習支援システムを設計するとは、結局、適切な外的表現を学習者に渡すことだからです。

情報が変われば認知が変わる

同じ問題でも、どのように表現するか によって難易度が劇的に変わります。

例：4 枚カード問題（Wason selection task [Wason1968]）

カードの片面にはアルファベット、もう片面には数字が書かれている。「カードの片面が母音なら、その反対の面は偶数である」というルールを検証したい。以下の4枚のカードのうち、ルールが守られているかを確かめるには、最低限どれをひっくり返せばよいか？

[E] [K] [4] [7]

正答率はわずか10%程度で、多くの人は「Eと4」と答えます。しかし正解は Eと7 の2枚です。それぞれのカードについて、なぜ裏返す必要があるのか／ないのかを論理的に整理すると次のようになります。

E は母音であり、ルールの前件を満たします。裏が偶数でなければルール違反となるため、裏返して確認する必要があります。K は子音であり、ルールの前件を満たしません。ルールは子音について何も主張していないので、裏に何があってもルール違反とはならず、裏返す必要はありません。4 は偶数なので一見関係ありそうですが、ルールは「母音 → 偶数」であって「偶数 → 母音」ではありません。裏が子音であってもルールは破られません。後件の肯定（affirming the consequent）は論理的に無効であり、ここで多くの人がつまずきます。7 は奇数なので、もし裏が母音だったとすれば「母音なのに偶数でない」となりルール違反です。裏返して確認しなければなりません。

要するに、必要なのは「前件を満たすカード（E）」と「後件を満たさないカード（7）」を確認することです。これは形式論理における対偶（P → Q と ¬Q → ¬P の同値性）の応用にほかなりません。

ところが、まったく同じ論理構造を日常的な文脈に置き換えると、正答率は大幅に上がります [Griggs1982]。

「21歳未満ならアルコール飲料を飲んではいけない」というルールを検証する場面を考えてみましょう。バーで以下の4人を観察できるとして、ルール違反がないかを確かめるには誰をチェックすべきか？

[ビールを飲んでいる] [コーラを飲んでいる] [25歳] [16歳]

正解は「ビールを飲んでいる人」（年齢を確認）と「16歳の人」（飲み物を確認）の2人です。コーラを飲んでいる人や25歳の人は、ルールの前件を満たさない／後件を満たすため、確認する必要はありません。論理構造はカード問題と同型ですが、こちらでは多くの人が直感的に正答にたどり着きます。

抽象的なシンボル（母音／偶数）よりも、社会的規範や因果関係を含む具体的文脈のほうが、人間の推論を強く支えるのです。情報の論理的内容が同じでも、その表現形式が変われば認知プロセス自体が変わる――これは、学習支援システムの設計においても見過ごせない原理です。

認知的道具

外的表現は、人間の認知能力を拡張する 認知的道具（cognitive tools）として働きます。アラビア数字や代数記法は筆算という手続きを可能にし、グラフや概念マップは複雑な関係を一目で把握させ、そろばんや電卓は計算を物理的・電気的に外部化し、シミュレーションは試行錯誤の空間を広げる。Donald Norman [Norman2013] が指摘するとおり、こうした道具は認知プロセスを外部に押し出すことで、ワーキングメモリ容量のような内的制約を補完しているのです。

本書の問題意識からすると、適切な 外的表現の設計 は中心的な課題です。学習者の認知負荷を下げ、深い構造への注意を促し、推論を支える表現とは何か――この問いは第7章および第11章で再び取り上げます。

まとめ

本章では、認知科学の基礎を駆け足で概観しました。

行動主義から認知主義へ：刺激-反応から情報処理へのパラダイム転換。コンピュータ・メタファーが、心的プロセスを科学的に研究する道を開きました。
記憶システム：感覚記憶、ワーキングメモリ、長期記憶の多重構造。ワーキングメモリの容量制約（7±2 チャンク）は、学習設計上の最も重要な制約です。
スキーマ：知識の構造化された表現。記憶も理解も推論もスキーマを介します。学習とは同化と調節によるスキーマの変化です。
問題解決：問題空間の探索と手段-目的分析。専門家と初心者の違いは、知識量ではなく構造化の深さにあります。
Marr の三つのレベル：本書では主に計算理論レベル（何を学ぶか）とアルゴリズムレベル（どう支援するか）に関心があります。
外的表現：情報が変われば認知が変わる。表現の設計こそ学習支援の鍵です。

次章への橋渡し

本章では、人間の認知システムが「いかなる構造をもち」「どのように情報を処理するか」を扱いました。記憶の多重構造、スキーマによる知識の組織化、問題空間の探索、外的表現の効果――これらは認知の 構造と機能 の話です。

しかし、僕たちの本当の関心は構造そのものではなく、その構造が 経験を通じてどう変化するか、すなわち学習です。スキーマはどう拡張・再構成されるのか。表面的特徴に縛られた初心者の知識は、どんな経験を経て深い構造に基づく専門家の知識へと組み替わるのか。

第3章では、この「変化のメカニズム」に焦点を移します。Piaget と Vygotsky による構成主義、Bruner や Ausubel の教授理論、Bloom のタクソノミー、認知的徒弟制と状況的学習論、メタ認知と自己調整学習、生産的失敗、そして転移――学習科学が積み上げてきたこれらの枠組みを体系化し、本書の関心からの学習環境設計への示唆を引き出します。本章で見た認知の「構造」と、次章で見る学習の「動態」を重ね合わせたとき、どんな認知状態を、どんな経験で、どこに動かすか、という設計問題が立ち上がってきます。

さらに学ぶために

Anderson, J. R. (2000). Cognitive Psychology and Its Implications. Worth Publishers.
Baddeley, A. D. (1986). Working Memory. Oxford University Press.
Marr, D. (1982). Vision. W. H. Freeman.

学習とは何か ―教育学・学習科学の基礎―

この章で扱う問い

第2章では人間の認知システムの構造 ――記憶のサブシステム、スキーマによる知識の組織化、問題空間の探索、外的表現の効果――を概観しました。しかし僕たちの最終的な関心は、その構造が経験を通じてどう変化するか、すなわち学習です。本章では、学習科学が積み上げてきた主要な理論を体系的に整理していきます。構成主義に始まり、教授理論、Bloom のタクソノミー、社会的学習論、メタ認知と自己調整学習、生産的失敗、そして転移へと進み、最後に本書の関心からの学習環境設計の指針を引き出します。

教育学や学習科学を背景に持つ読者にとっては、馴染みの理論を「学習支援システムの設計言語」として読み直す機会になるでしょう。一方、ITS や AI の側から教育に近づこうとしている読者にとっては、これらの理論は単なる「教育の常識」ではなく、第7章以降の支援設計を駆動するエンジンであることが見えてくるはずです。本章で見る ZPD、足場かけ、メタ認知、転移といった概念は、後続の章々で頻繁に登場するキーワードとなります。

構成主義：学習者が知識を構成する

学習の理論的出発点として、20 世紀後半の教育理論を支配することになった一つのテーゼがあります――学習者は知識の受動的な受容者ではなく、能動的な構成者である、という主張です。このテーゼには Piaget による「個人の内側からの構成」と Vygotsky による「社会的相互作用を介した構成」という二つの源流があり、両者は対立しつつ補完し合う関係にあります。

Piaget：個人による知識の構成

Jean Piaget [Piaget1952] は児童の認知発達を綿密に観察し、子どもが世界を理解する仕方は質的な段階を経て変化することを示しました。感覚運動期（0–2 歳）では感覚と運動を通じて対象の永続性が獲得されます。前操作期（2–7 歳）では象徴的思考が現れますが、保存概念はまだ未発達で、たとえば同じ量の水を細いコップに移し替えると「増えた」と判断してしまいます。具体的操作期（7–11 歳）では論理的思考が可能になりますが具体的対象に限定され、形式的操作期（11 歳以降）に入って初めて抽象的・仮説的思考が成立します。

第2章で触れたように、Piaget は学習を同化（既存スキーマへの取り込み）と調節（スキーマの修正・拡張）の二つのプロセスとして捉えました。そして両者の動的バランスを 均衡化（equilibration）と呼び、これを認知発達の原動力と位置づけたのです。学習者が既存スキーマでは説明できない事態に直面し、不均衡が生じ、その解消を求めて調節が起きる――この循環こそが発達である、というわけです。

Vygotsky：社会的相互作用としての学習

Lev Vygotsky [Vygotsky1978] は、Piaget が個人の内的プロセスに重心を置いたのに対し、学習を社会的・文化的文脈のなかに位置づけました。両者の対比を整理すると次のようになります。

観点	Piaget	Vygotsky
学習の原動力	個人の認知的不均衡と均衡化	社会的相互作用と文化的道具
発達と学習の関係	発達が学習に先行する	学習が発達を先導する（ZPD）
知識の獲得	個人による能動的構成	社会的文脈での共同構築
言語の役割	思考の表現手段	思考の道具（内化される）
教育への示唆	発達段階に適した課題提示	ZPD内での足場かけと対話

表 3-1: Piaget と Vygotsky の理論の比較

Vygotsky の最も重要な概念が 発達の最近接領域（Zone of Proximal Development, ZPD）です。学習者が一人でできること（現在の発達レベル）と、適切な支援があればできること（潜在的発達レベル）のあいだには、ある幅をもった領域があります。これが ZPD で、教育が働きかけるべき場所です。

flowchart LR
    A["既習領域<br/>支援なしでできる"]
    B["ZPD<br/>支援があればできる"]
    C["未到達領域<br/>支援があってもできない"]
    A --> B --> C
    style A fill:#d4edda,stroke:#28a745
    style B fill:#fff3cd,stroke:#ffc107
    style C fill:#f8d7da,stroke:#dc3545

図 3-1: 発達の最近接領域（ZPD）の概念図

ZPD の発想は、課題の難易度設計に直接の指針を与えてくれます。簡単すぎる課題からは学習が起こらず、難しすぎれば挫折する。Bjork のいう「望ましい困難さ」（desirable difficulty [Bjork1994]）――学習者が一人では解けないが、足場かけがあれば届く水準――こそが、深い学習を引き出します。この概念は、後の章で出てくる scaffolding や help-seeking 研究、適応的支援（第10章）にも直結します。本書の文脈では、学習者の現在の状態を診断し、ZPD 内の課題を選び、必要に応じて支援を調整する、という一連の制御問題として現れることになります。

Vygotsky のもう一つの重要な主張が内化（internalization）です。「あらゆる高次の心理機能は、二度現れる。最初は社会的活動として、人と人との間に、次に個人の内部に」――この有名な定式は、子どもが最初は親との対話を通じて問題を解決し、やがてその対話を内的対話として自分のなかに取り込んでいく過程を指しています。一人で考える能力は、もともと他者との相互作用にあったものが内側に移されたもの、というわけです。

教授理論：何を、どう教えるか

構成主義は学習者の側のメカニズムを論じますが、教育の実務には「何を教え、どんな順序で、どのように提示するか」という教授（instruction）の問題があります。本節では三つの古典的枠組みを取り上げます。

Bruner：発見学習と表現の三モード

Jerome Bruner [Bruner1960] は、学習者が能動的に知識を「発見」することの重要性を強調するとともに、印象的な主張を残しています――どんな概念も、適切な形で提示すれば、どの発達段階の子どもにも教えることができる、というのです。鍵となるのは 螺旋型カリキュラム：同じ概念を発達段階に応じてより深く、より抽象的に、繰り返し学ばせる構成です。

Bruner は知識を表現する三つのモードを区別しました。活動的表現（enactive）は行為を通じた理解で、たとえば天秤を実際に手で動かして釣り合いの感覚をつかむこと。映像的表現（iconic）は視覚イメージを通じた理解で、天秤の図や写真がこれにあたります。象徴的表現（symbolic）は言語や数式を通じた理解で、「重さ × 距離 = 一定」という梃子の原理がそれです。多くの場合、学習はこの順序で進みます――身体で触れ、絵で見て、最後に式で書く、というわけです。

Ausubel：有意味学習と先行オーガナイザー

David Ausubel [Ausubel1963] は、新しい知識を既存の認知構造に関連づけて統合する 有意味学習（meaningful learning）と、既有知識と切り離して丸暗記する 機械的学習（rote learning）を区別しました。第2章で見たように、知識はスキーマのなかに組み込まれて初めて理解・推論・想起に貢献します。機械的学習で覚えた事項は孤立した断片にとどまり、必要な場面で想起されない――後段で扱う「不活性知識」がその典型です。

有意味学習を引き出すために Ausubel が提唱したのが 先行オーガナイザー（advance organizer）――学習内容に先立って提示される、より一般的・包括的な概念――です。これは学習者の頭のなかにあらかじめ「足場」を組み、新しい情報の置き場所を用意しておく装置だと言えます。

Gagné：学習成果の分類

Robert Gagné [Gagne1985] は、「学習」と一括りに語られるものを 5 種類に分類し、それぞれに適した教授法があると論じました。

学習成果	例	教授上の示唆
言語情報	「パリはフランスの首都」「DNAは二重らせん構造」	有意味な文脈での提示、既存知識との関連づけ、組織化された構造での提示
知的技能	二次方程式を解くプログラムのデバッグ	段階的な練習、即時フィードバック、多様な問題への適用、誤りからの学習
認知的方略	学習計画の立案理解のモニタリング	メタ認知的な気づきの促進、自己調整の機会提供、振り返りの支援
態度	科学的探究への興味協働学習への積極性	ロールモデルの提示、成功体験の積み重ね、内発的動機づけの促進
運動技能	タイピング楽器演奏	反復練習、段階的な技能形成、フィードバックによる調整、自動化の促進

表 3-2: Gagné の学習成果の分類

この分類は、本書における支援対象の言語化に直接的な意義を持ちます。従来の知的学習支援システムは主に「言語情報」と「知的技能」を扱ってきました。近年では「認知的方略」――すなわちメタ認知――の支援が重要視され、対話型エージェントの発展により「態度」の形成支援にも視野が広がっています。設計の最初の問いは「いま支援したいのはどの種類の学習成果か」です。

Bloom のタキソノミー：認知目標の階層

教育目標を立てる際にもう一つ広く参照されるのが、Benjamin Bloom [Bloom1956] の認知領域タキソノミーです。Anderson と Krathwohl による 2001 年の改訂版 [Anderson2001] では、各レベルが動詞として再定式化され、最上位が「評価」から「創造」へと入れ替えられました。

記憶（Remember）：情報を思い出す
理解（Understand）：意味を把握する、説明できる
応用（Apply）：新しい状況で使う
分析（Analyze）：要素に分解し、関係を見出す
評価（Evaluate）：基準に基づいて判断する
創造（Create）：要素を組み合わせて新しいものを作る

graph TB
    A[創造 Create<br/>設計する・構築する・発明する]
    B[評価 Evaluate<br/>判断する・批評する・正当化する]
    C[分析 Analyze<br/>区別する・組織化する・関連づける]
    D[応用 Apply<br/>実行する・使う・解決する]
    E[理解 Understand<br/>説明する・解釈する・要約する]
    F[記憶 Remember<br/>認識する・再生する・想起する]

    F --> E --> D --> C --> B --> A

    style A fill:#ff6b6b
    style B fill:#ff9f43
    style C fill:#feca57
    style D fill:#48dbfb
    style E fill:#1dd1a1
    style F fill:#00d2d3

図 3-2: Bloomのタキソノミー（改訂版）

このタキソノミーが教育設計で重宝されてきたのは、目標、課題、評価を整合させる共通言語を与えてくれるからです。「微積分の公式を記憶できる」と「微積分の概念を応用して新しい問題を解ける」は、達成すべき認知活動が異なるのですから、提示の仕方も問い方も評価指標も別物でなければなりません。本書の課題設計の議論でも、目標とするレベルを明示することは出発点になります。

社会的学習：実践への参加としての学習

ここまでは、学習者個人の認知構造の変化として学習を論じてきました。しかし学習はしばしば、共同体への参加の過程として進行します。本節では、認知的徒弟制と状況的学習論という二つの代表的枠組みを取り上げます。

認知的徒弟制

Collins, Brown, Newman [Collins1989] は、伝統的な徒弟制度の原理を読み書きや問題解決といった認知的スキルに適用した 認知的徒弟制（cognitive apprenticeship）を提案しました。鍛冶屋の徒弟が親方の手元を見て真似をするように、学習者は専門家の思考プロセスを観察し、模倣し、徐々に自立していく――彼らはこれを 6 つの教授方法として整理しています。

モデリング（Modeling）：専門家が問題解決プロセスを実演し、思考を声に出して外在化する（think-aloud）。
コーチング（Coaching）：学習者が実践する際に、観察し、ヒントや足場かけを提供する。
スキャフォルディングとフェーディング（Scaffolding [Wood1976] and Fading）：学習者が自力ではできない部分を支援し、能力向上に応じて支援を徐々に減らす。
アーティキュレーション（Articulation）：学習者に自分の思考プロセスを言語化させる。
リフレクション（Reflection）：学習者が自分のプロセスを専門家や他の学習者と比較し、振り返る。
エクスプロレーション（Exploration）：学習者が自律的に問題を設定し、解決策を探索する。

本書で扱う ITS は、この認知的徒弟制を計算論的に実装した存在と捉えることができます。モデリングは解法デモ、コーチングはヒント提示、スキャフォルディング／フェーディングは適応的支援、アーティキュレーションとリフレクションは説明生成と振り返り促進、エクスプロレーションは開放的環境の提供――各機構がどの教授方法に対応するかを意識すれば、設計の視座が整います（第8章参照）。

状況的学習：正統的周辺参加

Lave & Wenger [Lave1991] の 状況的学習論（situated learning）は、学習をある特定の社会文化的文脈への参加そのものとして捉え直します。彼らが導入した中心的概念が 正統的周辺参加（Legitimate Peripheral Participation, LPP）です。新参者は最初コミュニティの周辺的な活動――道具の手入れ、簡単な作業――を担います。それは「本物ではない練習」ではなく「正統な参加」であり、低リスクで全体像を学べる位置です。やがて新参者は次第に中心的な役割を担い、最終的に一人前の実践者になる、というわけです。

ここで学習とは、単に個人の頭の中に知識を詰め込むことではなく、実践コミュニティ（Community of Practice）への参加と、それに伴うアイデンティティの変容として記述されます。プログラマになるとは「プログラミングの知識を獲得すること」というより、「プログラマとしての実践に正統的に参加し、共同体の一員として認められていく過程」だ、という見方ですね。本書の関心からしても、孤立したドリルではなく「実践への参加」をどうデザインするかは、長期的な学習動機と転移の両方に関わる重要な論点になります。

メタ認知と自己調整学習

ここまでの議論はおもに「他者がどう支援するか」を扱ってきましたが、最終的に学習を駆動するのは学習者自身の自己制御能力です。その中核がメタ認知です。

John Flavell [Flavell1979] は メタ認知（metacognition）を「認知についての認知」と定義しました。これは三つの側面に分けられます。メタ認知的知識 は、自分や他者の認知プロセス、課題の性質、効果的な方略についての知識。メタ認知的モニタリング は、自分の認知活動を監視し「自分はいま理解できているか」「正しく進んでいるか」を自己評価する働き。そして メタ認知的制御 は、その自己評価に基づいて活動を調整する働きで、理解が不十分なら読み返す、別のアプローチを試す、計画を修正する、といった行為に表れます。

このメタ認知を学習活動の循環として体系化したのが、Barry Zimmerman [Zimmerman2002] による 自己調整学習（Self-Regulated Learning, SRL）です。優れた学習者は、課題に取り組む前に目標を立て方略を計画し（予見段階）、遂行中は注意を集中して自分の進捗をモニタリングし（遂行段階）、終了後は結果を自己評価して次のサイクルへフィードバックする（自己省察段階）――この三段階のサイクルを効果的に回しています。

graph TD
    A[予見段階<br/>Forethought] --> B[遂行段階<br/>Performance]
    B --> C[自己省察段階<br/>Self-reflection]
    C --> A

    A1[目標設定<br/>方略計画<br/>自己効力感] -.-> A
    B1[注意の集中<br/>自己モニタリング<br/>方略の使用] -.-> B
    C1[自己評価<br/>原因の帰属<br/>自己反応] -.-> C

    style A fill:#e1f5ff
    style B fill:#ffe1e1
    style C fill:#e1ffe1
    style A1 fill:#f0f8ff
    style B1 fill:#fff0f0
    style C1 fill:#f0fff0

図 3-3: 自己調整学習の循環モデル

メタ認知と自己調整は、それ自体が支援すべき学習対象です。学習者が「いま自分はどこでつまずいているのか」「どの方略が効いたのか」を意識化できるよう促すこと――学習ログの可視化、振り返りプロンプト、自己説明の要求など――は、本書で扱う支援系の重要な機能領域です。

生産的失敗と認知的葛藤

学習設計の常識として、つまずきは避けるべきもの、解法は最初から正しく示すべきもの、と考えられがちです。しかし近年の研究はこの直観を逆転させています。

Manu Kapur [Kapur2008] は、生産的失敗（productive failure）の有効性を実証しました。学習者にまず十分な支援を与えずに難しい問題に取り組ませ、失敗させたうえで、後から正しい解法を教える――この順序のほうが、最初から正しい解法を教える場合よりも、深い理解と高い転移を生じさせるのです。失敗の過程で学習者は問題の深い構造を探索し、自分の既有知識の限界に気づき、複数の解法を比較する機会を得る。これらが「正解を聞いた瞬間」の理解を一段深いものにします。ただし「単なる失敗」では効果はなく、その後の適切なフィードバックと統合が不可欠です。

理論的にこれを支えるのが Piaget の均衡化理論です。既存スキーマで説明できない現象に直面したとき、学習者のなかに 認知的葛藤（cognitive conflict）が生じ、その不均衡こそがスキーマの調節を動機づける。ZPD 内に意図的な認知的葛藤を仕込み、調節のチャンスを与え、その後で支援を入れる――生産的失敗の設計はこの構造に立脚しています。

学習の転移：本当のゴール

学習の最終的な目的は、ある文脈で学んだことを別の文脈でも使えるようになること、すなわち転移（transfer of learning）です。類似した文脈への適用が 近転移（例：整数の足し算から小数の足し算へ）、異なる文脈への適用が 遠転移（例：プログラミングで学んだ問題分解の発想を日常の問題解決に応用する）と呼ばれます。

ところが多くの研究が示すのは、転移は教師が期待するほどには起こらない、という事実です [Bransford1999]。理由は三つ挙げられます。第一に 文脈依存性 ――知識はしばしば学習した文脈に強く結びつき、別の場面で活性化されない。第二に 表面的類似性への依存 ――第2章で見た初心者-専門家の対比と同様、学習者は深い構造ではなく見かけの類似性で適用を判断してしまう。第三に Whitehead が 不活性知識（inert knowledge [Whitehead1929]）と呼んだ現象――知識を「持っている」のに、適用すべき場面で想起されない、というものです。

転移を促進する条件として研究が一致して指摘するのは、次の四点です [Bransford1999]。多様な文脈での練習 により知識を特定の表面に縛りつけない、深い原理の明示化 により表面的手続きの背後にある構造に注意を向けさせる、類推の促進 により新しい問題と既知の問題の構造的類似性に気づかせる、そして 抽象化とスキーマ形成 により具体例から一般原理を抽出させる――いずれも第2章で見たスキーマ理論および専門家の知識構造の議論と整合的です。本書の関心からは、転移可能な知識をどう形式化し、転移を支える経験をどう設計するかが、長期的な評価指標となります。

まとめ

本章では学習科学の基礎理論を概観しました。

構成主義：学習者は能動的に知識を構成する。Piaget は個人内の均衡化を、Vygotsky は社会的相互作用と ZPD を強調しました。
教授理論：Bruner（発見学習・表現の三モード）、Ausubel（有意味学習・先行オーガナイザー）、Gagné（学習成果の 5 分類）。
Bloom のタキソノミー：認知目標を「記憶」から「創造」までの 6 階層で整理。目標・課題・評価を整合させる共通言語です。
社会的学習：認知的徒弟制（6 つの教授方法）と状況的学習論（正統的周辺参加と実践コミュニティ）。
メタ認知と自己調整学習：自分の認知を監視・制御する能力こそが、最終的に学習を駆動します。
生産的失敗と認知的葛藤：失敗とそれに続く統合が、深い理解と転移を生みます。
転移：転移は自動的には起こりません。多様な文脈、深い原理、類推、抽象化が必要です。

次章への橋渡し

第2章で見た認知の構造と、本章で見た学習の動態を重ね合わせると、本書全体の設計問題が次のように立ち上がってきます――学習者の現在のスキーマと知識構造（第2章）を診断し、ZPD 内の適切な課題と支援（本章）を選び、認知負荷を抑えつつ生産的な葛藤を引き起こし、メタ認知を促し、最終的に転移可能な知識へと導く――これらをすべて計算機の上に実装したい、というのが本書全体を貫く問題設定です。

しかし、この一連の制御を計算機の上で実現するには、まず「知識」というものをどう書き下すかという問題に取り組まなければなりません。次の第4章では、知識工学の歴史と知識表現の語彙――プロダクションルール、意味ネットワーク、フレーム、オントロジー――を見ていきます。本章までで「形式化されるべき対象」が見えてきたところで、第4章ではいよいよ「形式化のための道具」に手を伸ばすことになります。

さらに学ぶために

Bransford, J. D., Brown, A. L., & Cocking, R. R. (2000). How People Learn. National Academy Press.
Sawyer, R. K. (Ed.). (2006). The Cambridge Handbook of the Learning Sciences. Cambridge University Press.
Zimmerman, B. J., & Schunk, D. H. (Eds.). (2011). Handbook of Self-Regulation of Learning and Performance. Routledge.

知識とその表現 ―知識工学の基礎―

この章で扱う問い

ここで議論する「どのような形で知識を書き下すか」というテーマは、本書 6 章（中間表現）のテーマでもあります。本章はその前段として、知識工学が積み上げてきた表現形式の語彙を、まずは古典に立ち戻って整理する章です。本章の主張は、次の一文に要約できます。知識を計算機で扱うには「どんな形で書き下すか」という選択が決定的に重要であり、各表現形式は固有の得手不得手を持つ。 認知学習工学が中心に据える「認知の形式化」は、本質的には「認知を知識として表現する」作業であり、そのための語彙を提供してきたのが知識工学です。

．

知識工学の誕生：エキスパートシステムの挑戦

1970 年代、人工知能研究は新しい局面を迎えていました。それまでの汎用問題解決プログラム（Newell と Simon の General Problem Solver、GPS [Newell1972] が代表）は、ハノイの塔のような閉じた問題は解けても、医療診断や化学分析といった実世界の複雑な問題には太刀打ちできませんでした。GPS は推論手法として強力でも、解くべき領域の知識をほとんど持っていなかったからです。

この状況を変えたのが、Edward Feigenbaum を中心とするスタンフォードのグループが推進した エキスパートシステム（expert systems）の路線です。Feigenbaum [Feigenbaum1977] は「知識工学」という言葉を初めて公的に用い、専門家の知識をコンピュータに移植する方法論の必要性を訴えました。彼の標語はあまりにも有名です――「AI の力の源泉は、賢い推論手法ではなく、豊富な専門知識である」。この標語は、単に技術的な転換を意味するだけでなく、AI 研究の問題設定そのものを「いかに賢く推論するか」から「いかに知識を書き下すか」へと再定義しました。以下に見る MYCIN と DENDRAL は、その新しい問題設定への、最初の説得力ある応答です。

MYCIN：医療診断の先駆者

1970 年代半ば、Bruce Buchanan と Edward Shortliffe らがスタンフォード大学医学部で開発した MYCIN [Buchanan1984] は、エキスパートシステムの古典的な成功例です。MYCIN が対象としたのは血液感染症の診断と抗生物質の推奨で、ベテランの感染症専門医の知識を IF-THEN 形式の プロダクションルール [Newell1972] として書き下しました。最終的にルール数は約 600 に達し、確信度（certainty factor）と呼ばれる数値で各推論の不確実性を扱いました。

MYCIN のルールは具体的にはこのような形をしていました。

IF 患者の感染部位が血液であり AND グラム染色の結果が陰性であり AND 形態が桿菌である THEN 病原体は E. coli である（確信度 0.8）

医師がデータを入力していくと、MYCIN は適合するルールを連鎖的に発火させ、最終的に病原体候補と推奨抗生物質のリストを返します。決定的に重要だったのは、MYCIN が 「なぜそう推論したのか」を説明できる ことでした。医師が「なぜ E. coli と判断したのか」と尋ねれば、MYCIN は適用したルール群を逆向きにたどって示します。Yu らが 1979 年に JAMA で報告した評価実験では、MYCIN の診断精度がスタンフォードの感染症専門医パネルと統計的に有意な差がない範囲にあり、非専門医より明確に優れていることが示されました。法的責任や運用上の問題から MYCIN 自身は実臨床には至りませんでしたが、知識ベースシステムが現実的な専門家性能に到達しうることを実証し、知識工学という分野の基礎を築いたといえます。

DENDRAL：科学的発見の自動化

同じくスタンフォードで Buchanan、Feigenbaum、Lederberg らが開発した DENDRAL [Lindsay1980] は、別種の挑戦でした。質量分析装置から得られるスペクトルデータをもとに、未知の有機化合物の分子構造を推定する。DENDRAL の興味深さは、単に既知の知識を適用するだけでなく、可能な構造仮説を体系的に生成し、それを質量分析の予測パターンと照合して絞り込むという、仮説生成 を含む推論を行った点にあります。Lederberg はこれを「科学的発見の自動化」と呼びました。エキスパートシステムが知識の再利用だけでなく、創造的な問題解決にも貢献できることを示した最初の実例です。

MYCIN と DENDRAL は、知識を IF-THEN ルールという特定の形式に書き下すという同じアプローチを採りましたが、そのアプローチの限界もすぐに浮き彫りになります。ルールは独立した単位として扱いやすい反面、ルール間の整合性、概念の階層性、典型的な状況の構造――これらをルールだけで表現するのは無理がありました。次節では、こうした限界を補うために生まれた多様な知識表現形式を見ていきます。

知識をどう表現するか

エキスパートシステムの発展とともに、様々な 知識表現（knowledge representation）の手法が開発されました。それぞれの手法は、異なる種類の知識を表現するのに適しています。本節では、ルール、意味ネットワーク、フレームの三系統を、それぞれ動く小さな例とともに見ていきます。

プロダクションルール：条件付き知識

プロダクションルールは IF（条件）-THEN（結論）という形式で知識を表現します。MYCIN の例で見たように、各ルールは独立した単位として追加・修正・削除でき、適用過程を逆向きにたどって説明することも容易です。診断や分類のように「条件が揃えばこの結論」という性質の知識には極めて自然にフィットします。

プログラミング学習者のバグ診断を考えてみてください。学習者が書いた for (i = 0; i <= n; i++) というループが配列の末尾を 1 つ超えて参照してエラーを起こした、という状況を診断するルールは次のように書けます。

Rule_OffByOne_1:
IF ループ終了条件が `i <= n` であり
   AND ループ内で配列 `arr[i]` を参照しており
   AND `n` が `arr.length` または `arr.length - 1` を表す変数である
THEN 診断 = off-by-one error（境界条件の誤り）
   AND 修正案 = 終了条件を `i < n` に変更
   AND 確信度 = 0.85

Rule_OffByOne_2:
IF ループ終了条件が `i < n` であり
   AND ループ内で配列 `arr[i]` を参照しておらず
   AND `arr[i-1]` のような添字操作をしている
THEN 診断 = off-by-one error の可能性
   AND 確信度 = 0.6

このような診断ルール集合は、学習者の出した複数のバグを一貫した「典型的誤りカタログ」として扱えるようにします。第5章で扱う BUGGY 流の体系的バグの考え方とも自然に接続します。プロダクションルールの強みはこの明快さと説明可能性にあります。ただし、ルール数が数千を超えると相互作用や矛盾の管理が極端に困難になり、また「典型的なホテルの部屋とはどんなものか」のような構造化された知識は、こうした条件 → 結論の形には収まりにくいのです。

graph TD
    subgraph "プロダクションルール例"
        R1["Rule 1:<br/>IF プログラムが無限ループする<br/>AND ループ条件が常にtrue<br/>THEN バグ: ループ終了条件の誤り"]
        R2["Rule 2:<br/>IF 配列アクセスエラーが発生<br/>AND ループ変数が配列サイズを超える<br/>THEN バグ: off-by-one エラー"]
        R3["Rule 3:<br/>IF 期待した出力が得られない<br/>AND 変数が初期化されていない<br/>THEN バグ: 変数の初期化漏れ"]
    end

    style R1 fill:#ffe1e1
    style R2 fill:#e1f5ff
    style R3 fill:#e1ffe1

図 4-1: プロダクションルールの例：プログラミングバグ診断

意味ネットワーク：概念の関係構造

ルールが「条件→結論」の知識を扱うのに対し、概念どうしの関係そのものを扱うのが 意味ネットワーク（semantic network）[Collins1969] です。Collins と Quillian が 1969 年に提案したこの形式は、概念をノード、概念間の関係をリンクとして表します。人間の長期記憶における概念組織の心理学的モデルとしても、また計算機上の知識表現としても、長く用いられてきました。

最も有名な例は生物の階層です。テキストで書き下すと次のようになります。

動物 ──is-a─→ 生き物
鳥 ──is-a─→ 動物
カナリア ──is-a─→ 鳥

動物 ──has─→ 移動能力
鳥 ──has─→ 翼、飛行能力
カナリア ──has─→ 黄色い羽

この表現の妙味は継承（inheritance）にあります。「カナリアは飛ぶか」と問われたとき、システムはカナリアのノードを直接調べ、なければ親ノード（鳥）に登り、そこに「飛行能力」を見つければ「飛ぶ」と答える――というふうに動きます。一段一段の検索時間が伸びるはずだという Collins と Quillian の予測は、人間の意味検索実験でも一定程度確認され、認知モデルとしての説得力も得ました。

しかし継承は素朴に運用すると破綻します。「ペンギンは鳥である」が「ペンギンは飛ばない」――この例外をどう扱うかが、意味ネットワークの古典的難問です。ペンギンノードに「飛ばない」属性を直接書き込んで上書きするしかないのですが、上書きの優先順位を厳密に定義しようとすると、表現の「直感的さ」という長所自体が失われていきます。意味ネットワークが概念の階層的な可視化には今も有用である一方、形式的な推論基盤としては後の OWL のようなより厳密な枠組みに置き換えられていった理由は、ここにあります。

graph TD
    カナリア -->|is-a| 鳥
    ペンギン -->|is-a| 鳥
    鳥 -->|is-a| 動物
    動物 -->|is-a| 生き物

    鳥 -.->|has-property| 飛ぶ
    カナリア -.->|has-property| 黄色い
    ペンギン -.->|has-property| 飛ばない_例外

    動物 -.->|has-property| 動く
    生き物 -.->|has-property| 代謝する

    style 生き物 fill:#ff9
    style 動物 fill:#f9f
    style 鳥 fill:#9ff
    style カナリア fill:#9f9
    style ペンギン fill:#f99

図 4-2: 意味ネットワークの例：生物の階層

フレーム：構造化された知識単位

ルールが断片的、意味ネットワークがリンクの集合とすれば、Marvin Minsky が 1975 年に提案した フレーム（frame）[Minsky1975] は、ある概念や状況についての 典型的な知識を一つのまとまり として構造化するアプローチです。フレームは複数のスロット（属性）と、各スロットが取りうる値の型・デフォルト値・制約を持ちます。「ホテルの部屋」フレームは典型的に次のような形をしています。

スロット	値の型	デフォルト値
部屋番号	整数	なし
ベッド数	1 or 2	1
浴室	ブール値	あり
価格	金額	10,000円
眺望	{海, 山, 街}	街

表 4-1: フレームの例：ホテルの部屋

フレームの強みは、「ホテルの部屋」と聞いた瞬間に人間が想起する典型的な期待――ベッドが普通は 1 つ、浴室があるのが通常――を、デフォルト値という形でそのまま表現できる点にあります。新しい部屋情報が入ってくると、明示されていないスロットは自動的にデフォルトで埋められ、想定と異なる情報があれば例外として目立つようになります。この「典型からのズレに敏感」という性質は、第2章で見たスキーマ理論の発想と非常に近いものです。Minsky 自身もフレームを認知の単位として位置づけていました。

フレームはオブジェクト指向プログラミングのクラスと概念的に近いものです。実際、Smalltalk や CLOS のクラス階層は、AI 研究におけるフレームの考え方から強い影響を受けています。フレームは典型的状況の表現には強いのですが、動的に変化する手続き的知識や、ルールのような条件付き推論を直接表現するのには向きません。

異なる表現手法の比較

ここまでに見た三つの形式と、次節で扱うオントロジーは、それぞれ異なる種類の知識に適しています。表 4-2 は要点を整理したものです。

手法	適した知識	主な利点	主な欠点
ルール	条件付き推論、診断・分類	明快で理解しやすい、説明可能性が高い、モジュール性	大規模化すると管理困難、ルール間の依存関係が不明瞭、例外処理が難しい
意味NW	概念間の関係、階層構造	直感的な表現、継承による推論、視覚化が容易	例外の扱いが困難、関係の意味が曖昧、複雑な推論には不向き
フレーム	典型的な状況、構造化された対象	構造化された表現、デフォルト値、継承メカニズム	動的な知識の表現が難しい、手続き的知識には不向き
オントロジー	ドメインの概念体系、共有可能な知識	形式的で厳密、共有・再利用可能、自動推論可能	構築コストが高い、柔軟性に欠ける、専門知識が必要

表 4-2: 知識表現手法の特徴比較

実際のシステム開発では、これらの手法を組み合わせて使うことが多いものです。たとえばオントロジーでドメインの概念構造を定義し、プロダクションルールで診断推論を実装し、フレームで典型的な問題状況を表現する、という重ね合わせが典型的です。下図はこれら手法の関係を視覚的に整理したものです。

graph LR
    subgraph "表現手法の比較"
        A[プロダクションルール]
        B[意味ネットワーク]
        C[フレーム]
    end

    A -->|長所| A1[明快な条件-結論<br/>説明可能性高い<br/>モジュール性]
    A -->|短所| A2[大規模化で管理困難<br/>関係性の表現が苦手]

    B -->|長所| B1[概念間の関係明示<br/>継承メカニズム<br/>視覚的理解]
    B -->|短所| B2[例外処理が困難<br/>推論効率が悪い]

    C -->|長所| C1[構造化された知識<br/>デフォルト値<br/>オブジェクト指向的]
    C -->|短所| C2[柔軟性に欠ける<br/>複雑な推論が困難]

    style A fill:#ffe1e1
    style B fill:#e1f5ff
    style C fill:#e1ffe1
    style A1 fill:#fff0f0
    style A2 fill:#ffe8e8
    style B1 fill:#f0f8ff
    style B2 fill:#e8f4ff
    style C1 fill:#f0fff0
    style C2 fill:#e8ffe8

図 4-3: 知識表現手法の視覚的比較

これら三系統の表現形式が確立した後、1990 年代に新しい段階が来ます。それが、概念体系そのものを共有可能な資産として扱う オントロジー の発想です。三本の道具の上に、もう一つ別の階を重ねるイメージで読んでみてください。

オントロジー：知識の体系的構造化

オントロジーとは何か

Thomas Gruber [Gruber1993] は、オントロジーを 「概念化の明示的な仕様」（explicit specification of a conceptualization）と定義しました。やや抽象的に響きますが、噛み砕けば、ある領域における概念・性質・関係を、誰が読んでも同じ意味に解釈できる形で書き下したもの、ということです。

オントロジーが単なる知識ベースと異なる点は三つあります。第一に、オントロジーは個別の事実（「太郎の身長は 170cm」）ではなく、領域の構造（「人間は生物の一種であり、身長という属性を持つ」）を扱います。第二に、オントロジーは複数のシステムや人間の間で共有され、共通の理解基盤を提供します。第三に、オントロジーは機械可読な形式（OWL など）で記述され、推論エンジンによる自動推論が可能です。

たとえば学習支援の領域で、「for 文」概念のオントロジーを OWL の Turtle 記法で書き下すと次のような形になります。

@prefix : <http://example.org/programming#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .

:ControlStructure rdf:type owl:Class .
:Loop rdfs:subClassOf :ControlStructure .
:ForLoop rdfs:subClassOf :Loop ;
         :hasPrerequisite :Variable, :Iteration ;
         :hasComponent :Initialization, :Condition, :Update, :Body .
:WhileLoop rdfs:subClassOf :Loop ;
           :contrastsWith :ForLoop .

:Variable rdf:type owl:Class .
:Iteration rdf:type owl:Class .

この記述から推論エンジンは、たとえば「ForLoop を学ぶには Variable と Iteration の理解が必要」「ForLoop と WhileLoop は対比的に説明できる」といったメタ知識を自動で導けます。手書きで書けばわずか数行のこの定義が、教師・学習者・システム間で共有される共通語彙となる――これがオントロジーの最大の意義です。

オントロジーの構成要素

オントロジーは典型的に、以下の要素から構成されます（下図参照）。

クラス（Classes）：概念のカテゴリ。例：「人間」「動物」「学習活動」
個体（Individuals）：クラスの具体的インスタンス。例：「太郎」「ポチ」
属性（Properties）：クラスや個体が持つ特性。例：「年齢」「体重」「難易度」
関係（Relations）：概念間の意味的関係。例：「is-a」（〜は〜の一種）、「part-of」（〜は〜の部分）、「prerequisite-of」（〜は〜の前提）
公理（Axioms）：概念に関する論理的制約や規則。例：「人間の年齢は 0 以上の整数」

graph TB
    O[オントロジー] --> C[クラス]
    O --> I[個体]
    O --> P[属性]
    O --> R[関係]
    O --> A[公理]

    C --> C1[人間<br/>動物<br/>学習活動]
    I --> I1[太郎<br/>花子<br/>課題A]
    P --> P1[年齢<br/>体重<br/>難易度]
    R --> R1[is-a<br/>part-of<br/>prerequisite-of]
    A --> A1["年齢≥0<br/>体重>0<br/>難易度: 低/中/高"]

    style O fill:#ff9,stroke:#333,stroke-width:3px
    style C fill:#ffe1e1
    style I fill:#e1f5ff
    style P fill:#e1ffe1
    style R fill:#fff4e1
    style A fill:#f0e1ff

図 4-4: オントロジーの構成要素

これらの要素を組み合わせることで、ある領域の知識を「概念とそのつながり」として網羅的に書き下せます。

オントロジーの階層

Guarino [Guarino2009] は、オントロジーを抽象度に応じて四層に整理しています（下図参照）。最も抽象的な層から具体的な層へと並べると、次のようになります。

最上層の トップレベルオントロジー（Top-level ontology）は、時間・空間・物質・イベント・性質など、あらゆる領域に共通する最も基本的な概念を定義します。CYC [Lenat1995] や SUMO [Niles2001] が代表例で、何十年もかけて常識的概念を網羅しようとする巨大プロジェクトです。

その下に ドメインオントロジー（Domain ontology）が位置します。医療、生物学、教育といった特定の領域に特化した概念を定義するもので、学習支援の文脈では、数学・物理・プログラミングなどの教科領域ごとにドメインオントロジーを構築することになります。先ほどの ForLoop の定義は、プログラミングのドメインオントロジーの一断片です。

さらに タスクオントロジー（Task ontology）が、診断・設計・教授といった特定のタスクに関連する概念を定義します。学習支援に引きつければ、「問題解決」「概念理解」「スキル習得」といったタスクのオントロジーが重要になります。

最も具体的な アプリケーションオントロジー（Application ontology）は、特定のアプリケーションのために、ドメインオントロジーとタスクオントロジーを統合・特殊化したものです。「中学2年生向け連立方程式 ITS」のためのオントロジーは、数学のドメインと「問題解決指導」のタスクを組み合わせて構成されます。

graph TD
    A[トップレベル<br/>オントロジー] --> B[ドメイン<br/>オントロジー]
    A --> C[タスク<br/>オントロジー]
    B --> D[アプリケーション<br/>オントロジー]
    C --> D

    A1[時間・空間・物質<br/>イベント・性質] -.-> A
    B1[医療・生物学<br/>教育・工学] -.-> B
    C1[診断・設計<br/>教授・学習] -.-> C
    D1[数学ITS<br/>プログラミング学習<br/>医療診断システム] -.-> D

    style A fill:#ff9,stroke:#333,stroke-width:2px
    style B fill:#f9f,stroke:#333,stroke-width:2px
    style C fill:#9ff,stroke:#333,stroke-width:2px
    style D fill:#9f9,stroke:#333,stroke-width:2px

図 4-5: オントロジーの階層

この階層構造によって、上位層を共有しつつ下位層を独自に拡張するという、ソフトウェア工学のレイヤ設計と類似した知識の組み立て方が可能になります。

オントロジー工学の方法論

オントロジーを構築するプロセスは、ソフトウェア工学に類似しています。Studer ら [Studer1998] はオントロジー工学の方法論を体系化し、典型的な工程を以下のように整理しました。最初に 目的の明確化 を行います。何のためのオントロジーか、誰が使うのか、どの範囲をカバーするのかを明確にする。これが曖昧なまま進めると、後で「網羅的に作ったが誰にも使われない」という事態を招きます。次に 概念の同定 として、領域の重要な概念を専門家へのインタビュー、文献調査、既存オントロジーの参照を通じて列挙します。続いて 階層化 で概念間の is-a 関係を定義し、属性と関係の定義 で各概念が持つ属性と概念間の関係を明示する。さらに 制約の記述 として公理や制約条件を論理式で書き下し、最後に 評価と改善 を、専門家レビュー・実データでの検証・継続的改良として繰り返します。

このプロセスは MYCIN のルール書き下しに比べて遥かにコストが高いものですが、得られる成果はそれだけ再利用可能性が高いものになります。本書が随所で言及するエコシステム形成も、こうした共有可能なオントロジー資産の積み重ねに依存します。先に概念の見取り図を粗描きしてから道具に手を伸ばす、という順序を意識しておくと、結局は早く動くオントロジーに辿り着くと言われています。

中間表現としての知識構造

ここまで見てきた知識表現の語彙は、認知学習工学の文脈ではどう使われるのでしょうか。本節ではその接続を、ドメイン知識・認知プロセス・粒度・標準化の四つの観点から見ていきます。第6章で扱う「中間表現」の議論への助走、と思って読んでみてください。

ドメイン知識の形式化

学習支援システムが効果的であるためには、まず教える内容――ドメイン知識――を形式的に表現する必要があります。プログラミング教育における「ループ」概念は、先に示した ForLoop のオントロジー定義のように形式化されます。下図はこれをより視覚的に表現したものです。

graph LR
    Loop[ループ概念] --> For[for文]
    Loop --> While[while文]
    Loop --> DoWhile[do-while文]

    For --> Init[初期化]
    For --> Cond[条件式]
    For --> Update[更新式]
    For --> Body[ループ本体]

    For -.->|前提概念| Var[変数]
    For -.->|前提概念| Iter[イテレーション]
    For -.->|前提概念| CondExpr[条件式]

    For -.->|典型的誤り| Err1[off-by-one]
    For -.->|典型的誤り| Err2[無限ループ]
    For -.->|典型的誤り| Err3[初期化忘れ]

    style Loop fill:#ff9,stroke:#333,stroke-width:3px
    style For fill:#ffe1e1
    style While fill:#e1f5ff
    style DoWhile fill:#e1ffe1

図 4-6: プログラミング概念「ループ」のオントロジー例

このような形式化があると、「学習者が for 文を理解するには Variable・Iteration・Condition の理解が前提である」という依存関係が明示され、学習者がどの前提でつまずいているかを診断できます。for と while の構造的な共通点と相違点も :Loop の下位クラスとして自然に表現できますし、off-by-one のような典型的誤りもオントロジーに紐付けて体系的にカタログ化できます。要するに、ドメインオントロジーは個別の問題群を貫く「教えるべき構造」の地図になるわけです。

認知プロセスの形式化

ドメイン知識だけでは半分にすぎません。学習者がそのドメインで実際に何をするのか――問題を読み、計画を立て、実行し、検証するという 認知プロセス そのものも形式化する必要があります。「問題解決」プロセスは、たとえば次のような階層的フレームとして書き下せます。

graph TD
    Start[問題に直面] --> Understand[問題理解]
    Understand --> Plan[解決計画]
    Plan --> Execute[実行]
    Execute --> Evaluate[評価]
    Evaluate --> |成功| End[完了]
    Evaluate --> |失敗| Diagnose[診断]
    Diagnose --> Plan

    Understand -.->|つまずき| U1[問題文の誤読<br/>前提知識の欠如]
    Plan -.->|つまずき| P1[方略選択の誤り<br/>サブゴール設定の失敗]
    Execute -.->|つまずき| E1[手続き的誤り<br/>計算ミス]
    Evaluate -.->|つまずき| EV1[評価基準の不明確さ<br/>部分解の見落とし]

    style Start fill:#e1f5ff
    style End fill:#e1ffe1
    style Understand fill:#fff4e1
    style Plan fill:#f0e1ff
    style Execute fill:#ffe1f5
    style Evaluate fill:#ffe1e1
    style Diagnose fill:#f0f0f0

図 4-7: 問題解決プロセスの形式化

このような形式化があると、学習者がプロセスのどこでつまずいているか――問題理解か、計画立案か、実行か、検証か――を区別して診断し、それに応じた支援を提供できます。次の第5章で扱う認知タスク分析は、まさにこの形式化に必要な観察データを得るための方法論です。

知識の粒度と階層化

知識を形式化する際、粒度（granularity）の選択が決定的です。粗すぎる粒度――たとえば「プログラミングができる」――では診断も支援も粗くなります。逆に細かすぎる粒度――「変数名の最初の文字を小文字にできる」――では管理が煩雑になり、知識ベースの保守自体が破綻してしまいます。

適切な粒度は目的と文脈に依存します。初学者向けシステムでは粗い粒度（「ループの基本概念」）、上級者向けシステムでは細かい粒度（「ジェネレータと反復子の違い」）が適することが多いものです。重要なのは、異なる粒度のレベルを 階層的に構造化し、必要に応じて詳細化・抽象化 できるようにすることです（下図）。オントロジーの is-a 階層と part-of 関係は、まさにこの可変粒度を支える基盤になります。

graph TD
    L1[粗い粒度:<br/>プログラミング能力] --> L2[中程度:<br/>制御構造の理解]
    L2 --> L3[細かい:<br/>for文の理解]
    L3 --> L4[非常に細かい:<br/>for文の初期化部の理解]

    L1 -.->|適用| U1[コース全体の評価]
    L2 -.->|適用| U2[章レベルの診断]
    L3 -.->|適用| U3[概念レベルの支援]
    L4 -.->|適用| U4[詳細なエラー診断]

    style L1 fill:#ff9
    style L2 fill:#f9f
    style L3 fill:#9ff
    style L4 fill:#9f9

図 4-8: 知識の粒度と階層化

標準化と相互運用性

知識表現を一つの研究室の中だけで使うのでなく、研究コミュニティ全体の資産として育てるには、標準化 が不可欠です。異なる研究グループや開発チームが構築したオントロジーやドメインモデルを相互に利用できれば、知見の蓄積と再利用が一気に加速します。

W3C が策定した OWL（Web Ontology Language）[McGuinness2004] は、オントロジー記述の事実上の国際標準です。教育分野では IEEE LOM や IMS Learning Design といった学習リソース記述標準も存在します。本書全体としては、こうした既存標準を活用しつつ、認知構造の形式化に特化した語彙をどう揃えていくかを主要な問題として掲げています。第6章で扱う「中間表現」の議論は、この標準化問題に正面から取り組みます。

まとめ

本章は「知識を計算機で扱うには表現形式の選択が決定的であり、各形式は固有の得手不得手を持つ」という主張を貫いてきました。MYCIN と DENDRAL が示したのは、専門知識を IF-THEN ルールとして書き下せばエキスパート性能に到達しうるという可能性です。プロダクションルール・意味ネットワーク・フレームという三系統の表現形式は、それぞれ条件付き推論・概念関係・典型的状況に強みを持ち、互いに補完し合います。1990 年代以降のオントロジー工学は、これら個別形式を統合する共有可能な概念体系の構築方法論として発展してきました。

これらの語彙は、認知学習工学の文脈ではドメイン知識と認知プロセスの双方を形式化し、学習者の状態を診断し、適切な支援を選択するための基盤になります。

次章への橋渡し

ここまでで、知識を「どう書き下すか」の語彙は揃いました。しかし、実際に書き下すべき認知プロセスそのものは、外から直接見えるものではありません。学習者が何を考え、どこでつまずき、どんな誤解を抱えているか――これらをまず観察可能な対象に変える方法論がなければ、形式化のしようがないのです。

次章からは、こうした知識表現の語彙を実際に使って、認知プロセスをどう分析し、どう形式化し、どう学習環境として実装するかという方法論に踏み込みます。まず第5章では、形式化以前の段階として、認知プロセスをそもそもどう観察するか――認知タスク分析、プロトコル分析、エラー分析――を扱いましょう。

さらに学ぶために

Studer, R., Benjamins, V. R., & Fensel, D. (1998). Knowledge engineering: Principles and methods. Data & Knowledge Engineering, 25(1-2), 161-197.
Guarino, N., Oberle, D., & Staab, S. (2009). What is an ontology? In S. Staab & R. Studer (Eds.), Handbook on Ontologies (pp. 1-17). Springer.
Noy, N. F., & McGuinness, D. L. (2001). Ontology Development 101: A Guide to Creating Your First Ontology. Stanford Knowledge Systems Laboratory.（オンラインで入手可能）

認知プロセスの分析

この章で扱う問い

本章の主張は単純です。認知は外から見えないが、特定の方法を使えば表面化させて分析できる――これだけです。前章で、知識を計算機が扱える形に表現する技法を見ました。しかし、表現すべき認知プロセス――学習者が何を考え、どこでつまずき、どんな誤解を抱えているか――そのものがまず可視化されていなければ、形式化のしようがありません。

この章は、ITS や AIED の開発に取り組もうとしているあなたにとって、もっとも実践的な手応えがある章かもしれません。学習者の頭の中をどう「のぞくか」、その方法論的な選択肢を整理する場所だからです。一方、認知科学・教育心理学の側からこの分野を眺めているあなたにとっては、認知タスク分析・プロトコル分析・エラー分析という、よく知られた三系統が、学習支援システムの設計の文脈でどう統合されるかを見る章になります。

本章を通じて参照するのは、中学生が連立方程式を解く という素朴な題材です。

${2 x + 3 y = 12 x - y = 1$

教師にとっては自明な問題ですが、学習者の頭の中では加減法・代入法・移項・符号反転といった複数のサブスキルが並列に走り、しばしば失敗します。同じ題材を三通りの方法で分析することで、各手法が認知のどの側面を取り出せるか、そして互いにどう補い合うかが見えてきます。最後にそれらを「つまずきの構造」として束ね直し、次章の形式化に橋を渡しましょう。

認知タスク分析：熟達者の暗黙知をすくう

認知タスク分析（Cognitive Task Analysis, CTA）[Schraagen2000] は、専門家や学習者がタスクを実行する際の認知プロセスを体系的に分析する手法です。伝統的なタスク分析が「次に何をクリックするか」のような観察可能な行動に焦点を当てるのに対し、CTA は内的な認知プロセス――どんな知識を呼び出し、どう意思決定し、どんな戦略を採るか――を明らかにすることを目指します。

CTA がなぜ必要かは、教師に問うてみればすぐ分かります。中学校の数学教師に「生徒が連立方程式を解くとき、頭の中で何をしていますか」と尋ねても、たいていは「えっと……まず一つの式を変形して、もう一方に代入して……」という、教科書の手順をなぞった答えしか返ってきません。熟達者は自分のスキルを長年使いこむうちに自動化（automatization）してしまっていて、自分が何をしているかを言語化できないのです。Anderson が expertise paradox と呼んだこの現象 [Anderson1993] を回避するために、CTA は熟達者本人の自己報告に頼らず、間接的な手がかりから認知プロセスを再構成します。

GOMS モデル：熟達者のスキルを階層的に書き下す

最も古典的な CTA の枠組みは、Card・Moran・Newell の GOMS モデル [Card1983] です。これは、熟達者の課題遂行を Goals（目標）、Operators（基本動作）、Methods（オペレータの系列としての手順）、Selection rules（複数の手順がある場合の選択規則）の四要素に分解します。1980 年代に文書編集ソフトの操作時間を予測するために考案されたものですが、その後さまざまな認知スキルの分析に用いられています。

連立方程式の例に当てはめてみてください。最上位の目標は「 $x, y$ の値を求める」です。これを達成する手順としては「加減法で一文字消去」と「代入法で一文字消去」の二つ。Selection rule は、たとえば「係数が容易に揃うなら加減法、片方が $x = \dots$ や $y = \dots$ の形に近いなら代入法」と書けます。さらに加減法は「両式の係数を見比べる」「両辺を定数倍して係数を揃える」「両式を加減して一文字を消去する」「残った一文字の式を解く」「もとの式に代入してもう一文字を求める」というオペレータ列に展開されます。各オペレータは経験的な実行時間（数秒のオーダー）が割り当てられ、合計から課題全体の所要時間が予測できる、という流れです。

GOMS の強みは熟達者のパフォーマンスを定量予測できる点にありますが、弱みも明確です。GOMS が描くのは「正しく実行できた場合」の経路であって、初学者が陥る誤った Method 選択や、係数を揃え損ねる類のエラーは記述しません。学習プロセスや躓きを扱うには、後述するエラー分析と組み合わせる必要があります。

階層的タスク分析：粒度を下げてサブタスクを掘る

GOMS が時間予測に重きを置くのに対し、Annett と Duncan の 階層的タスク分析（Hierarchical Task Analysis, HTA）[Annett1967] は、タスクをどこまで細かく分解すべきかという問いに答える方法論です。ある粒度のサブタスクが「熟達した学習者であれば訓練なしに実行できる」段階に達したら、そこで分解を停止する。停止しなければ、サブタスクをさらに細かい目標と手順に分解する――これだけのシンプルな再帰です。第4章で見た「知識の粒度」の議論が、ここで実践的な手続きとして現れていると見ることもできます。

連立方程式の HTA は次のように展開できます。トップは「連立方程式を解く」。第一段階のサブタスクは「(a) 解法を選ぶ」「(b) 一文字を消去する」「(c) 残った方程式を解く」「(d) もう一文字を求める」「(e) 検算する」。このうち (a) は熟達者にとっては自動的ですが、初学者には難しいので「(a-1) 各式の係数を読む」「(a-2) 揃えやすい係数を見つける」「(a-3) 加減法か代入法かを決める」とさらに分解します。逆に (c) の「一次方程式を解く」は中学 2 年生段階で訓練済みと仮定できるなら、それ以上分解しません。

HTA の意義は、学習者がどの粒度でつまずいているかを特定できる ことにあります。たとえば学習者が (b) の段階で失敗するのか、それ以前の (a) の解法選択そのものに失敗しているのかが区別できると、与えるべき支援はまったく違ってきます。前者なら係数操作の練習を、後者なら問題のパターン認識の練習を提供すべきだからです。CTA はこのように、同じ「分からない」を構造的に分解するための語彙を提供してくれます。

プロトコル分析：解いている最中の頭の中をのぞく

CTA が「熟達者ならどう解くか」の合理的再構成だとすれば、プロトコル分析（protocol analysis）[Ericsson1993] は「実際の学習者がいま何を考えているか」を時系列で捉える手法です。Ericsson と Simon が 1980 年代に方法論として確立し、認知科学における内省データの最も信頼できる扱い方として今日まで使われています。

Think-aloud プロトコル：考えていることを声に出してもらう

中核手法は think-aloud protocol（思考発話法）です。手順は単純で、学習者に「問題を解きながら、いま頭に浮かんでいることをそのまま声に出してください。理由を説明したり、整理したりせず、ただ独り言のように喋ってください」と指示します。すべてを録音し、後から書き起こして分析します。Ericsson と Simon が強調したのは、「説明してください」と頼んではいけないという一点。説明を求めると被験者は事後合理化を始めてしまい、実際の認知プロセスではなく「もっともらしい物語」が出てきてしまうのです。「いま考えていること」だけを口に出してもらうのが鉄則です。

連立方程式を解く中学 2 年生の発話を、仮想的に再構成してみます。

「えーっと、二つ式があって……上は $2 x + 3 y = 12$ 、下は $x - y = 1$ 。下の式の方が簡単そう。 $x = y + 1$ にして……上に入れる。 $2 (y + 1) + 3 y = 12$ で、えっと、 $2 y + 2 + 3 y = 12$ 、 $5 y + 2 = 12$ 、 $5 y = 10$ 、 $y = 2$ 。じゃあ $x = 2 + 1 = 3$ 。あれ、検算…… $2 \times 3 + 3 \times 2 = 6 + 6 = 12$ 、合ってる。下も $3 - 2 = 1$ 、合ってる。」

このプロトコルから読み取れることは多くあります。学習者は (1) 二式を見比べて代入法を選択している（解法選択ができている）、(2) $x = y + 1$ への変形を一発で行っている（移項のスキルが自動化されている）、(3) 「 $2 y + 2 + 3 y$ 」と中間項を声に出している（分配法則を意識的に適用している）、(4) 最後に検算を自発的に行っている（メタ認知的習慣がある）。同じ正解にたどり着く別の学習者でも、加減法を選び、検算を省略し、代入で符号を間違えて修正に回る、といったまったく違うプロトコルになりえます。正解を見ているだけでは分からないこの差 こそが、プロトコル分析の獲物です。

think-aloud は強力ですが、コストが高い。一人の学習者の 30 分のセッションを書き起こし、コーディング体系（「解法選択」「変形」「検算」などのカテゴリラベル）を当てて分析するには、平均して数時間を要します。そのため近年は、書き起こしの一部を機械学習で自動コーディングする試みや、後述する行動ログ分析と組み合わせて think-aloud のサンプルを少数に絞る運用が一般的です。

行動ログ分析：操作の痕跡から認知を逆推定する

オンライン学習環境では、学習者のあらゆる操作――クリック、入力、ページ遷移、消去、ヒント要求、提出までの所要時間――が自動的に記録されます。この 行動ログ（log data）の分析は、think-aloud のような直接的な内省データほど豊かではないものの、何百・何千という規模の学習者を一斉に観察できるという、まったく別種の力を持っています。

連立方程式を出題する Web アプリを想像してみてください。学習者 A は問題を表示してから 30 秒以内に正解を打ち込み、次に進む。学習者 B は 3 分かけて中間ステップを何度も書き直し、最後に正解を打ち込む。学習者 C は 1 分後に「ヒントを見る」を押し、ヒント表示後さらに 2 分かけて正解を打ち込む。学習者 D は 5 分間入力欄を埋めずに眺め、結局空欄のまま提出する。プロトコルがなくとも、これら四つの軌跡は明らかに異なる認知状態を示唆しています。A は熟達者かおそらく丸暗記、B は手探りで自力解決、C は前提知識の一部を欠いている、D はどこから手をつけてよいかすら分からない、といった具合です。

行動ログだけから認知プロセスを完全に再構成することはできませんが、think-aloud で得た仮説を多数の学習者に対して検証する手段としては不可欠です。実際 Cognitive Tutor や近年の知識追跡システムは、まさにこの行動ログを大量に蓄積し、後述する誤りのカテゴリと突き合わせることで、リアルタイムに学習者モデルを更新しています。プロトコルとログは、深さと広さで補完し合う関係にあるわけです。

エラー分析：誤りに潜む規則性を読む

CTA が熟達のかたちを、プロトコル分析がいまの思考を取り出すのに対し、エラー分析（error analysis）はもう一歩踏み込んで、誤答を「何が壊れているかを示す診断データ」として読む ものです。教師にとって誤りは「もっと注意して」で済まされがちですが、認知科学にとって誤りは、学習者の頭の中で動いている（誤った）ルールが表面化した貴重な証拠なのです。

体系的バグ：誤りには規則がある

この発想を強烈な形で示したのが、Brown と Burton の BUGGY [Brown1978] です。第1章でも触れましたが、彼らは小学生の繰り下がりつき引き算の誤答を分析し、誤答が「ケアレスミス」ではなく、学習者が一貫して適用している誤った手続き ――彼らはこれを「バグ」と呼びました――に由来することを示しました。たとえば、83 - 27 を 64 と答える学習者は、繰り下がりを忘れているのではなく、「各桁で大きい数から小さい数を引く」という独自のルール（Smaller-From-Larger）を首尾一貫して適用しているのです。80 - 27 を 67 と答える学習者は、「借りた後、借りられた桁を減らさない」という別のバグ（Borrow-No-Decrement）を持っています。BUGGY はこうしたバグを百以上カタログ化し、数題の応答パターンから個々の学習者のバグを逆推定する診断アルゴリズムを構築しました。

連立方程式でも同じ視点が使えます。たとえば代入で 2(y + 1) = 2y + 1（分配法則の片側忘れ）と書く学習者、移項で符号を反転し忘れる学習者、加減法で「両辺を引く」つもりが定数項だけを引いて変数項を加える学習者――これらはいずれも単発の不注意ではなく、各学習者の中で安定的に再現する誤った規則です。教師が「もう少し気をつけて」と叱っても直らないのは当然で、書き換えるべきは態度ではなく頭の中で動いているルール本体だからです。

誤りの階層：構文・意味・概念

誤りを分類する語彙はドメインによって異なりますが、プログラミング教育では以下のような階層化がよく使われます。構文エラー は文法レベルの違反（セミコロン忘れ、括弧の不一致）で、コンパイラが検出してくれる軽い誤りです。意味エラー はコードは動くが意図と異なる動作をするもので、ロジックの誤り、誤った変数の参照、初期化忘れなどに分類されます。最も深い層が 概念的誤り（conceptual misconception）で、「変数は常に初期値を保持する」「ループは必ず固定回数実行される」など、概念そのものの誤った理解に根ざします。連立方程式で言えば、解の存在性そのものを誤解している（不定解や不能解の扱いを知らない）学習者は、この最深層に問題を抱えています。

エラー分析の核心は、表層の誤答から深層の誤った認知構造へと遡る ことにあります。同じ「 $x = - 3$ 」という誤答でも、符号の書き写しミスで生じたものと、加減法の演算規則を取り違えて生じたものでは、必要な介入はまったく異なります。次節で見るように、表層の症状と深層の原因を結びつける枠組みが、形式化を呼び込むことになるのです。

つまずきの構造：分析結果を束ねる

CTA、プロトコル、エラーの三系統で得られたデータは、それぞれ異なる側面から学習者の認知を照らしますが、最終的にはひとつの「つまずきの構造」として束ねなければなりません。実用的には、つまずきは大きく三層に整理できます。

第一層は 前提知識の欠如 です。連立方程式を解くには、一次方程式の操作、移項、分配法則、四則演算といった先行スキルが必要です。これらの一部が定着していないと、上位スキルを訓練しても定着しません。HTA の「これ以上分解しないサブタスク」が、実は学習者にとっては未訓練だったというパターンがこれにあたります。診断には、上位課題の失敗を見たとき、HTA の階層を一段下って前提スキルを個別にテストするのが有効です。

第二層は 誤概念（misconception）です。前提知識は揃っているのに、その上に誤った規則が乗っかっているケースですね。「変数は箱であり、値を入れると前の値は消える」という代入の理解は基礎レベルでは正しいのですが、参照やポインタの文脈に持ち込むと誤解の元になります。「ループは典型例から類推して常に同じ回数だけ実行される」という過度な一般化も同類です。誤概念は単に「正しい知識が欠けている」のではなく、「誤った知識が自信をもって動いている」状態なので、新しい情報を上書きするのが難しく、第3章で触れた認知的葛藤を意図的に引き起こす介入（既存の理解では説明できない反例の提示）が必要になります。BUGGY 流の体系的バグも、本質的にはこの層に位置します。

第三層は 認知負荷の過剰 です。前提知識も概念理解も整っているのに、課題の難度がワーキングメモリ容量を超え、本来できる学習者でも失敗する状況です [Sweller2011]。連立方程式に分数係数や三元連立が加わった瞬間に正答率が崩れる学習者は、しばしばこの層の問題を抱えています。介入は誤概念修正ではなく、課題の分解、足場かけ（scaffolding）、ワークドエグザンプルの提示といった負荷軽減策となります。この第三層は次章の形式化を経て、第7章の学習活動設計でより深く扱います。

これら三層は互いに排他的ではなく、ひとつの誤答が複数の層に同時に根ざしていることもしばしばです。だからこそ、CTA・プロトコル・エラー分析を組み合わせ、一つの誤答に対して「どの層が主因か」を切り分ける作業が、形式化の前段階で要求されるのです。

まとめ

本章は「認知は外から見えないが、特定の方法で表面化させて分析できる」という主張を貫いてきました。CTA は熟達者の暗黙知を階層化された手順として書き下し、プロトコル分析は学習者のいまの思考を時系列で取り出し、エラー分析は誤答の背後にある一貫した規則を浮かび上がらせる。連立方程式というひとつの題材を三通りの方法で見ると、解法選択・サブスキル・誤概念・認知負荷といった、それぞれに固有の貢献が見えてきます。これらの分析結果を、前提知識・誤概念・認知負荷という三層のつまずき構造に束ねれば、学習者の状態を診断する基本的な語彙が揃います。

次章への橋渡し

しかし、ここまでで得られたのはまだ散らかった観察データの集まりに過ぎません。これを計算機が処理でき、教師や設計者が読み返して検証できる形に書き直さない限り、個別の事例を超えた知識の蓄積は起きないのです。

次の第6章では、本章で取り出した「つまずきの構造」を、第4章で学んだ知識表現の語彙を使って中間表現として書き下す方法――本書の核心となる 形式化と中間表現 ――に踏み込みます。第I部（基礎理論編）から第II部（方法論編）への橋渡しとなるテーマで、本書全体のなかでも特に密度の高い章です。本章までで「形式化されるべき対象」と「形式化の道具」と「観察の方法」が揃いました。いよいよ、それらを組み合わせる段階に進みましょう。

さらに学ぶために

Schraagen, J. M., Chipman, S. F., & Shalin, V. L. (eds.) (2000). Cognitive Task Analysis. Lawrence Erlbaum Associates. CTA の方法論を体系的に概観する標準的レファレンス。
Ericsson, K. A., & Simon, H. A. (1993). Protocol Analysis: Verbal Reports as Data (Revised ed.). MIT Press. think-aloud 法の原典。なぜ「説明」ではなく「発話」を求めるのかが哲学的に丁寧に論じられている。
Brown, J. S., & Burton, R. R. (1978). Diagnostic models for procedural bugs in basic mathematical skills. Cognitive Science, 2, 155–192. BUGGY 論文。誤りの体系性という考え方の起点。

認知の形式化と中間表現

この章で扱う問い

本章で考えたいのは、「認知や学習についての知見を、どんな表現で書き下せば計算機にも教師にも扱えるものになるのか」という問いです。前章までで取り出した「つまずきの構造」——前提知識・誤概念・認知負荷——を、人間が読み返せて機械が処理できる形にしておかなければ、後続の章で扱う ITS や適応的支援は設計できません。本書の中盤に置かれているのはそのためです。認知モデルの形式化や、ドメイン知識をどう表現するかに関心がある読者には、本章の内容が他章を読む際の見取り図として効いてくると思います。あらかじめ言ってしまえば、形式化とは表現選択の問題であり、各表現は何かを得て何かを失います。本章はその語彙と、選択を統合する「中間表現」の設計原理を整理します。

形式化とは何か

形式化の本質

第1章で述べた通り、形式化は、本書を貫く三つのテーマの一つです。具体的には、暗黙的で曖昧な認知や知識を、明示的で厳密な形式で表現する作業を指します。これは単に「書き下す」こと以上の意味を持ちます。形式化されたものは四つの性質を獲得します。明示性——前提・仮定・概念間の関係が明示的に記述され、暗黙的な部分が最小化されます。厳密性——曖昧さが排除され、定義が厳密になります。構造性——要素間の関係が構造化されて表現されます。操作可能性——形式的記述に基づいて計算や推論が可能になります。

例として、「学習者はループを理解している」という曖昧な記述を考えてみましょう。形式化するなら、まず「理解」を構成要素に分解します（ループの構文を知っている、実行順序を説明できる、適切な状況で使える、典型的なバグを認識できる）。次に各要素の評価基準を定義します（構文知識なら欠落のない for 文を書ける、実行順序なら任意のループのトレースができる、など）。要素間の依存関係を明示し（構文を知らないとトレースはできない）、全体としての「理解度」を各要素のスコアからどう合成するかを定めます。形式化される前は教師の主観の中にしかなかった「理解」が、これにより計算機に判定させ、複数の教師間で議論できる対象になるわけです。

なぜ形式化が困難か

ただし、認知プロセスの形式化は物理現象の形式化とは異なる困難を抱えます。第一に 認知の複雑性 があります。人間の認知は多様で文脈依存的であり、単純な規則では捉えきれません。第二に 観察の間接性 ——認知プロセスは直接観察できず、行動や発話から推論するしかありません（前章で見た think-aloud や行動ログ分析が、この間接性に対する応答です）。第三に 個人差 ——同じタスクでも、学習者によって認知プロセスが異なります。第四に 動的変化 ——学習によって認知構造が変化し、静的なモデルでは不十分です。最後に 多重粒度 ——認知は秒単位の操作から年単位のスキル発達まで、異なる時間スケールと抽象度で理解できるため、適切な粒度の選択が難しいのです。

これらの困難にもかかわらず形式化を追求する理由は単純です。曖昧なままでは、一貫した診断も適応的な支援も不可能だからです。第1章で論じた通り、形式化は「教育研究を再現可能にする工学的処方箋」であり、認知的負荷をかけて書き下すコストを支払う代わりに、検証・批判・蓄積・自動推論という見返りが得られます。

認知構造の形式化

それでは、認知のどの側面を、どの表現で書き下すべきでしょうか。本節では、形式化の対象となる認知構造を概念知識・手続き的知識・因果知識の三系統に分け、それぞれに自然な表現と、その表現が「失うもの」を見ていきます。

概念知識の形式化：オントロジー、ただし手続きは表現できない

概念的知識（declarative knowledge）は、「〜とは何か」「〜は〜である」という形式の知識です。これを形式化するには、第4章で学んだオントロジーの手法が自然にフィットします。

概念の階層構造

下図は、プログラミング教育における概念の階層を形式化した例です。

graph TD
    Prog[プログラミング概念] --> CS[制御構造]
    Prog --> DS[データ構造]
    Prog --> Func[関数]

    CS --> Loop[ループ]
    CS --> Cond[条件分岐]

    Loop --> For[for文]
    Loop --> While[while文]
    Loop --> DoWhile[do-while文]

    For -.->|前提| Var[変数]
    For -.->|前提| CondExpr[条件式]
    For -.->|前提| Iter[イテレーション概念]

    Var --> VarDecl[変数宣言]
    Var --> VarAssign[変数代入]

    style Prog fill:#ff9,stroke:#333,stroke-width:3px
    style CS fill:#f9f
    style Loop fill:#9ff
    style For fill:#9f9

図 6-1: 概念の階層構造の形式化

この階層により、for 文 を学ぶには Variable・Condition の理解が前提であることが明示されます。Loop の一般的性質（反復、終了条件など）は、具体的なループ構文（for, while）に継承されます。学習者の理解状態を「Variable は理解しているが for 文 は未習得」と階層的に診断することもできます。第4章で示した OWL/Turtle 記法の ForLoop 定義はまさにこの階層を機械可読に書き下したものであり、推論エンジンは前提関係から「学習順序」を自動生成できます。

概念間の関係

ただし、is-a（包含関係）だけでは捉えきれない関係も多くあります。教育的に意味のある関係を列挙すると、prerequisite-of（A は B の前提）、part-of（A は B の構成要素）、contrasts-with（A と B は対比的概念、例：for と while、再帰と反復）、similar-to（A と B は類似概念、例：配列とリスト）、exemplifies（A は B の具体例）などがあります。

graph LR
    For[for文]
    While[while文]
    Array[配列]
    Var[変数]
    Rec[再帰]
    Iter[反復]

    For -.->|is-a| Loop[ループ]
    While -.->|is-a| Loop

    For -.->|prerequisite-of| NestedLoop[ネストループ]
    Array -.->|prerequisite-of| NestedLoop

    For -.->|contrasts-with| While
    Rec -.->|contrasts-with| Iter

    For -.->|part-of| Iter
    While -.->|part-of| Iter

    Var -.->|prerequisite-of| For
    Var -.->|prerequisite-of| While

    style Loop fill:#ff9
    style For fill:#f9f
    style While fill:#9ff

図 6-2: 概念間の多様な関係

contrasts-with 関係を形式化しておけば、システムは「for と while の違いは何か」という対比的説明を自動生成できます。exemplifies 関係があれば、抽象概念の説明後に具体例を提示するという教授戦略を、概念ごとにハードコードせずに実装できます。

ここで概念知識の形式化が 失うもの を明確にしておきましょう。オントロジーは「何があるか」を記述するのには優れていますが、「どうやって解くか」という手続きは表現に向きません。ForLoop のオントロジーが Variable を前提だと教えてくれても、「学習者がループを書けないとき、どの順序でステップを踏めば書けるようになるか」までは語らないのです。手続き的側面は、別の表現に委ねる必要があります。

手続き的知識の形式化：プロダクションルールとスキーマ

手続き的知識（procedural knowledge）は、「〜をどうやって行うか」という知識です。これを形式化する第一の選択肢が、Anderson の ACT-R 理論 [Anderson1993] における プロダクションルール です。ACT-R では、認知スキルは「ある条件が成立したらこの操作を行う」という多数の小さなルールの集合として表現されます。二次方程式を解くスキルは、たとえば次のようなルール集合となります。

Rule1:
IF goal is (solve ax^2 + bx + c = 0)
   AND a != 0
THEN apply quadratic formula
     x = (-b ± sqrt(b^2 - 4ac)) / (2a)

Rule2:
IF goal is (solve ax^2 + bx + c = 0)
   AND a = 0 AND b != 0
THEN transform to linear equation
     set goal (solve bx + c = 0)

Rule3:
IF goal is (solve bx + c = 0)
   AND b != 0
THEN x = -c / b

この形式化の真価は、学習者の解法プロセスを 適用されたルールの系列として解釈できる 点にあります。第8章で扱う モデルトレーシング では、学習者が打つ各ステップを、このルール集合のいずれの適用に対応するかを照合し、対応するルールがなければ「想定外の手順」として診断します。Cognitive Tutor の中核となった技術です。

より複雑なスキル——例：プログラムのデバッグ、エッセイの執筆、医療診断——は、個々のルールに分解しきれない階層的構造を持ちます。このようなスキルには 手続き的スキーマ（procedural schema）が用いられます。下図はデバッグスキルを階層的なスキーマとして表現した例です。

graph TD
    Debug[デバッグスキル] --> Reproduce[問題の再現]
    Debug --> Locate[バグ位置の特定]
    Debug --> Fix[修正]
    Debug --> Verify[検証]

    Locate --> Hypothesis[仮説生成]
    Locate --> Test[テスト実行]
    Locate --> Analyze[結果分析]

    Test --> Breakpoint[ブレークポイント設定]
    Test --> Print[print文挿入]
    Test --> Trace[トレース実行]

    Fix --> Understand[原因理解]
    Fix --> Modify[コード修正]

    Verify --> Retest[再テスト]
    Verify --> Regression[リグレッションテスト]

    style Debug fill:#ff9,stroke:#333,stroke-width:3px
    style Locate fill:#f9f
    style Fix fill:#9ff
    style Verify fill:#9f9

図 6-3: デバッグスキルの手続き的スキーマ

「バグを再現する」「原因を絞り込む」「修正する」「検証する」という上位ステップが、それぞれさらに詳細なサブ手続きに分解されます。第5章で扱った階層的タスク分析（HTA）と発想を共有しており、HTA の出力を直接スキーマとして書き下せる関係にあります。階層構造により、学習者がどのレベルでつまずいているか——「原因の絞り込み」全体ができないのか、その下位の「仮説生成」だけができないのか——を区別して診断できます。

ここでも 失うもの があります。プロダクションルールやスキーマは「どう動くか」は書けますが、「なぜそう動くべきか」という因果的・説明的根拠は表現に向きません。学習者に「なぜこの一手なのか」を説明する必要がある場面では、次に見る因果モデルに頼ることになります。

因果知識・説明モデルの形式化：因果ネットワーク

「何」「どうやって」だけでなく、「なぜ」という因果的・説明的知識も学習には不可欠です。物理学における「なぜボールは落ちるのか」への答えは、重力という因果メカニズムを呼び出します。プログラミングにおける「なぜこのプログラムは遅いのか」への答えは、ネストしたループの計算量という因果連鎖を呼び出します。こうした因果知識を形式化するには、因果ネットワーク（causal network）や qualitative reasoning の手法が用いられます。

下図は、プログラムのパフォーマンス問題に関する因果モデルを示したものです。

graph TB
    Slow[プログラムが遅い] --> Loop[ネストしたループ]
    Slow --> Mem[メモリ使用量大]
    Slow --> IO[頻繁なI/O]

    Loop --> Complexity[O_n²の計算量]
    Mem --> Redundant[冗長なデータ構造]
    IO --> FileAccess[ループ内でのファイルアクセス]

    Complexity -.->|解決策| HashTable[ハッシュテーブルの使用]
    Redundant -.->|解決策| Optimize[データ構造の最適化]
    FileAccess -.->|解決策| Batch[バッチ処理]

    style Slow fill:#f99,stroke:#333,stroke-width:3px
    style Loop fill:#fcc
    style Mem fill:#fcf
    style IO fill:#cff

図 6-4: パフォーマンス問題の因果モデル

このモデルにより、「実行時間が長い」という症状から、「ネストしたループ」「不必要な再計算」「不適切なデータ構造」といった原因候補を辿り、各原因を確認する診断質問を生成できます。修正の助言も、対応する因果リンクを示しながら「ネストしたループを線形に書き換えれば速くなる」と説明的に返せます。

因果モデルが 失うもの は、定量精度です。「ネストしたループは遅い」とは言えても、「具体的に何ミリ秒遅くなるか」までは因果ネットワークだけからは出ません。定量予測には、別途プロファイリングデータや計算量の数式モデルを組み合わせる必要があります。

三系統を統合する必要

オントロジー（概念）、プロダクションルール／スキーマ（手続き）、因果ネットワーク（因果）の三系統は、それぞれ異なる側面を捉え、それぞれ異なるものを失います。ある学習者が連立方程式でつまずいているとき、その診断には概念階層（前提概念の理解状況）、手続きルール（実行ステップの追跡）、因果モデル（なぜそのバグが起きたかの説明）のすべてが要ります。設計者の問題は、これらを どう束ねて単一の中間表現に収めるか です。次節で論じる中間表現の設計原理が、その束ね方の指針を与えてくれます。

中間表現の設計原理

形式化された認知構造を、どのような形で記述・保存・共有するか——これが 中間表現（intermediate representation, IR）の設計です。

三つの設計原理

第1章で述べたように、効果的な中間表現は三つの原理を同時に満たす必要があります。三つは独立ではなく、しばしばトレードオフ関係にあります。

計算可能性（Computability）

中間表現は、コンピュータが自動的に処理できる必要があります。具体的には、構文的明確性（XML や JSON 等の構造化データ形式、あるいは RDF/OWL 等のオントロジー言語で記述される）、意味的厳密性（各要素の意味が厳密に定義され、曖昧性がない）、推論可能性（表現に基づいて自動推論が可能、たとえば前提関係から学習順序を自動生成）、検証可能性（表現の整合性を自動的にチェックできる、たとえば循環的前提関係の検出）が含まれます。前節の ForLoop の OWL 定義は、この計算可能性を最大化した形式です。

可搬性（Portability）

中間表現は、特定のシステムや実装に依存せず、異なる環境で利用できる必要があります。具体的には、プラットフォーム独立性（特定の言語や OS に依存しない標準フォーマットを使う）、標準化された語彙（概念や関係を表す語彙はコミュニティで共有された標準に基づく）、バージョン管理（仕様が進化しても後方互換性が保たれる）、モジュール性（大きなドメインを小さなモジュールに分割でき、必要な部分だけ利用できる）が必要となります。研究の枠組みとしてエコシステムを目指す以上、可搬性は研究グループ間での知見の流通を可能にする生命線です。

解釈可能性（Interpretability）

中間表現は、専門家（教師、教授設計者、認知科学者）が理解・検証・修正できる必要があります。可読性（人間が読んで理解できる形式：テキストベース、図的表現）、視覚化（複雑な構造を図として視覚化するツールの存在）、ドキュメンテーション（各要素の意味と設計意図の文書化）、編集可能性（専門家が GUI ツールやテキストエディタで編集できる）が含まれます。ForLoop の OWL Turtle 表記は、計算機にも読める一方で、Turtle を学んだ教師なら直接読み書きできる——解釈可能性を意識した妥協点といえます。

下図は、これら三原理の関係を示したものです。

graph TD
    IR[中間表現] --> Comp[計算可能性]
    IR --> Port[可搬性]
    IR --> Interp[解釈可能性]

    Comp --> Comp1[構文的明確性<br/>意味的厳密性<br/>推論可能性]
    Port --> Port1[プラットフォーム独立<br/>標準化された語彙<br/>モジュール性]
    Interp --> Interp1[可読性<br/>視覚化<br/>編集可能性]

    Comp -.->|トレードオフ| Port
    Port -.->|トレードオフ| Interp
    Interp -.->|トレードオフ| Comp

    style IR fill:#ff9,stroke:#333,stroke-width:4px
    style Comp fill:#f99
    style Port fill:#9f9
    style Interp fill:#99f

図 6-5: 中間表現設計の三つの原理

三つの原理はしばしばトレードオフ関係に立ちます。計算可能性を最大化しようと一階述語論理で厳密に書き下すと、教師が読めなくなります（解釈可能性の犠牲）。解釈可能性を最大化しようと自然言語で書くと、機械が処理できません（計算可能性の犠牲）。可搬性を最大化しようとあらゆる標準語彙にマッピングすると、構築コストが膨らみます。設計とはこの三角の中で適切な妥協点を見つける作業なのです。

中間表現の具体例

それでは、実際にどのような中間表現が可能でしょうか。ForLoop を、二つの異なる形式で書き下し、それぞれが三原理のどこに重みを置いているかを見てみましょう。

XML/JSON ベースの表現：解釈可能性に寄せる

最も直接的なのは、XML や JSON で構造化データとして表現する方法です。

<Concept id="for-loop" domain="programming">
  <Name lang="en">For Loop</Name>
  <Name lang="ja">for文</Name>

  <Prerequisites>
    <Prerequisite id="variable" strength="strong"/>
    <Prerequisite id="iteration" strength="strong"/>
    <Prerequisite id="condition" strength="medium"/>
  </Prerequisites>

  <Components>
    <Component id="init" name="Initialization"/>
    <Component id="cond" name="Condition"/>
    <Component id="update" name="Update"/>
    <Component id="body" name="Loop Body"/>
  </Components>

  <Misconceptions>
    <Misconception id="off-by-one" frequency="high">
      <Description>
        Incorrect boundary condition (e.g., i &lt;= n vs i &lt; n)
      </Description>
      <DiagnosticPattern>
        Loop executes one more or one fewer iteration than intended
      </DiagnosticPattern>
    </Misconception>
  </Misconceptions>

  <LearningActivities>
    <Activity type="example" difficulty="easy">
      Write a loop to print numbers 1 to 10
    </Activity>
    <Activity type="debug" difficulty="medium">
      Fix off-by-one error in given code
    </Activity>
  </LearningActivities>
</Concept>

この XML は、計算可能性（XML パーサで処理可能）と解釈可能性（教師が見出しから内容を追える）の双方をある程度満たしますが、可搬性は限定的です。Prerequisite という要素名は独自定義であり、他のシステムが同じ意味で使っているとは限りません。前章の第4章で見た「ホテルの部屋」フレームの発想を XML 構文で展開したもの、と理解するとわかりやすいでしょう。

RDF/OWL ベースのオントロジー：計算可能性と可搬性に寄せる

より意味的に豊かで、可搬性も高い表現には、セマンティックウェブの標準技術である RDF [Klyne2004] と OWL [McGuinness2004] が使えます。

@prefix : <http://example.org/programming#> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

:ForLoop rdf:type :ControlStructure ;
         rdfs:subClassOf :Loop ;
         :hasPrerequisite :Variable, :Iteration ;
         :hasComponent :Initialization, :Condition, :Update, :LoopBody ;
         :difficulty "medium" .

:WhileLoop rdf:type :ControlStructure ;
           rdfs:subClassOf :Loop ;
           :contrastsWith :ForLoop .

RDF/OWL の利点は、標準的な推論エンジンを利用でき、既存のオントロジー（教育メタデータ標準など）とリンクできる 点です。たとえば :hasPrerequisite 関係を IEEE LOM や IMS Learning Design の対応する関係にマッピングすれば、別の機関が作った教材オントロジーと自動的に接続できます。可搬性が大きく上がる代わりに、解釈可能性は XML/JSON より下がります——名前空間や URI のリテラシーを教師に求めるのは現実的でない場面も多いでしょう。

同じ ForLoop を二つの形式で書いたとき、どちらが「正しい」かではなく、用途に応じてどちらを選ぶかが問題です。研究室内で教師と密に協働する場面では XML/JSON、エコシステムとして広く流通させる場面では RDF/OWL、というのが標準的な使い分けとなります。

一つの実例：情報構造アプローチと中間表現の設計原理

中間表現の設計が具体的にどのように営まれてきたか、一つの実例として、平嶋らが提案する 情報構造アプローチ（Information Structure Approach）と、そこから派生してきた一連の枠組みを紹介します [Hirashima2015]; [Horiguchi2020]。情報構造アプローチは、学習課題を「学ぼうとしている対象（外的表現）の情報構造」として捉え、学習活動を「その情報構造への構造的操作」として再定義します。たとえば算数の文章題なら、文章を「物語の量・関係・問い」という情報構造に分解し、学習者にその構造を組み立てさせる作問活動を学習タスクとして設計します。この発想は Open Information Structure Approach (OISA) や Open Domain Model (ODM) として、より一般のドメインに拡張され、近年では学習者が外的表現を再構成しながら内的表現を組み替える Recomposition-Based Learning (RBL) [Hirashima2025] として理論化されつつあります。系譜としては、定性物理 [DeKleer1984] や、機能・振舞い・構造を分けて記述する FBS（Function-Behavior-Structure）形式 [Sasajima1996]; [Kitamura2004] など、オントロジー工学・定性推論で培われた表現論の流れに連なるものです。

僕 (古池) はこの系譜のなかで研究をしてきたので、ここから引いた一例として書いておきましょう。中間表現を設計する際、僕は 計算可能性・可搬性・認知的忠実性 の三つを設計原理として明示することを提案しています [Koike2026]。前二者は本節で論じた通りですが、三つ目の「認知的忠実性」は、表現が学習者・教師の認知にとって自然か、操作したときに直観に反しないか、という観点を指します。ここまで述べた解釈可能性をさらに学習科学側に寄せた言い方と思っていただければよいでしょう。これは、複数あり得る IR の articulate のしかたの一例であり、唯一の枠組みというわけではありません。他にも複数のアプローチがあります。本書16章でいくつか具体例を見ていきます。

形式化のプロセス

それでは、実際に認知構造を形式化するプロセスはどのようなものでしょうか。

トップダウンとボトムアップの往還

形式化には二つのアプローチがあります。トップダウンアプローチ では、理論（認知科学、教育学）から演繹的に構造を設計します。たとえば Bloom のタキソノミー [Bloom1956] に基づいて学習目標を「想起・理解・応用・分析・評価・創造」と階層化する、という具合です。利点は理論的根拠が明確で、一貫性が高いこと。欠点は、実際の学習データと乖離するリスクです。教科書的に正しくても、実際の学習者がどこで詰まるかを反映していないことがあります。

ボトムアップアプローチ では、実際の学習データ（学習者の応答、エラーパターン、行動ログ）から帰納的に構造を抽出します。BUGGY が引き算の誤答群から「Smaller-From-Larger」のような体系的バグを見出したのが典型例です。利点は実データに根ざしているため実用性が高いこと。欠点は、一般化や理論的解釈が困難な場合があり、ある学校で見つけたパターンが別の学校でも成り立つかが保証されない点にあります。

最も効果的なのは、両アプローチを往還させることです。理論に基づいて初期の構造を設計し、実データで検証・改善し、理論を精緻化する、というサイクルを回します。この往還そのものを設計プロセスの中心に据えるのが、第15章で扱う Design-Based Research の発想と整合します。

flowchart TD
    theory[理論的基盤<br/>認知科学・教育学の知見]
    topdown[トップダウンアプローチ<br/>演繹的に構造を設計]
    ir[中間表現の構築<br/>形式化・検証]
    bottomup[ボトムアップアプローチ<br/>実データから帰納的に抽出]
    data[学習データ<br/>応答・エラーパターン]
    refine[検証・改善・理論精緻化]

    theory --> topdown
    topdown --> ir
    ir --> bottomup
    bottomup --> data
    data --> refine
    refine -- 反復的改善 --> theory

図 6-7: 形式化のプロセス：理論と実践の往還

具体的なステップ

実務として認知構造を形式化する典型的なステップは以下の通りです。

領域分析：対象ドメインの範囲を定め、重要な概念・スキルをリストアップ
文献調査：認知科学・教育学の先行研究を調査し、理論的基盤を確認
専門家インタビュー：ドメイン専門家や熟達教師から知識を引き出す（第5章の CTA を活用）
学習者分析：実際の学習者の理解状態、つまずきパターンを観察・分析（第5章のプロトコル分析・エラー分析を活用）
階層構造の設計：概念間の is-a, prerequisite などの関係を定義
手続き的知識の抽出：問題解決の手順、スキルをプロダクションルール等で表現
誤りモデルの構築：典型的誤りとその原因を体系化
形式的記述：中間表現の形式（XML, OWL, JSON-LD など）で記述
検証と評価：専門家レビュー、実データでの検証
反復的改善：フィードバックに基づいて継続的に改善

このプロセスは、第4章で紹介した Studer らのオントロジー工学方法論 [Studer1998] を、認知プロセスまで含むよう拡張したものと位置づけられます。

形式化の課題と展望

現在の課題

認知の形式化と中間表現には、まだ多くの未解決問題があります。

第一に 形式化のコスト です。高品質な中間表現の構築には、専門家の多大な時間と労力が必要です。Cognitive Tutor の代数モデルが百人時を超える専門家投入を要したことは知られており、この投入コストが「形式化された ITS が稀少な存在に留まる」最大の理由です。自動化や半自動化の手法が求められています。

第二に 表現の限界 です。人間の認知のすべてを形式的に捉えることは原理的に不可能です。直感、創造性、文脈依存的な理解、暗黙の身体性など、形式化に馴染まない側面をどう扱うか、あるいはどこで形式化を諦めるかは、未解決の哲学的問題でもあります。

第三に 標準化の欠如 です。コミュニティレベルで合意された標準的な中間表現がまだ確立されていません。各研究グループが独自の表現を使っており、相互運用性が低いのが現状です。さまざまな提案が並立する状態にあり、収束には時間がかかります。

第四に 評価の困難 です。形式化の「良さ」をどう評価するか、明確な基準がありません。網羅性（重要な概念を漏らしていないか）、精度（学習者の状態を正しく診断できるか）、有用性（その診断が教育的介入に役立つか）などの多面的評価が必要であり、単一の指標では捉えきれません。

AI による形式化支援の可能性

近年の自然言語処理や機械学習の進展は、形式化プロセスを支援する新たな可能性を開いています。大規模言語モデル（LLM）の活用 により、教科書や論文から概念を抽出し、概念間関係を提案し、初期オントロジーを自動生成する試みが進んでいます。もちろん LLM の出力にはハルシネーションが含まれうるため、専門家による検証が不可欠です。学習データからの知識発見 では、大量の学習者ログから、よくあるエラーパターンや概念間の学習依存関係を統計的に抽出します。半自動形式化 では、人間の専門家と AI が協働し、AI が初期案を生成し、専門家がレビュー・修正することで、効率と質を両立させます。

これらの技術は、形式化のコストを下げ、教育 AI 研究のエコシステムの成長を加速する可能性を持ちます。第1章で論じた「データ駆動と理論駆動の統合」が、まさに形式化支援という具体的な接点で実装されつつあります。

まとめ

本章は「形式化は表現選択の問題であり、各表現は何かを得て何かを失う」という主張を貫いてきました。概念知識にはオントロジーが、手続き的知識にはプロダクションルールやスキーマが、因果知識には因果ネットワークが、それぞれ自然な表現としてフィットします。しかし各表現は、捉える側面と引き換えに、別の側面を失います。中間表現の設計とは、これら異なる表現を統合し、計算可能性・可搬性・解釈可能性という三つの原理の間でトレードオフを取りながら束ねていく作業です。情報構造アプローチや FBS のような系譜は、その束ね方の一つの実例を提供してくれます。

次章への橋渡し

形式化された認知構造はそれ自体が目的ではなく、学習者の前にどんな課題・活動を置くかという設計に橋渡しされて初めて意味を持ちます。次章では、その「学習活動の設計」を、認知負荷理論と望ましい困難の二つの軸から考えていきます。

さらに学ぶために

Anderson, J. R., & Lebiere, C. (1998). The Atomic Components of Thought. Lawrence Erlbaum Associates.（ACT-R による認知の形式化）
Studer, R., et al. (1998). Knowledge engineering: Principles and methods.（知識工学の方法論）
Mizoguchi, R., & Bourdeau, J. (2000). Using ontological engineering to overcome common AI-ED problems. International Journal of Artificial Intelligence in Education.

学習課題と学習活動の設計

この章で扱う問い

前章までで認知を形式化する語彙を整えました。本章で考えたいのは、「形式化された認知構造を踏まえて、学習者の前にどんな課題・活動を置けば学習が起きるのか」という問いです。設計者の前には、易しすぎても難しすぎても学習が滞るという根本的な緊張があり、そのバランスを取るための原理が認知科学から提供されています。あなたがもし、自分で課題や教材を設計してみてどこに「ちょうど良さ」を置けばよいか迷っているなら、本章の二軸（認知負荷と望ましい困難）はそのつまみの目盛りを言葉にしてくれる道具になるはずです。学習材や課題系列の設計、教材開発、ITS のシナリオ設計に関心がある読者には、本章の道具立てが直接役に立つでしょう。本章では、認知負荷理論と望ましい困難という二つの軸で学習活動の設計を整理し、worked example から独立解決に至る一連の課題系列という具体的な道具立てを示します。

設計の出発点：ADDIE と本書の設計サイクル

教授設計（instructional design）の古典的な枠組みは、Robert Branch が体系化した ADDIE モデル [Branch2009] です。Analysis（分析）→ Design（設計）→ Development（開発）→ Implementation（実装）→ Evaluation（評価）という五段階を反復し、評価の結果を分析にフィードバックします。これは抽象的に書けばどんな工学設計とも変わりませんが、教授設計においてはとくに「分析」段階の質が後続のすべてを決めるため、ここに認知科学的方法を持ち込めるかどうかが成果を分けます。

本書の枠組みは、ADDIE の各段階を本書の章立てに対応させて読み直すことができます。分析段階は第5章で扱った認知タスク分析・プロトコル分析・エラー分析に対応し、学習者の前提知識・誤概念・認知負荷の所在を可視化します。設計段階は第6章の形式化と中間表現に対応し、ドメイン知識・手続き知識・誤りモデル・教授戦略を計算可能な形で書き下します。開発段階は本章および第8〜12章で扱う、課題系列・スキャフォルディング・フィードバックの実装に対応します。実装と評価は第15章の評価手法に接続します。要するに本章は、本書のサイクルにおいて、形式化された認知の地図を「学習者が日々触れる課題」に翻訳する局面を扱うわけです。

その翻訳を支えるのが、次節以降で見る二つの理論——認知負荷理論と望ましい困難の理論——です。前者は「易しすぎる方向への失敗」を、後者は「難しすぎる方向への失敗」を制御するための原理を与えてくれます。

認知負荷理論：ワーキングメモリ容量から設計を導く

John Sweller が1980年代に提唱した 認知負荷理論（Cognitive Load Theory, CLT）[Sweller1988]; [Sweller2011] は、ワーキングメモリの容量が極度に限られている——同時に保持できる情報要素は7±2、操作可能な要素は4以下とも言われます——という事実から、教授設計の処方箋を導く理論です。学習とは長期記憶に新しいスキーマを構築することですが、その構築作業はワーキングメモリ上で行われます。したがって、ワーキングメモリを学習に無関係な処理で使い切ってしまえば、いくら時間をかけても学習は起きません。これが CLT の基本的な問題設定です。

三種類の認知負荷

CLT は、学習者が課題に取り組む際の認知負荷を三つに区別します。

内在的負荷（intrinsic load）は、教材そのものの本質的な複雑さに由来する負荷です。連立方程式を解くことは、加減と移項と検算を同時に保持する必要があり、本質的に重い課題です。学習目標を維持する限り、内在的負荷を完全に消すことはできません。ただし、その「実質的な重さ」は操作可能です。前提知識を先に固めれば、上位課題における各前提のスキーマが自動化されるため、ワーキングメモリ上で扱う要素数は実効的に減ります。三元連立方程式を提示する前に二元連立を十分練習させるという素朴な順序立ても、実は内在的負荷の管理なのです。

外在的負荷（extraneous load）は、教材設計の不備によって生じる、学習に寄与しない余計な負荷です。図と説明文がページをまたいで配置されていれば、学習者は両者を頭の中で対応づける処理に容量を使ってしまいます。同じ情報が図と詳細な文字説明の両方で重複していれば、両者を照合する処理が無駄に発生します。これらは設計を改めれば取り除ける負荷であり、CLT の最初の処方箋は「外在的負荷を可能な限り削れ」というものになります。

関連的負荷（germane load）は、スキーマ構築そのものに費やされる、望ましい負荷です。worked example をただ読むだけでなく「なぜこの一手なのか」を自問しながら読む（self-explanation）と関連的負荷が増し、学習効果が上がります。関連的負荷は内在的負荷とトレードオフ関係にあり、内在的負荷で容量を使い切ってしまえば、関連的負荷を割く余地は残りません。よって設計の順序は、まず外在的負荷を最小化し、内在的負荷を学習者の発達段階に合わせて調整し、残った容量を関連的負荷に割り当てる、ということになります。

CLT が導く設計効果

CLT からは数十の経験的に裏づけられた「効果」が導かれていますが、本節では本書の関心に近いものを四つだけ挙げ、それぞれを具体例とともに見ていきます。

最も古典的なのが ワークドエグザンプル効果（worked example effect）です。問題だけを与えて学習者に解かせるよりも、完全な解法例を提示し、それを読んで理解させる方が、初学者には学習効果が高くなります。これは初学者の場合、自力解決に伴う「次の一手をどうするか」の探索負荷（外在的負荷の一種）が極端に大きく、肝心の解法スキーマ構築（関連的負荷）に容量が回らないからです。連立方程式を初めて学ぶ生徒に、解法を一切示さず10題の練習問題を渡しても、闇雲な試行錯誤に終始して解法を抽出できないでしょう。最初の数題は完全な解法プロセスを段階的に提示する方が、はるかに早く定着します。

次に 分割注意効果（split-attention effect）です。関連する情報——たとえば回路図とその動作説明——が空間的・時間的に離れて提示されていると、学習者はそれらを頭の中で統合する処理に容量を使ってしまいます。解決策は単純で、図と説明を物理的に近接させ、可能なら図中に説明を埋め込みます。連立方程式の解説で、「左辺の $2 x$ を移項する」という説明を本文で書きつつ、対応する数式を別ページに置くような構成は外在的負荷を増します。同じ式の同じ箇所に矢印と一行の注釈を直接重ねる方がよいでしょう。

冗長性効果（redundancy effect）はやや反直感的ですが重要です。同じ情報を複数のチャネル（図と詳細な文字説明、音声ナレーションと画面上の同一テキストなど）で提示すると、学習者は両方を照合せざるを得ず、かえって負荷が増します。「親切のつもりで全部書く」設計が学習を阻害する典型例で、削れる説明は削るべきです。

最後に モダリティ効果（modality effect）です。視覚情報（図）と言語情報を両方とも視覚的に提示するよりも、図は視覚で、言語は聴覚（音声ナレーション）で提示する方が、ワーキングメモリの視覚チャネルと言語チャネルに負荷が分散され、学習効果が高くなります。動画教材における音声ナレーションが効くのはこの効果によるものです。

これらの効果はいずれも、外在的負荷を削り、関連的負荷を確保するという同じ論理から導かれます。設計者にとって CLT は、UI の細部からカリキュラムの構造に至るまでを評価する一貫した尺度を提供してくれるのです。

望ましい困難：易しすぎる学習は定着しない

CLT が「難しすぎる学習を防ぐ」原理だとすれば、これと正反対の方向から教授設計を制約する原理があります。Robert Bjork の 望ましい困難（desirable difficulties）[Bjork1994] です。Bjork が示したのは、学習中の成績を意図的に下げるような介入が、長期保持と転移にはむしろ有利に働くという、一連の実験事実でした。

すぐ思いつく例として、間隔学習（spacing）が挙げられます。同じ内容を一日に集中的に練習するより、数日に分散させて練習する方が、短期的なテスト成績は劣るものの、数週間後の保持率は明確に勝ります。インターリーブ（interleaving）も同じ系列に属します。連立方程式の練習問題を「全問加減法」「全問代入法」とブロック化するより、両者を混在させた方が、学習中の正答率は下がりますが、未知の問題に対する解法選択の力は上がります。検索練習（retrieval practice）も同様で、教科書を再読するより、白紙に内容を再構成しようとする方が、再構成中は苦しいけれども定着は強くなります。

これらに共通するのは、学習中の認知的努力が、長期記憶へのスキーマ書き込みを駆動するという考え方です。CLT の「関連的負荷を確保せよ」という処方箋とまさに同じ向きの主張ですが、Bjork はそれをさらに踏み込んで「短期的にはむしろ難しく感じる課題を意図的に設計せよ」と主張します。Manu Kapur の productive failure [Kapur2008]; [Kapur2016] はこの哲学のもう一つの極端な事例で、解法を教える前にあえて難しい問題に取り組ませ、失敗を経験させる方が、その後に提示される正解の解法を深く理解できることを示しています。

ここで CLT との関係を整理しておきましょう。両理論は対立するのではなく、適用される段階が異なります。初学者で前提スキーマがまだ脆弱な段階では CLT が支配的 であり、worked example と段階的提示で容量を保護すべきです。中級者以上で基本スキーマが定着し始めた段階では望ましい困難が支配的 になり、間隔・インターリーブ・検索練習・ときに productive failure を意図的に導入すべきです。Sweller 自身、初学者向けに有効な worked example が熟達者にはむしろ効率を下げる expertise reversal effect を報告しており、二つの原理を学習者の発達段階で切り替える必要を示唆しています。

この二軸を念頭に、次節では具体的な課題系列の設計に踏み込みましょう。

課題系列の設計：worked example から独立解決へ

CLT と望ましい困難の二原理を実装する最も具体的な道具立てが、フェーディング（fading）された課題系列です。学習の初期から終期にかけて、外的支援を段階的に減らし、学習者が引き受ける認知的責任を段階的に増やしていきます。代表的な五段階は、(1) 完全 worked example、(2) 部分的に空欄を残した completion problem、(3) ヒント付き問題、(4) ヒントなし問題、(5) 自律的な問題解決の連鎖、と整理できます。

連立方程式の例で具体化してみましょう。第一段階 では、 $2 x + 3 y = 12$ 、 $x - y = 1$ を解く完全な解法を、ステップごとの注釈つきで提示します。「下の式から $x = y + 1$ を導く」「これを上の式に代入する」「整理して $5 y + 2 = 12$ 」「 $y = 2$ 、 $x = 3$ 」「検算」と各ステップの目的が明示されます。学習者は読んで理解するだけで構いません。

第二段階 の completion problem では、解法の骨格は与えられますが、いくつかの中間ステップが空欄になっています。たとえば「 $2 (y + 1) + 3 y = 12$ 」「 $? y + 2 = 12$ 」「 $y = ?$ 」「 $x = ?$ 」と空欄を埋めさせます。穴埋めは自力解決よりはるかに負荷が低いですが、worked example のように完全に受動的でもありません。Renkl らの研究は、completion problem が worked example と独立解決の間の橋渡しとして実証的に有効であることを繰り返し示しています。

第三段階 では問題のみを提示しますが、必要に応じてヒントを段階的に開示する仕組みを与えます。第一ヒントは「どちらかの式を $x = \dots$ または $y = \dots$ の形に変形できないか」、第二ヒントは「下の式から $x = y + 1$ 」、第三ヒントは「これを上の式に代入する」、というように、ヒントの粒度自体が learner の状態に応じて細かくなっていきます。

第四段階 ではヒントなしで解かせ、誤答時にのみフィードバックを返します。ここまでで学習者は、解法を構築する責任の大半を負っています。

第五段階 は、複数の連立方程式を文章題として与え、解法選択そのものから学習者に任せます。インターリーブを意図的に導入し、加減法・代入法・グラフ的解法のいずれを選ぶかも learner の判断に委ねます。望ましい困難の原理に従えば、この段階では多少の失敗を許容することが、長期的な転移に貢献するでしょう。

この五段階の系列は、各段階の境界をどこに置くかに自由度があります。学習者ごとに前段階の習熟度を測定して動的に決定するのが、後の章で扱う 学習者モデル と 適応的システム の役割です。設計者はまず、ドメインごとにこの系列の骨格を用意することから始めます。実装の途中で段階の切れ目を発明し直すよりも、worked example から独立解決までの五段階を先に紙の上で書き切ってから実装に入る――そんな順序のほうが、結果として早く動くものに辿り着けるはずです。

スキャフォルディングとフィードバック：課題のあいだを支える

課題系列の中で、各段階を学習者が乗り越えられるよう支えるのが、スキャフォルディング（scaffolding）と フィードバック です。両者はしばしば一体として運用されますが、機能は異なります。スキャフォルディングは課題実行中に与える足場であり、フィードバックは課題実行後に与える応答です。

スキャフォルディングとフェーディング

スキャフォルディング [Wood1976] は、第3章で扱った Vygotsky の発達の最近接領域（ZPD）の理論的後継として位置づけられます。学習者が自力ではできないが、適切な支援があればできる——その「あればできる」を支えるのがスキャフォルディングです。設計上の四原則は次のように整理できます。

第一に 診断的 であること。学習者の現在の能力を把握し、その学習者にとって ZPD 内に位置する支援を提供しなければ、過剰支援か不足支援になります。第二に 適応的 であること。同じ学習者でも、課題の進行とともに必要な支援は変わります。第三に 最小限 であること。必要以上の支援は学習者の自律性を損ない、関連的負荷を奪います。第四に 明示的 であること。何を支援しているのかが学習者にも分かるとき、学習者はその支援を内面化して次の課題に持ち込めます。

スキャフォルディングは支援するだけでなく、撤去されなければなりません。永続的な支援は学習者の独立を阻みます。前節の五段階フェーディングは、まさにスキャフォルディングを段階的に撤去する設計の典型です。完全 worked example は最大限のスキャフォルディングを提供し、独立解決の段階では支援はゼロになります。

フィードバックの種類とタイミング

フィードバックの効果は、Hattie と Timperley のメタ分析 [Hattie2007] が示した通り、教育介入のなかでも極めて大きい部類に属します。ただしその効果は、フィードバックの種類・タイミング・内容に強く依存します。

フィードバックの粒度を粗いものから細かいものへ並べると、まず knowledge of result（KR、結果のみ）があります。「正解」「不正解」だけを返すもので、実装は容易ですが学習効果は限定的です。次が 正答フィードバック で、誤答時に正しい答えを示します。三つ目が 精緻化フィードバック（elaborated feedback）で、なぜその答えが正しいのか、誤答の原因はどこにあるのかを説明します。最も豊かなのが メタ認知的フィードバック で、解法戦略や自己調整の仕方そのものに踏み込みます。

一般則として、精緻化フィードバックは KR より効果的ですが、学習者の前提知識が不足している場合には複雑すぎるフィードバックが理解できず逆効果になりえます。CLT の枠組みで言えば、フィードバック自体が学習者にとっての追加的な認知負荷であり、その負荷が learner の容量を超えれば学習に貢献しません。連立方程式で「符号反転を忘れたから誤答だ」と言われても、移項という概念自体が定着していなければ、その指摘は理解できません。フィードバックの粒度も、課題系列と同様に learner の発達段階に応じて調整される必要があります。

タイミングについても二極の立場があります。即時フィードバック は誤答直後に提供され、誤った手続きが定着する前に修正できるという利点があります。Cognitive Tutor 流のステップごとフィードバックはこちらに属します。一方、遅延フィードバック は課題終了後にまとめて提供され、学習者自身が自分の解答を振り返る余地を残します。これは検索練習や自己説明と組み合わせると効果的で、望ましい困難の原理に整合します。実証的には、単純なスキル習得には即時が、概念理解や問題解決には適度な遅延が有利という棲み分けが概ね支持されています。

探究的学習環境：知識を能動的に再構成させる

ここまでの議論は「教師（あるいはシステム）が課題を提示し、学習者が解く」という構図を前提としてきました。しかし学習活動の設計には、学習者が能動的に環境を操作し、その応答から知識を発見する方向の設計もあります。代表的な二つを取り上げます。

シミュレーションベース学習 は、抽象的な概念を視覚化・操作可能にすることで、概念理解を促します。物理現象（振り子、回路、光学）、生物学的プロセス（細胞分裂、遺伝）、プログラムの実行（変数の値の遷移、再帰呼び出しのスタック）など、本来不可視のメカニズムを可視化し、パラメータを変えて結果を観察できるようにします。学習者は仮説を立て、操作して検証し、因果関係を発見します。CLT の観点から見るとシミュレーションは内在的負荷を増やすため、十分な scaffolding なしに自由探索させると探索負荷で容量が破綻します。実証研究は、適度な制約と段階的な目標提示を伴うシミュレーションが、純粋な自由探索より学習効果が高いことを繰り返し示しています。

Teachable agent（教えるべきエージェント）は、学習者が「他者に教える」という役割を引き受けることで学ぶ環境です。学習者は仮想エージェントに連立方程式の解法を教え、エージェントはその指示に従って問題を解こうとします。エージェントが誤った手順で失敗すると、学習者は自分の説明のどこが不十分だったかを再考します。教えることは自分の理解を外在化することであり、外在化は理解の穴を可視化します。さらに、エージェントの失敗が認知的葛藤として働き、誤概念の修正を促します。Vanderbilt 大学の Betty's Brain などが代表的な実装例で、メタ認知の促進と概念的理解の深化に効果が確認されています。

これら探究的環境はいずれも、学習者が「受け取る側」から「構成する側」に回ることを設計の中心に据えています。CLT の観点では負荷管理が常に課題となりますが、適切な scaffolding と組み合わせれば、worked example 系の系列とは異なる種類の深い学習を生み出せるのです。

まとめ

本章は「学習活動の設計は、認知負荷理論と望ましい困難という二つの軸で操作できる」という主張を貫いてきました。CLT は外在的負荷を最小化し、内在的負荷を学習者の段階に合わせ、関連的負荷をスキーマ構築に振り向けるという、ワーキングメモリ容量からの一貫した処方箋を提供してくれます。望ましい困難の理論はその逆方向から、易しすぎる学習は定着しないという制約を加えます。両者を統合する具体的な道具立てが、worked example から独立解決に至るフェーディングされた課題系列であり、その系列を支えるのがスキャフォルディングと適切な粒度のフィードバックです。シミュレーションや teachable agent といった探究的環境は、同じ二原理を別の角度から実装する選択肢を提供してくれます。

次章への橋渡し

これらすべては、第6章までで形式化された認知構造——概念階層、手続きルール、誤りモデル——に基づいて設計され、学習者ごとに動的に調整されることで初めて、Bloom の 2σ 問題に挑む実用的な学習環境になります。次章では、その「学習者ごとに動的に調整する」仕組みを支える土台として、知的学習支援システム（ITS）の標準アーキテクチャと半世紀の系譜を見ていきます。

さらに学ぶために

Sweller, J., Ayres, P., & Kalyuga, S. (2011). Cognitive Load Theory. Springer. CLT の現在の到達点を体系的に整理した一冊。三負荷モデル、各種効果、expertise reversal などをカバー。
Mayer, R. E. (2009). Multimedia Learning (2nd ed.). Cambridge University Press. マルチメディア教材設計の実証研究を集約。本章で扱えなかった近接原理・一貫性原理・個別化原理など。
Bjork, R. A., & Bjork, E. L. (2011). Making things hard on yourself, but in a good way. In Psychology and the real world. 望ましい困難の概念をやさしく解説した著者自身による総説。

知的学習支援システムの基礎

この章で扱う問い

本章で考えたいのは、「学習者の認知構造を踏まえて支援するシステムを実際に作るとき、どのような骨格を組めばよいのか」という問いです。前章で学習活動の設計原理を扱いましたが、それを動的に動かす器が無ければ「学習者ごとに動的に調整する」という実装には至りません。本章はその器——知的学習支援システム（Intelligent Tutoring System, ITS）の標準アーキテクチャと、半世紀にわたる代表的システムの系譜を扱います。ITS や AIED の研究室を志す読者にとっては基礎の見取り図に、近接領域（学習科学・HCI・認知科学）の読者にとっては「自分の関心がどこに接続するか」を確かめる地図になるよう書きました。各システムが「何を新しくしたのか」「何が限界だったのか」を意識して読んでみてください。

ITS の基本アーキテクチャ

第 1 章で述べた通り、ITS は 1970 年代に誕生しました。当時の Computer-Assisted Instruction（CAI） は分岐型ドリルが中心で、学習者が誤れば固定的なフィードバックを返すだけの仕組みでした。これに対し ITS は、教える内容そのものを計算機が「理解」し、学習者の状態を推論したうえで教授戦略を選択する——という野心的な目標を掲げました。その骨格は半世紀を経た現在でも有効であり、現代のディジタルチューターやアダプティブラーニング基盤も、本質的にはこの枠組みの拡張として理解できます。

4 つの構成要素

ITS の標準的アーキテクチャは、4 つのモジュールから構成されます（図 8-1）。

flowchart LR
    domain[ドメインモデル<br/>専門家の知識]
    student[学習者モデル<br/>知識状態]
    pedagogy[教授モデル<br/>教授戦略]
    interface[インタフェース<br/>UI/UX]
    learner((学習者))

    interface -- 提示 --> learner
    learner -- 入力 --> interface
    interface -- 応答 --> student
    student -- 状態 --> pedagogy
    domain -- 知識 --> pedagogy
    pedagogy -- 指示 --> interface
    domain -.参照.-> student

図 8-1: ITS の 4 構成要素アーキテクチャ。学習者を中心に、4 つのモジュールが協調して適応的学習支援を実現する。

ドメインモデル（Domain Model）は、教えるべき内容——概念、原理、スキル——の知識表現です。すなわち「専門家の知識」のモデルであり、第 4 章で扱ったオントロジーや知識表現がここで活用されます。具体的には、概念の階層構造、それらの間の関係、問題を解くための手続き的知識（プロダクションルールやアルゴリズム）、典型的な誤りとその診断方法、問題生成のためのテンプレートや制約などが含まれます。後述する各システムは、この「専門家の知識をどう表現するか」という問いに対し、意味ネットワーク・定性モデル・プロダクションルール・制約・シミュレータといった多様な解答を与えてきました。

学習者モデル（Student / Learner Model）は、個々の学習者の現在の知識状態・理解度・スキルレベルを表現します。これは適応的支援の基盤であり、主に三つのタイプがあります（図 8-2）。オーバレイモデル（Overlay Model）[Carr1977] は、学習者の知識をドメインモデルの部分集合として表現し、各概念・スキルに習得度（0〜1 のスコアなど）を付与するシンプルな方式です。表現は容易ですが、学習者が誤った知識を持っている場合を扱えません。バグモデル（Bug Model）[Burton1982] は、学習者の体系的な誤り（後述する BUGGY のサブトラクションバグなど）を明示的にモデル化し、診断と修正的フィードバックを可能にします。制約ベースモデル（Constraint-Based Model）は、正しい知識を列挙する代わりに、違反してはならない制約を定義します（詳細は後述）。

flowchart TB
    subgraph overlay["(a) オーバレイモデル"]
        o1[概念A: 習得 ✓]
        o2[概念B: 習得 ✓]
        o3[概念C: 未習得 ✗]
        o4[概念D: 習得 ✓]
    end
    subgraph bug["(b) バグモデル"]
        b1[正: 加法]
        b2[誤: 借り算バグ]
        b3[正: 乗法]
        b4[誤: 桁ずれバグ]
    end
    subgraph cbm["(c) 制約ベースモデル"]
        c1[制約1: 満足 ✓]
        c2[制約2: 満足 ✓]
        c3[制約3: 違反 ✗]
        c4[制約4: 満足 ✓]
    end

図 8-2: 学習者モデルの三つのタイプ。(a) オーバレイは習得／未習得、(b) バグモデルは誤りそのもの、(c) 制約ベースは制約違反を表現する。

教授モデル（Pedagogical / Tutoring Model）は、「いつ、何を、どのように教えるか」という教授戦略を担います。学習者の現在の状態に応じた次課題の選択、自力で進めているときには見守り、つまずいたときに介入する判断、学習者のエラーに対するフィードバック生成、助けを求められたときの段階的ヒント提供などを含みます。教授モデルの設計は、教育学・学習科学の知見（第 3 章）に基づきます。

インタフェース（Interface）は、学習者とシステムの相互作用を実現します。単なる入出力ではなく、学習者の認知負荷を下げ動機づけを高める UI/UX 設計が重要です（第 11 章参照）。

これら 4 つのモジュールは、学習者の応答を受けて学習者モデルを更新し、ドメインモデルと併せて教授モデルが次の行動を決定し、それをインタフェース経由で提示する——というサイクルを形成します（図 8-3）。

flowchart TD
    s1[1: 学習者が問題を解く]
    s2[2: 応答を学習者モデルに入力]
    s3[3: 学習者モデルを更新]
    s4[4: 教授モデルが次の行動を決定]
    s5[5: フィードバック・次課題を提示]

    s1 -->|学習者の応答| s2
    s2 --> s3
    s3 -->|知識状態の推定| s4
    s4 --> s5
    s5 -.サイクル繰り返し.-> s1

図 8-3: ITS モジュール間の相互作用サイクル。学習者の応答に基づいてモデルを更新し、適応的支援を提供する。

古典的 ITS システムの系譜

ITS の歴史は、ad-hoc な分岐型 CAI から始まり、1970 年代の知識ベース型対話システム、1980〜90 年代の認知アーキテクチャに基づくモデルトレーシング系、2000 年代以降のシミュレーション・対話・感情を扱う多様な系へと展開してきました。以下、代表的システムを年代順に取り上げ、それぞれが ITS のどの構成要素を新しくしたのかを追っていきます。

SCHOLAR：混合主導対話の誕生（1970）

BBN（Bolt Beranek and Newman）/MIT の Jaime R. Carbonell による SCHOLAR [Carbonell1970scholar] は、しばしば「最初の ITS」と呼ばれます。題材は南米の地理で、ドメイン知識は意味ネットワーク（"Argentina is-a country", "capital-of Argentina = Buenos Aires" 等）として表現されました。革新は 混合主導対話（mixed-initiative dialogue）——システムだけでなく学習者からも質問・話題転換ができる——を実現した点にあります。

たとえば次のような対話が想定されていました（原論文の例を再構成）。

SCHOLAR: What is the language of Argentina?
STUDENT: Probably Spanish.
SCHOLAR: Very good. Approximately what is the area of Argentina?
STUDENT: Tell me something about Peru.
SCHOLAR: Peru is a country. It is in South America.
         The capital of Peru is Lima. ...

学習者が「アルゼンチンの首都は？」に「サンパウロ」と誤答すれば、SCHOLAR は意味ネットワークを辿って「いいえ、サンパウロはブラジルの都市です」と返せました。一方で、知識は事実の集合に留まり、深い因果や手続きを扱えないという限界があり——この限界が、次の WHY を生みます。

WHY：ソクラテス的対話とメンタルモデル診断（1977）

Albert Stevens と Allan Collins による WHY [Stevens1977] は、「なぜある地域では雨が多いのか」といった気象学の因果を題材に、ソクラテス的対話（Socratic dialogue）を実装しました。ポイントは、誤答を直接訂正せず、学習者自身の信念から導かれる帰結の矛盾を突くことで、誤った因果モデル（メンタルモデル）の修正を促す点です。Stevens & Collins はチューターが用いる対話戦略を「反例の提示」「事例の一般化を問う」「必要条件と十分条件を区別させる」など、いくつかの Socratic tutoring rules に整理しました。

たとえば学習者が「オレゴンでは米作はできない」と言えば、WHY は「オレゴンとよく似た気候のカリフォルニアで米作ができるのはなぜか？」と反問し、学習者が暗黙に置いている前提（気温だけが米作の条件）を露わにします。WHY は ITS が「対話戦略」を独立した研究対象として扱うべきことを示した一方、自由文の理解に強く依存するため、対話の頑健性を保つのが極めて困難でした。

BUGGY と DEBUGGY：誤りは体系的である（1978）

John Seely Brown と Richard Burton の BUGGY／DEBUGGY [Brown1978] は、米国の小学生の引き算における誤りを分析し、子どもの誤りは無作為ではなく 体系的なバグ（systematic bug）——誤った手続きの一貫した適用——であることを示しました。代表的なバグには次のようなものがあります。

Smaller-from-Larger バグ：各桁で常に「小さい方の数から大きい方の数を引く」。
Borrow-from-Zero バグ：上位桁が 0 のとき、繰り下げ処理を誤ってその 0 を 9 にせず、さらに上位への波及も行わない。
Stops-Borrow-at-Zero バグ：0 から繰り下げる必要があるとき、繰り下げ自体をやめてしまう。

BUGGY はこのようなバグを約 100 種類カタログ化し、複数の解答パターンから学習者がどのバグの組み合わせを持つかを診断する手続きを与えました。たとえば次の二問は、同じ Smaller-from-Larger バグが背後にあると診断できます。

  53      82
- 28    - 47
----    ----
  35      45    (正しくは 25 と 35)

BUGGY の貢献は二重です。第一に、学習者モデルとして バグモデル を確立しました。第二に、誤答を「不注意」ではなく「異なるが整合的な手続きの実行」として捉える視点を、認知科学全体に広めました。一方、ライブラリ化されたバグの外側に出る誤り（特に概念誤理解）には弱く、後続の研究は「バグはなぜ生じるのか」という生成論（Repair Theory など）に向かっていきます。

SOPHIE：シミュレーションベース学習の先駆け（1975〜1982）

Brown、Burton、de Kleer による SOPHIE（SOPHisticated Instructional Environment） [Brown1975] は、電子回路（IP-28 電源回路）のトラブルシューティングを教えました。ドメインモデルとして 回路シミュレータ と 定性的因果モデル の両方を備え、学習者は「R8 を短絡したら Q3 のコレクタ電圧はいくらになるか」「故障は CR6 の短絡だと思うが、確かめたい」といった自然言語に近い問い合わせをシミュレータに投げ、結果を観察できました。これは単なる演習ではなく、仮説生成→測定→反証→修正 という探究的な思考プロセス自体を支援するものであり、後の探究学習・モデルベース学習・PBL 系チューターの原型となりました。SOPHIE-III ではエキスパートが学習者の測定戦略を批評する機能まで備えていました。一方で、領域固有の精緻なシミュレータと知識ベースを必要とするため、他領域への移植コストが極めて高かったのです。

GUIDON / NEOMYCIN：エキスパートシステムを「教えるシステム」に変える困難（1979〜1987）

William Clancey の GUIDON [Clancey1987] は、感染症診断のエキスパートシステム MYCIN のルール群をそのまま教材として、医学生に診断推論を教える試みでした。しかし結果は失敗でした。MYCIN のルールは「診断結論を計算する」ためには最適化されていても、「人間が理解しやすい形で因果と戦略を説明する」ためには整理されていなかったのです。たとえば「グラム陰性菌の同定」というルールには、生物学的因果・経験則・ヒューリスティックな探索戦略・データ取得コストの考慮が、ひとつのルールに圧縮されていました。

この反省から Clancey は NEOMYCIN を再設計し、診断ストラテジー（タスク階層）と領域知識（疾患・症候の関係）を分離しました。さらに教育的説明には、患者データ→仮説→鑑別診断→確証検査という 明示的な診断戦略 を表面化する必要があると論じました。GUIDON / NEOMYCIN の経験は、「専門家の問題解決能力」と「専門家が初学者に教える能力」は別物であり、ITS のドメインモデルは後者のために再構成されなければならない——という、現在まで生きる教訓を残してくれました。

LISP Tutor から Cognitive Tutor へ：認知アーキテクチャに支えられたモデルトレーシング（1980 年代〜）

John Anderson らによる一連のチューター——LISP Tutor（1984）、Geometry Tutor（1985）、そして数学版 Algebra / Cognitive Tutor（1990 年代以降）——は、ITS の歴史における第二の転換点です。これらは Anderson の ACT-R 認知理論 [Anderson1995] に立脚し、ドメインモデルを プロダクションルール の集合として、学習者モデルを「各ルールの習得確率」として表現しました（第 2・9 章参照）。

教授戦略の中核は モデルトレーシング（model tracing）です。学習者が問題を解く各ステップを、ドメインモデルのプロダクションルール集合と逐一照合します。一致するルールがあればそのステップを正しいと認め、どのルールとも一致しなければ即座に介入します。複数のルールに一致する場合は、いずれの解法も許容します。

即座のフィードバック：誤りが定着する前に修正できます。
ヒントの段階化：当該ステップに対応するルールから、抽象的→具体的なヒントを生成できます。
知識トレーシング [Corbett1995]：ルール単位の習得確率をベイズ更新することで、習得スキルと未習得スキルを区別できます（第 9 章で詳述）。

Cognitive Tutor は実際に米国の中高で広く採用され、評価研究では従来授業に対して効果量がしばしば 0.3〜1.0σ の範囲で報告されています（領域や評価方法により差は大きいです）。研究室の中の概念実証ではなく、実教室で運用された ITS として、現在に至る Carnegie Learning 社のプラットフォームへと連なるものです。一方、各ステップを記述するプロダクションルールの作成コスト（いわゆる authoring bottleneck）は依然として高く、後の 制約ベースモデリング や 例題ベース学習 はこれへの応答という側面を持っています。

Andes：物理問題のためのオープンエンドな解法支援（2000 年代）

ピッツバーグ大学・米海軍兵学校で開発された Andes [VanLehn2005] は、大学初年次の力学を題材とした ITS で、紙と鉛筆に近い操作感を保ちつつ、フォース図の作成・式の立式・代数操作を一体的に支援します。Andes はモデルトレーシングを「ステップごとの厳密な系列照合」から緩めて、学習者が任意の順序で図形要素や方程式を入力できる flexible step-based tutoring を実現しました。SLOPES と呼ばれる枠組みでは、学習者の入力が物理的・数学的に妥当か（自由体図に必要な力が揃っているか、立てた式が次元的に正しいか等）を制約として評価し、求めに応じて段階的ヒントを返します。米海軍兵学校での比較実験で、Andes 利用群は従来宿題群より到達度が有意に高いことが報告されました。Andes は、Cognitive Tutor 系の厳密モデルトレーシングと、後述の制約ベースモデリングの中間に位置する設計として位置づけられます。

Error-based Simulation と Monsakun：学習者の「誤った信念」を可視化する（日本発）

日本における代表的な ITS 研究として、広島大学・平嶋らによる二系統が知られています。第一は Error-based Simulation（ES） [Hirashima2009] で、初等力学などの誤概念修正を狙うものです。学習者にまず「自分の予測」を入力させ、シミュレータがその学習者自身の誤った信念どおりに振る舞った場合の世界を可視化します。たとえば「動いている物体には常に進行方向の力が必要」という誤概念を持つ学習者には、その信念に従った場合に起きる非現実的な挙動（手を離した瞬間に物体が止まる等）を見せ、現実との不整合を体感させるわけです。正解を提示する のではなく、学習者の信念の帰結を提示する 点が、伝統的な訂正型フィードバックと根本的に異なります。

第二は モンサクン（Monsakun） [Hirashima2014] で、算数の文章題を解くのではなく 作らせる（problem posing）プラットフォームです。学習者は与えられた条件（数値、関係、求めるもの）を満たすように、文カードを並べて文章題を構成します。問題作成には文章題の構造（増加・減少・差・比較などの関係スキーマ）を理解していることが必要なため、解くだけでは表面化しない構造的理解の弱さが露わになります。学校現場での長期導入研究も多数行われ、解決能力と作問能力の双方向的な向上が報告されています。両システムは、ITS が「正解への誘導」だけでなく「学習者の思考を外化させる足場」としても機能しうることを示した重要な仕事です。具体例は16章でもう少し詳しく扱います。

AutoTutor：自然言語対話と感情への接近（2000 年代〜）

Arthur Graesser らの AutoTutor [Graesser2004] は、コンピュータリテラシや物理を題材に、人間チューターの対話戦略を計算機上で再現することを目指しました。学習者の自由記述応答に対し、Latent Semantic Analysis（LSA） 等で「期待された解答」「典型的な誤解」との意味的近さを計算し、それに応じて prompt、hint、assertion、correction といった 対話ムーブ を選択します。アニメーション・エージェントが自然言語で対話を主導する点で、SCHOLAR/WHY の系譜を現代的に拡張したと言えます。後継版（AutoTutor with Affect、Affective AutoTutor）では、表情・姿勢・対話履歴から退屈・混乱・フラストレーションといった 学習感情 を推定し、対話戦略を切り替える研究も行われました。これは第 13 章で扱う情意・動機づけ支援の先駆けでもあります。

モデルトレーシングを概念として整理する

これまでに登場したシステムのうち、Cognitive Tutor 系と Andes は、いずれも「学習者の各ステップをドメイン側の手続き的記述と照合する」というモデルトレーシングの枠組みに属します（図 8-4）。モデルトレーシングは詳細な診断と段階的ガイダンスを可能にする一方、ドメインのすべての解法をプロダクションルールとして記述するコストが課題となります。そのため、適用領域は手順が比較的明確な領域——代数、初等プログラミング、力学の標準問題——が中心となってきました。

flowchart TD
    step["学習者のステップ<br/>例: x = (−b + √(b²−4ac)) / 2a"]
    rules[プロダクションルール集合<br/>すべての正しい解法を記述]
    match[ステップとルールの照合]
    correct[ルールと一致 → 正解]
    error[不一致 → エラー]
    feedback[即座のフィードバック<br/>詳細な診断・段階的ガイダンス]

    step --> rules
    rules --> match
    match --> correct
    match --> error
    correct --> feedback
    error --> feedback

図 8-4: モデルトレーシングのアプローチ。高コストだが詳細な診断と固定的な手順に強い。

制約ベースモデリング

Stellan Ohlsson による 制約ベースモデリング（Constraint-Based Modeling, CBM） [Ohlsson1994] は、モデルトレーシングとは対照的なアプローチを取ります。CBM では「正しい解法をすべて列挙する」のではなく、「違反してはならない制約」を定義します。たとえばデータベース設計のチューター SQL-Tutor では、「主キーは NULL 値を持ってはならない」「外部キーは参照先テーブルに存在する値でなければならない」「第 3 正規形に違反してはならない」といった制約を数百個記述しておき、学習者の解答が制約に違反すれば、違反した制約をフィードバックします（図 8-5）。

flowchart TD
    solution[学習者の解答全体<br/>例: データベース設計]
    constraints[制約集合<br/>違反してはならない条件を列挙]
    check[制約違反のチェック]
    ok[制約を満たす → 正解]
    violation[制約違反 → エラー]
    feedback[フィードバック<br/>違反した制約を指摘]

    solution --> constraints
    constraints --> check
    check --> ok
    check --> violation
    ok --> feedback
    violation --> feedback

図 8-5: 制約ベースモデリングのアプローチ。記述コストが低く、多様な解法を許容できる一方、診断の粒度は粗い。

両アプローチは補完的です。モデルトレーシングは詳細な診断と段階的ガイダンスに優れますが、解法をすべて手続きとして記述するコストが高く、適用は手順が定まった領域に向きます。CBM は記述コストが低く、解法の多様性に対応できますが、診断の粒度が粗くなりがちで、段階的ヒントが難しいという特徴があります。作文・データベース設計・UI 設計・設計図の評価のように「正解が一意でない」領域では CBM が、代数・幾何・初等プログラミングのように手順が明確な領域ではモデルトレーシングが、それぞれ自然に選ばれてきました。

ITS の現代的発展

オープンラーナーモデル（Open Learner Model） [Bull2007] は、従来システム内部に閉じていた学習者モデルを学習者本人に可視化する試みです。学習者は自らの理解状態を客観視でき、メタ認知（第 12 章）が促されます。

協調学習への拡張も進んでいます。複数の学習者がオンラインで協働して問題を解く際、システムは発話・操作のログから相互作用の質を分析し、議論の停滞や役割の偏りを検知してファシリテーションを行います（第 14 章 CSCL）。

2010 年代の MOOCs の普及は、数万〜数十万人規模の学習ログを利用可能にしました。これにより、知識トレーシング・項目反応理論・ニューラルベースの Deep Knowledge Tracing など、データ駆動型の学習者モデリングが実用域に入りました。古典的 ITS が「専門家の知識を手で書く」ことから出発したのに対し、現代のシステムは「大量の学習者の挙動から知識構造を学ぶ」方向と、それを古典的アーキテクチャと統合する方向を、同時に追求しています。

まとめ

本章では、ITS の標準アーキテクチャ（ドメイン・学習者・教授・インタフェース）を骨格として、半世紀にわたる代表的システムの系譜を辿りました。SCHOLAR は意味ネットワーク上の混合主導対話を、WHY はソクラテス的対話戦略を、BUGGY は誤りの体系性とバグモデルを、SOPHIE はシミュレーションベース学習を、GUIDON/NEOMYCIN は「専門家の知識」と「教えるための知識」の差異を、Anderson 系のモデルトレーシング型チューターは認知アーキテクチャに支えられた厳密な追跡と即座のフィードバックを、Andes はその柔軟化を、Error-based Simulation と Monsakun は誤った信念や問題構造を外化する日本発の方向を、AutoTutor は自然言語対話と感情への拡張を、それぞれもたらしました。

これらは決して時代遅れの「歴史」ではなく、現在のディジタルチューターやアダプティブラーニング基盤の中に、意匠を変えて受け継がれています。本書の観点からは、これらのシステムはいずれも 形式化された認知構造（第 6 章）——専門家の知識・学習者の知識状態・教授戦略——を計算機上に書き下す試みとして読み直すことができます。

ここに挙げたシステム群を文献として追ってみたい方には、姉妹編「研究の一歩目」の文献調査章が役に立ちます——全体像→焦点→ギャップという三段階で読むと、ITS の半世紀の系譜が「自分の問いに直接効く部分」と「歴史的な前提として押さえておく部分」に綺麗に切り分けられるはずです。

次章への橋渡し

本章で繰り返し登場した 学習者モデリング を、次章では中心テーマとして取り上げ、ベイジアン知識トレーシング、項目反応理論、Deep Knowledge Tracing といった具体的手法を整理していきます。

さらに学ぶために

Woolf, B. P. (2009). Building Intelligent Interactive Tutors. Morgan Kaufmann.
Anderson, J. R., et al. (1995). Cognitive tutors: Lessons learned. Journal of the Learning Sciences, 4(2), 167–207.
Ohlsson, S. (1994). Constraint-based student modelling. In Student Modelling (pp. 167–189). Springer.
VanLehn, K. (2006). The behavior of tutoring systems. International Journal of Artificial Intelligence in Education, 16(3), 227–265.
Sottilare, R. A., et al. (Eds.) (2013–2018). Design Recommendations for Intelligent Tutoring Systems, Vols. 1–6. U.S. Army Research Laboratory.

学習者モデリングの実践

この章で扱う問い

学習者の頭の中で何が起きているかを直接覗き込むことはできません。僕たちがアクセスできるのは、解答、所要時間、ヒントの要求、視線、発話といった外側に滲み出した行動だけです。本章で考えたいのは、「この限られた窓越しに、学習者の内的な知識状態をどう推測し、どう更新していくか」という問いです。これは適応的支援の根拠を支える計算的基盤であり、前章の ITS アーキテクチャの中核でもあります。学習者モデリングや知識追跡を実装したい読者、データ駆動の学習解析（LA/EDM）に関心のある読者には、本章の手法がそのまま研究の入口として役立つはずです。本章は、なぜそれが本質的に難しい問題なのかを確認したうえで、オーバーレイ・摂動・制約ベースという古典的表現から、ベイジアン知識追跡（BKT）、Performance Factors Analysis (PFA)、深層知識追跡（DKT）、項目応答理論（IRT）までを、説明可能性と精度のトレードオフに沿って整理します。

なぜ学習者モデリングは難しいのか

学習者モデル（student model, learner model）は、個々の学習者の知識、スキル、認知特性、学習履歴を計算機上で表現したものです。SCHOLAR [Carbonell1970scholar] 以来、知的学習支援システム（ITS）の中核的構成要素として研究されてきました。しかしその構築は、いくつかの本質的な困難を抱えています。

第一に、推定対象である 知識状態は潜在変数 です。「方程式 $2 x + 3 = 7$ を解けるか」と尋ねることはできても、それに正答した学習者が一次方程式一般を理解しているのか、それともこの一問だけを偶然解けたのかは、外からは区別できません。逆に誤答した学習者が、概念を理解していないのか、計算ミス（slip）をしただけなのかも区別がつきません。観察可能な行動と内的状態の関係は、決定論的ではなく確率的です。

第二に、信号が疎 です。学習者は一回のセッションで数問しか解かないことも多く、ある特定の知識要素について得られる証拠は数件しかないことも珍しくありません。少数のサンプルから内的状態を推定するという統計的に難しい設定が、学習者モデリングの常態です。

第三に、同じ観察を説明する内的状態は複数あり得る という問題があります。誤答に対して「未習得」「スリップ」「問題文の誤読」「動機の低下」など、複数の説明が両立してしまうのです。この意味で、学習者モデリングは典型的な不良設定問題（ill-posed problem）です。実用的な学習者モデルは、領域知識や学習過程に関する仮定を導入してこの曖昧さを縮減します。BKT が「習得状態は不可逆」「観測は二値」と仮定するのも、IRT が「能力は一次元の連続変数」と仮定するのも、すべてこの同定可能性を確保するための工夫です。

これらの困難は、モデリング手法の選択に直接影響します。表現を細かくすれば診断は精密になりますが推定は不安定になり、表現を粗くすれば推定は安定しますが診断粒度を失います。本章で扱う各手法は、このスペクトラム上のどこかに位置しているわけです。

学習者モデルが捉える側面

学習者モデルが何を表現するかは、システムの目的に依存します。実用上は、知識状態、誤概念、メタ認知、情動という四つの側面が代表的な構成要素となります。これらは独立に存在するわけではなく、互いに相互作用しながら学習行動を生み出しています。

知識状態とその粒度

知識状態は学習者モデルの最も基本的な構成要素であり、ドメインの各概念やスキルをどの程度習得しているかを表します。表現としては、「習得済み／未習得」の二値、 $[0, 1]$ 区間の連続値、確率分布などがあり得ます。連続値や確率分布を採用する利点は、「ほぼ習得したが時々間違える」「半分は理解している」といった中間状態を扱える点です。

設計上のもう一つの判断は粒度（granularity）です。「代数」全体を一つの値で表す粗い粒度から、「 $a x + b = c$ 型方程式の移項」「正負の符号処理」といった微細なスキル単位まで分解する細かい粒度まで、連続的な選択があります。Cognitive Tutor のような実用システムは、各問題ステップを数十から数百の知識要素（Knowledge Component, KC）に分解しています。粒度を細かくすれば、どこで詰まっているかを精密に診断でき、習得済みのスキルを反復させずに済みます。一方で、各 KC について得られる観察は減るため、推定は不安定になり、KC 間の関係を考慮しないと冗長な学習を強いることもあります。粒度の選択は、データ量・診断精度・解釈性のバランスとして決まります。

誤概念と典型的誤りの体系化

学習者は単に正しい知識を欠いているだけでなく、しばしば 間違った知識を持っています。物理学における「重い物体は軽い物体より速く落ちる」という素朴理論や、算数における $\frac{1}{2} + \frac{1}{3} = \frac{2}{5}$ のような分数演算の誤りは、いずれも体系的な誤った規則の適用から生じるものです。

VanLehn [VanLehn1990] は引き算における学習者の誤りを大規模に分析し、不完全な手続き的知識を学習者が「修復（repair）」しようとした結果として、体系的な誤りパターンが現れることを示しました。これらは「バグ（bugs）」と呼ばれ、引き算だけで数百のバグが同定されています。誤概念や典型的誤りを学習者モデルに明示的に組み込むと、「答えが違う」と指摘するだけでなく「なぜその誤りが生じたか」を診断でき、誤った内的規則そのものに介入する設計が可能になります。

メタ認知と情動

知識状態だけが学習を決めるわけではありません。学習者がどのように自分の理解をモニタリングし、どの方略を選び、いつヒントを求めるかというメタ認知能力は、学習成果と強く関連します。Roll et al. [Roll2011] は、Cognitive Tutor において学習者のヘルプ要求パターンを分析し、適切なタイミングでヒントを求める学習者ほど学習成果が高いことを示しました。逆に、すぐにヒントに頼る「help abuse」と、困難に直面しても求めない「help avoidance」はいずれも学習効果を下げます。Kruger and Dunning [Kruger1999] が示したように、自己評価そのものが系統的に歪むこともあります。

情動状態も無視できません。D'Mello et al. [DMello2008] は、AutoTutor との対話中の学習者の状態を「集中」「混乱」「退屈」「フラストレーション」などに分類し、これらが学習成果と関連することを示しました。とりわけ 適度な混乱は学習を促進します。既存の理解と新しい情報のあいだに不一致が生じている兆候だからです。しかし混乱が解消されないまま長く続くとフラストレーションや諦めに転化します。学習者モデルが情動を捉えられれば、介入のタイミングをより適切に決められるでしょう。

学習者の知識をどう表現するか

知識状態の表現方法は、ドメイン知識との関係をどう捉えるかによって三つの古典的アプローチに大別されます。それぞれが「学習者の知識とは何か」についての異なるオントロジーを背景に持っています。

オーバーレイ：専門家知識の部分集合として

オーバーレイモデル（overlay model）は最も基本的な形式で、専門家が持つべき知識を基準としたうえで、学習者の知識をその部分集合として表します。ドメインモデルが「一次方程式」「二次方程式」「連立方程式」という三つの KC で構成されているなら、学習者モデルは各 KC に習熟度を割り当てます。実装が単純で、ドメインモデルと学習者モデルの構造が一致するため対応が明確です。

しかし、学習者は専門家知識の一部を欠いているだけではありません。誤った知識を持っていることもあり、純粋なオーバーレイモデルではこれを表現できません。「分かっていない」と「間違って分かっている」を同じく「未習得」として扱ってしまうのです。オーバーレイは、誤りが体系的でないドメイン、あるいは粒度が粗くて誤概念を区別する必要がない用途では有効ですが、誤概念診断には別の枠組みが必要となります。

摂動：正しい知識＋バグ

摂動モデル（perturbation model）は、オーバーレイの限界を克服するために、学習者の知識を「正しい知識＋誤った知識（バグ）」として表現します。Brown and Burton の DEBUGGY/BUGGY システム [Burton1982] は古典的な例で、小学生の引き算における体系的な誤りを診断します。例えば「smaller-from-larger」というバグは、「繰り下がりのある桁で、下の数が上の数より大きいとき、上下を逆にして引く」という誤った規則の適用です。このバグを持つ学習者は「 $347 - 182$ 」を計算するとき、十の位で $4 - 8$ ではなく $8 - 4$ を計算してしまい、結果として $235$ という体系的な誤答を示します。

摂動モデルの強みは、誤答を単なるノイズではなく、構造化された情報 として扱える点にあります。学習者が同じバグを繰り返していれば、システムはその誤った規則そのものを標的とした介入ができます。一方、想定されるバグを事前にカタログ化する労力は大きく、未知のバグには対応できません。引き算のような閉じた手続き的領域では成功しましたが、より開かれた領域では網羅的なバグカタログ作成が現実的でないことが多くあります。

制約ベース：解の正しさを保証する制約集合

Ohlsson [Ohlsson1994] が提案し、Mitrovic [Mitrovic2003] が発展させた制約ベースモデリング（Constraint-Based Modeling, CBM）は、視点を逆転させます。手続き的知識を明示的にモデル化するのではなく、正しい解が満たすべき制約の集合 として領域知識を表現します。SQL 問合せの学習であれば「WHERE 句で参照される列は FROM 句のテーブルに存在しなければならない」「集約関数を使う列以外は GROUP BY 句に含めねばならない」といった制約を列挙します。学習者の解答が制約に違反していれば、対応する知識要素が未習得と推測されるわけです。

CBM の実用上の強みは、学習者の解法経路を逐一追跡しなくてよい点にあります。モデル追跡では、学習者の各ステップを専門家の解法と照合する必要がありますが、CBM では最終解答が制約を満たすかだけを確認すればよいのです。これによりモデル構築コストが大幅に下がります。SQL-Tutor [Mitrovic2003] は数百の制約を用いて SQL の学習を支援し、実授業で効果が実証されています。課題は適切な制約集合の同定であり、制約が多すぎれば管理困難、少なすぎれば診断粒度が粗くなります。

これら三つのアプローチは、知識を「不足」「誤り」「制約違反」のどれとして見るかが異なりますが、いずれも記号的・離散的な表現に依拠しています。次節で扱うベイジアン知識追跡や DKT は、これを確率的・連続的な表現に拡張する系譜です。

モデル更新：BKT と知識追跡の系譜

学習者モデルは静的ではなく、学習者が問題を解くたびに更新されねばなりません。「正答した／誤答した」という観察から、潜在的な習得状態をどう更新するか——これが 知識追跡（knowledge tracing） の問題です。

Bayesian Knowledge Tracing：四つのパラメータ

Corbett and Anderson [Corbett1995] のベイジアン知識追跡（BKT）は、各 KC について学習者が習得しているかどうかを二値の隠れ状態とする隠れマルコフモデル（HMM）として定式化されます。状態は「未習得」と「習得」の二つで、習得状態は不可逆（一度習得したら忘れない）と仮定します。各時点で観測される正答／誤答は、隠れ状態から確率的に生成されます。BKT が扱うパラメータは次の四つです。

$P (L_{0})$ ：初期習得確率。学習開始時点で KC を既に習得している確率です。
$P (T)$ ：学習機会転移確率。一度の練習機会で未習得から習得へ遷移する確率です。
$P (S)$ ：スリップ確率。習得しているのに誤答してしまう確率です。
$P (G)$ ：推測確率。習得していないのに偶然正答してしまう確率です。

flowchart LR
    U["未習得<br/>(latent)"]
    L["習得<br/>(latent)"]
    U -- "P(T)" --> L
    U -- "1-P(T)" --> U
    L -- "1.0" --> L
    U -. "正答 P(G)" .-> OU1["観測"]
    U -. "誤答 1-P(G)" .-> OU1
    L -. "正答 1-P(S)" .-> OL1["観測"]
    L -. "誤答 P(S)" .-> OL1

図 9-1: Bayesian Knowledge Tracing (BKT)の状態遷移モデル。隠れ状態（習得／未習得）の間を $P (T)$ で遷移し、各状態から観測（正答／誤答）が確率的に生成される。

正答を観測したときの事後確率はベイズの定理から次のように計算されます。

$P (L_{n} ∣ correct) = \frac{P ( L _{n - 1} ) ( 1 - P ( S ))}{P ( L _{n - 1} ) ( 1 - P ( S )) + ( 1 - P ( L _{n - 1} )) P ( G )}$

その上で、次の練習機会を経ることで習得確率が転移によって増加します。

$P (L_{n + 1}) = P (L_{n} ∣ obs) + (1 - P (L_{n} ∣ obs)) P (T)$

具体的に数値を入れて見てみましょう。Corbett and Anderson が LISP・代数系チューターで報告した代表的な値に近いパラメータとして、 $P (L_{0}) = 0.3$ 、 $P (T) = 0.2$ 、 $P (S) = 0.1$ 、 $P (G) = 0.2$ を取ります。学習者がまず一問正答したとします。事後確率は

$P (L_{1} ∣ correct) = \frac{0.3 \times 0.9}{0.3 \times 0.9 + 0.7 \times 0.2} = \frac{0.27}{0.41} \approx 0.659$

となり、転移を考慮した次の時点の事前確率は $0.659 + (1 - 0.659) \times 0.2 \approx 0.727$ です。続いて誤答を観測すれば

$P (L_{2} ∣ incorrect) = \frac{P ( L _{1} ) \times P ( S )}{P ( L _{1} ) \times P ( S ) + ( 1 - P ( L _{1} )) \times ( 1 - P ( G ))} = \frac{0.727 \times 0.1}{0.727 \times 0.1 + 0.273 \times 0.8} \approx 0.250$

と、一問の誤答で習得確率は大きく下がります。次に再び正答すれば $0.737$ 程度まで戻ります。 $P (S)$ が低く $P (G)$ が高いほど、誤答は強い証拠となり、正答は弱い証拠となります。BKT のパラメータは単なる適合のための数値ではなく、各 KC の性質（スリップしやすいか、推測されやすいか、習得に時間がかかるか）を解釈可能な形で要約してくれます。Cognitive Tutor はこの習得確率が一定の閾値（典型的には 0.95）を超えるまで同じ KC の練習を続けさせる「mastery learning」を実装しています。

BKT の限界は、各 KC を独立に扱い、KC 間の依存関係や学習者の個人差をモデル化しない点にあります。これに対して、Pardos らの個人化 BKT [Pardos2010] は学習者ごとに $P (L_{0})$ をパーソナライズし、Yudelson らはさらに $P (T)$ も個人差に応じて学習することを試みました。

Performance Factors Analysis：ロジスティック回帰としての知識追跡

Pavlik et al. の Performance Factors Analysis (PFA, 2009) は、BKT とは異なる定式化を採ります。PFA は知識追跡をロジスティック回帰問題として捉え、ある時点で KC $j$ を含む問題に正答する確率を、これまでの 成功回数 と 失敗回数 の線形和で予測します。

$logit p = β_{j} + j \sum (γ_{j} s_{ij} + ρ_{j} f_{ij})$

ここで $s_{ij}$ と $f_{ij}$ はそれぞれ学習者 $i$ が KC $j$ について過去に正答／誤答した回数、 $β_{j}$ はその KC の基本難易度、 $γ_{j}$ と $ρ_{j}$ は成功と失敗それぞれが習得に与える効果の係数です。例えば $γ_{j} > ρ_{j}$ であれば「正答からの方が誤答からよりも学べる」KC、その逆であれば「失敗から学ぶ」KC ということになります。

PFA の強みは、BKT が扱えなかった 複数 KC を含む問題 を自然に扱える点と、解釈可能なまま個人差や問題ごとの効果を取り込める点です。一つの問題が複数の KC を要求する場合でも、各 KC の成功・失敗カウントを足し合わせるだけで済みます。実証研究では、PFA は多くのデータセットで BKT と同等以上の予測精度を示すことが報告されています。一方で、PFA は順序情報を直接扱わず（成功と失敗の総数のみを使う）、最近の応答が古い応答と同じ重みで扱われる点には批判もあります。

Deep Knowledge Tracing：表現を学習する

Piech et al. [Piech2015] の Deep Knowledge Tracing (DKT) は、知識追跡を再帰型ニューラルネットワーク（典型的には LSTM）の系列予測問題として再定式化しました。入力は $(問題 I D, 正答 / 誤答)$ のペアの系列、出力は次の問題での正答確率です。LSTM の隠れ状態が、学習者の知識状態を陽に名前付けされない形で表現します。

DKT の利点は、KC の定義を人手で与える必要がないこと、KC 間の依存関係を自動的に捉え得ること、そして実証的に BKT を上回る予測精度を示すことが多い点です。一方、隠れ状態が何を表現しているかは解釈困難であり、「この KC の習得確率はいくら」という診断的な質問に答えることは BKT ほど自然ではありません。Xiong et al. [Xiong2016] は、DKT が BKT より優れて見える結果の一部はデータ前処理の差に由来することを指摘し、両者の比較は依然として論争的です。

DKT のもう一つの問題は、出力した正答確率の系列が時として一貫性を欠くことです。例えば、ある問題に正答した直後にその KC の習得確率が下がる、という BKT では起こり得ない振る舞いが報告されています。これに対する応答として、DKT にメモリ機構を加えた Dynamic Key-Value Memory Networks や、Transformer ベースの Self-Attentive Knowledge Tracing が提案され、解釈性と精度の両立が試みられています（第12章参照）。

ここに、本章を貫くトレードオフが現れます。BKT は少数の解釈可能なパラメータと明確な隠れ状態を提供し、教師や学習者にも説明しやすいモデルです。DKT は表現力と予測精度を取る代わりに、説明可能性を犠牲にします。「学習者の知識をどう表現するか」という選択は、技術的選好の問題ではなく、システムが何を説明できるべきかという要件によって決まるのです。

項目応答理論：能力の連続的推定

知識追跡が 特定の KC 群の習得状態の時系列 を追うのに対し、項目応答理論（Item Response Theory, IRT）[Lord1968] は 学習者の能力 という一次元の潜在変数を点推定することを目的とします。最も単純な2パラメータロジスティックモデルでは、学習者 $i$ が問題 $j$ に正答する確率を

$P (X_{ij} = 1 ∣ θ_{i}, a_{j}, b_{j}) = \frac{1}{1 + exp ( - a _{j} ( θ _{i} - b _{j} ))}$

と表現します。ここで $θ_{i}$ は学習者の能力、 $b_{j}$ は問題の難易度、 $a_{j}$ は問題の識別力です。 $θ_{i} = b_{j}$ で正答確率は 0.5 となり、 $a_{j}$ が大きいほど能力差が正答確率に強く反映されます。

IRT は、もともとは大規模試験の評価理論として発展しましたが、適応的テスト（Computerized Adaptive Testing, CAT）の基盤として学習支援にも応用されています。CAT では、学習者の能力推定値 $\hat{θ}$ に近い難易度の問題を逐次選び、推定の不確実性が一定以下になった時点で測定を打ち切ります。これにより、固定数の問題を解かせる伝統的テストよりも少ない出題で同程度の精度を達成できます。

IRT と知識追跡は補完的です。IRT は「この学習者の総合能力はどの程度か」を簡潔に答え、BKT や DKT は「どの KC を習得しているか」を詳細に答えます。診断的支援には知識追跡が必要ですが、能力の総括的評価には IRT の単純さが有利です。

モデルの利用と評価

構築された学習者モデルは、適応的支援の基盤として利用されます。第10章で本格的に扱う適応の各次元——次の問題の選択、ヒントの個別化、習得判定と進度制御——はすべて学習者モデルの推定値を入力とします。例えば BKT の習得確率は mastery learning の判定基準として直接使えます。CBM の違反制約はフィードバック内容そのものを決めます。DKT の予測確率は、次に提示すべき問題の困難度の調整に使えます。

モデルの良し悪しは三つの観点から評価されます。予測精度 は次の問題での正答確率の予測を AUC や RMSE で評価するもので、最も直接的ですが、予測精度が高いことが必ずしも教育効果につながるとは限りません。診断の正確性 は推定された知識状態が真の理解度とどれだけ一致するかであり、独立した事後テストとの相関で間接的に評価されます。支援の効果 は、学習者モデルに基づく適応的支援が学習成果を実際に向上させるかをランダム化比較試験で評価します。最終的には三つ目の観点が決定的ですが、コストが高く実施できる研究は限られています。多くの実用システムは予測精度の改善を間接的な指標として用いています。

まとめ

学習者の知識状態は外から直接見えない潜在変数であり、疎で曖昧な観察からそれを推論しなければなりません。本章では、この本質的な困難に対する応答として、表現の選び方によって異なる三つの古典的アプローチ（オーバーレイ、摂動、制約ベース）と、推論方法として位置づけられる知識追跡の系譜（BKT、PFA、DKT）、そして能力の総括的評価に強い IRT を見てきました。一貫していたのは、説明可能性と予測精度のトレードオフ です。BKT や CBM はパラメータや制約が解釈可能で教師や学習者に説明できる代わりに、表現力に限界があります。DKT は表現力と予測精度を取る代わりに、隠れ状態の解釈を諦めます。どちらが正解というわけではなく、システムが何を提供すべきかによって適切な位置取りが決まるわけです。

次章への橋渡し

学習者の状態を推定できたら、次はそれを使って何をするかが問題になります。第10章では、適応的学習支援の設計を扱います。学習者モデルの推定値に基づいて何を提示するかを動的に決めるという行為を、適応の粒度（マクロ・ミクロ・即時）と次元（内容・順序・難易度・支援量）の二軸で整理し、その設計判断と効果の限界を見ていきましょう。

さらに学ぶために

Corbett, A. T., & Anderson, J. R. (1995). Knowledge tracing: Modeling the acquisition of procedural knowledge. User Modeling and User-Adapted Interaction, 4(4), 253-278.
Mitrovic, A., Martin, B., & Suraweera, P. (2007). Intelligent tutors for all: The constraint-based approach. IEEE Intelligent Systems, 22(4), 38-45.
Piech, C., et al. (2015). Deep knowledge tracing. Advances in Neural Information Processing Systems, 28.
Pavlik, P. I., Cen, H., & Koedinger, K. R. (2009). Performance Factors Analysis — A new alternative to knowledge tracing. Proceedings of AIED 2009.

適応的学習支援の設計

この章で扱う問い

学習者モデルが推定した内的状態は、それ自体では学習を促進してくれません。本章で一緒に考えたいのは、「その推定に基づいて、何をどのタイミングで提示するかを、どう動的に決めるのか」という問いです。教材を出す順序、ヒントの量、難易度、進度の管理——これらすべてを学習者の状態に合わせて変える設計問題が、適応的学習支援です。AIED や ITS、アダプティブラーニング基盤に関心のあるあなたにとっては中核となる章ですし、HCI や教育心理の側から関わるあなたにとっても「適応の限界」を理解する手がかりになるはずです。本章では、適応の粒度（マクロ・ミクロ・即時）と次元（内容・順序・難易度・支援量）の二軸で設計を整理し、過剰適応・自律性・透明性という適応そのものの限界も併せて見ていきます。

適応とは何か：定義と動機づけ

適応的学習支援システムとは、個々の学習者の知識、能力、目標、状況に応じて、学習内容・提示方法・支援水準などを動的に調整するシステムです。「動的に」というのが重要で、事前にコース全体を設計しておくのではなく、学習者の現時点の状態を測りながらその場で次の手を決めます。この意味で適応は、学習者モデルの推定を入力として教育的決定を出力する 制御問題 として定式化できます。

適応への動機づけは Bloom [Bloom1984] の「2シグマ問題」に遡ります。Bloom は、一対一の個別指導と熟達学習（mastery learning）を組み合わせた条件下で学習した生徒が、通常の集団授業を受けた生徒よりも約 2 標準偏差高い成績を示すこと——個別指導群の中央値が一斉授業群の上位約 2 % に到達する——を報告しました。Bloom はこう問います——「集団教育の条件下で、個別指導に近い効果を達成できるか」。すべての学習者に人間の家庭教師を付けることは現実的ではありませんが、コンピュータシステムなら多数の学習者に同時に個別化された支援を提供できます。これが適応的学習支援の社会的・経済的動機です。

VanLehn [VanLehn2011] は、ITS、人間個別指導、通常授業を比較したメタ分析で、ITS の効果量は通常授業に対しておよそ $d \approx 0.76$ 、人間個別指導は $d \approx 0.79$ で、両者の差は統計的に有意ではないと結論づけました。コストとスケーラビリティを考えれば、ITS は個別指導と同等の教育効果を桁違いに広い母集団に提供できる手段、ということになります。本章で扱う適応の設計判断は、すべてこの可能性をどう具体化するかに関わるものです。

適応の粒度：マクロ・ミクロ・即時

Park and Lee [Park2004] はマクロ適応とミクロ適応を区別しましたが、現代の ITS ではこれをさらに「即時適応」まで含めた三層として捉えるのが自然です。三つの層はそれぞれ異なる時間スケールで作動し、異なる情報を必要とし、異なる効果を生みます。

timeline
    title 適応の三つの粒度
    section マクロ (単元・セッション単位)
      診断 : 既習得KCの同定
      順序付け : カリキュラム経路の決定
      習得判定 : 次単元への移行
    section ミクロ (問題単位)
      問題選択 : ZPD内の次問題
      難易度調整 : KCの組合せ調整
    section 即時 (秒単位)
      ヒント : 段階的ヒント
      フィードバック : 即時の正誤と説明

図 10-1: 適応の三つの粒度。長期のカリキュラム編成から、問題ごとの選択、タスク内の即時支援まで、異なる時間スケールで作動する。

マクロ適応：カリキュラムの順序付けと習得判定

マクロ適応は、セッションや単元レベルでの長期的な決定を扱います。学習者の全体的な知識プロファイルと目標に基づき、どのトピックをどの順序で扱うか、どのトピックを習得済みとしてスキップするかを決めます。

具体例として、Brusilovsky et al. [Brusilovsky1996] の ELM-ART は LISP プログラミングの学習で、各ページへのリンクを学習者の前提知識の充足状況に応じて色分けします。緑のリンクは「あなたは前提を満たしているので学習可能」、赤は「前提が未習得なので推奨しない」、黄色は「準備は整っているが既に学習済み」を表します。学習者は自分のペースで進められる一方、システムが知識依存関係に基づいて経路を案内するわけです。これは「適応的ナビゲーション」と呼ばれるマクロ適応の代表例です。

もう一つのマクロ適応の典型は 習得判定（mastery gating） です。Cognitive Tutor は、各 KC の BKT による習得確率（第 9 章参照）が 0.95 を超えるまでその KC を含む問題を出し続け、超えれば次の単元へ進めます。これにより、表面的に課題をこなしただけで穴のある理解のまま先に進むことを防ぎます。一方、習得閾値が高すぎると過剰練習（over-practice）になり、低すぎると基礎不足のまま先に進むことになります。Corbett らの実証研究では、 $0.95$ 閾値はおおむね妥当なバランスを与えますが、KC によってはより低い閾値で十分な定着が得られることも報告されています。

ミクロ適応：次の問題を選ぶ

ミクロ適応は、学習活動内での問題ごとの選択を扱います。基本方針は Vygotsky の発達の最近接領域（ZPD）[Vygotsky1978] ——学習者が自力では解けないが支援があれば解ける範囲——に対応する問題を選ぶことです。簡単すぎる問題（既習得の KC のみ）では学習が起きず、難しすぎる問題（未習得 KC が多すぎる）では学習者が挫折します。経験則として、未習得 KC を 1〜2 個含む問題がよい学習機会となります。

知識追跡を用いる場合、各問題の KC 構成と学習者モデルの習得確率から、その問題が「ちょうど良い」かを評価できます。例えば BKT の習得確率が 0.5〜0.8 程度の KC を一つ含む問題が、学習機会の最適点とされることが多いでしょう。IRT に基づく適応的テスト（CAT）は、推定能力 $\hat{θ}$ に近い難易度 $b_{j}$ を持つ問題を選ぶことで、能力推定の精度を最大化します。学習用途では、評価精度ではなく学習効果を目的関数とするため、わずかに $\hat{θ}$ より高い難易度を選ぶといった調整がなされることもあります。

即時適応：ヒント、フィードバック、足場かけ

即時適応は問題解決のさなかに行われる秒単位の介入です。学習者が誤った操作をすればフラグを立て、ヒントを要求すれば段階的に提供します。Cognitive Tutor の階層化ヒント（hint hierarchy）はその典型で、最初は「次に何を考えるべきか」という方向性を示し、要求されればより具体的な指示、最終的には「ボトムアウトヒント（bottom-out hint）」と呼ばれる答えそのものに近い指示まで提供します。

flowchart TD
    A["難しすぎる領域<br/>(支援があってもできない)"]
    B["ZPD<br/>(支援があればできる領域)"]
    C["自力でできる領域"]
    A --- B --- C
    B -. "学習者は支援を受けてZPDで学習" .-> P["初期 → 中期 → 後期<br/>(支援を徐々に削減＝フェーディング)"]

図 10-2: 発達の最近接領域（ZPD）と支援のフェーディング。学習者の能力向上に応じて、ZPD内で適切な課題を提供し、支援を徐々に削減する。

Wood et al. [Wood1976] はこの即時的な足場かけを「フェーディング（fading）」として概念化しました。最初は詳細な支援を与え、学習者の能力向上に応じて徐々に手を引き、最終的に自律的な問題解決ができるようにします。この設計の鍵は、フェーディングのタイミングを学習者の状態に応じて動的に決めることです。固定的なフェーディングではなく、学習者モデルの推定に基づいて支援の強度をその場で調整するのが、現代の ITS の即時適応です。

適応の次元：何を変えるか

粒度が「いつ」適応するかを規定するのに対し、次元は「何を」適応させるかを規定します。Brusilovsky [Brusilovsky2001] の適応的ハイパーメディアの分類を学習支援文脈に翻訳すると、内容、順序、難易度、支援量という四つの主要次元が浮かび上がります。

内容の適応 は、提示する情報の詳細度・抽象度・例の選び方を学習者に合わせます。例えばプログラミングの「再帰」を教えるとき、初心者には階乗計算を例にスタックの動きを段階的に追い、上級者には「自身を呼び出して問題を分割する」という簡潔な定義で済ませます。同じ概念でも、既有知識によって最適な説明は異なります。医学解剖学の ITS である ANATOM-Tutor は、初心者には器官の基本構造と機能を、上級者には組織学的詳細や臨床的意義まで含めた説明を提供します。設計上の落とし穴は学習者の既有知識を過大評価することで、不確実なときは保守的に易しめの内容から始める方が安全でしょう。

順序の適応 は前述のマクロ適応に対応します。学習者の知識プロファイルに基づき、未習得の前提を先に学ばせ、既習得のトピックはスキップします。先の ELM-ART がその例であり、より一般には知識グラフ上の経路探索問題として定式化できます（第 12 章参照）。

難易度の適応 は、ミクロ適応の中心です。同じ概念を扱う問題でも、変数の数、必要なステップ数、抽象度などで難易度を制御できます。代数の問題で言えば、 $x + 3 = 7$ から $2 x + 3 = 7$ 、 $2 (x + 1) = 4 x - 3$ へと、必要な変形ステップを段階的に増やしていきます。Cognitive Tutor は各問題に必要な KC の集合を事前にタグ付けし、学習者の習得確率と組み合わせて適切な難度の問題を選びます。

支援量の適応 は即時適応に対応します。同じ問題でも、ヒントなしで解かせるか、最初から段階的なヒントを与えるかを学習者ごとに変えられます。メタ認知的に熟達した学習者には最小限の支援で自力解決を促し、未熟な学習者にはより構造化された段階的支援を提供します。この次元の制御がうまくいくかは、学習者のメタ認知状態の推定精度に大きく依存します。

提示モダリティの適応も独立した次元として研究されてきました。視覚的な図示か、テキスト中心の説明か、音声と図の併用かといった選択です。マルチメディア学習の理論 [Mayer2009] は、視覚情報と聴覚情報を組み合わせる「モダリティ効果」が外在的負荷を下げることを示しています。一方、「学習スタイルに合わせた提示」というよく言われる主張については、Pashler et al. [Pashler2008] のレビューが指摘するとおり、確固たる証拠は不足しています。学習者の好みを尊重して選択肢を提供することは正当化できますが、「視覚型／言語型」というラベルに沿って自動的に提示形式を切り替えることに、学習効果上の根拠はほとんどありません。

ヘルプ要求と支援の濫用：制御の難しさ

適応の次元と粒度を整理しても、それで設計が完了するわけではありません。支援を提供すること自体が、学習者の行動を変化させる という再帰的な問題が残ります。とりわけ即時適応の文脈で、ヒントの提供は学習者のヘルプ要求行動を歪めます。

Aleven and Koedinger [Aleven2006] は Cognitive Tutor の利用ログを分析し、学習者の多くが ヒントを適切に活用できていない ことを示しました。ある学習者群はヒントを過剰に要求して機械的に従うだけで思考を行わず（help abuse）、別の群は困難に直面しても要求せず（help avoidance）、結果として両者ともに学習効果が低かったのです。とくに前者は、Cognitive Tutor のヒント階層が最終的に「ボトムアウトヒント」として答えに近い情報を提供するため、学習者がヒントを連打して答えを得る「ゲーミング（gaming the system）」と呼ばれる行動に陥りやすかったとされます。Baker らの一連の研究は、ゲーミング行動が学習効果と強く負相関することを定量的に示しています。

これに対する応答として、Roll et al. [Roll2011] はメタ認知的支援を内蔵した Help Tutor を開発しました。Help Tutor は、学習者のヒント要求が「いま要求すべきタイミングか」を独立に評価し、不適切なヘルプ要求パターン（即座のヒント要求、過剰なボトムアウト依存）に対しては「自分でしばらく考えてみよう」とメタ認知的なフィードバックを返します。実証研究では、Help Tutor を使った群は使わなかった群に比べてヘルプ要求行動が改善し、しかもその効果は介入終了後にも持続しました。

この事例が示してくれるのは、適応の対象を「知識状態」に限定するのは狭すぎる、ということです。学習者がどのように適応的支援を使うかという、その使い方自体が学習可能で、かつ学習を要する対象 なのです。第 9 章で扱ったメタ認知の側面は、ここでもう一度設計の問題として現れます。適応的システムは知識を提供するだけでなく、学習者にシステムを正しく使う方法を教えることまで考えねばなりません。

適応をどう実装するか

適応の決定をどのアルゴリズムで実現するかには、伝統的に三つのアプローチがあります。

ルールベース適応 は、専門家の知識を IF-THEN ルールとして記述する古典的方式です。例えば「学習者が概念 A を未習得かつ問題 P が概念 A を要求するなら、問題 P の前に概念 A の説明を提示する」といった形式です。透明性が高く、教育設計者がルールを直接記述・修正できることが利点です。教育理論や実践知識を直接コード化できます。一方、ドメインや学習者の多様性が増えるとルール数が爆発し、ルール間の相互作用や矛盾の管理が困難になります。Cognitive Tutor は大規模なルールベースシステムですが、その維持に大きなコストがかかることが知られています。ファジィ論理を用いて「習熟度が高い」「やや迷っている」のような曖昧な概念を連続値で扱う拡張も研究されてきました。

最適化ベース適応 は、適応を制約満足問題や最適化問題として定式化します。目的関数（例：期待される学習効果の最大化）を定義し、前提知識制約、ZPD 制約、多様性制約、時間制約などの下で最適な学習経路や問題系列を計算します。明示的に複数の制約と目標を扱える点が強みですが、計算コストと目的関数設計の難しさが課題となります。

強化学習による適応 は、システム自身が試行錯誤を通じて支援戦略を学習するアプローチです。Rafferty et al. [Rafferty2016] は教授戦略を部分観測マルコフ決定過程（POMDP）として定式化し、学習者モデルを状態、教授行動を行動、学習進歩を報酬として、最適な教授方策を計算しました。固定的な戦略よりも適応的選択の方が学習効果が高いことが示されています。強化学習の利点は最適戦略を事前に設計せずデータから自動的に学習できる点ですが、大量のデータを要し、初期の探索段階では学習者に最適でない支援を提供する可能性、そして学習された方策の解釈困難さという課題があります。

近年の研究は、ルールベースの解釈性と機械学習の柔軟性を組み合わせるハイブリッドアプローチに向かっています。例えば、ルールでマクロ適応の枠組みを与え、即時適応の細部のみを強化学習で最適化する、といった設計です。

適応の限界：いつ適応すべきでないか

適応的支援は強力ですが、無条件に有益なわけではありません。設計者として認識しておきたい三つの限界があります。

第一に、過剰適応（over-adaptation） の問題があります。学習者に常に「ちょうど良い」難度の課題だけを提供すると、学習効果はかえって損なわれます。Bjork の「desirable difficulty」[Bjork1994] の研究は、学習中に経験するある種の困難——困難な検索、間隔練習、変動性のある練習——がむしろ長期的な定着と転移を促進することを示しています。常に易しい課題を解かせることは、その場の正答率を上げる代わりに、学習を表層的な水準に留めてしまうのです。Kapur [Kapur2008] の「productive failure（生産的失敗）」の研究はさらに踏み込み、まず支援なしで複雑な問題に取り組み失敗を経験した学習者の方が、最初から正しい解法を教えられた学習者よりも最終的な理解が深いことを示しました。失敗そのものが、後続の学習を準備する重要な認知的活動なのです。これは適応設計者にとって難しい示唆です——学習者の即時の成功率を最大化することが、長期的な学習効果を最大化するとは限らない、という意味で。

第二に、学習者の自律性 の問題があります。適応が強力すぎると、学習者の選択の余地を奪い、内発的動機づけを損なう恐れがあります。自己決定理論 [Ryan2000] によれば、自律性の感覚は内発的動機づけの中核要素です。「次は何を学ぶか」「いまどの程度の支援を受けるか」をすべてシステムが決めてしまう設計は、学習者を受動的にし、長期的なエンゲージメントを下げてしまいます。これに対する一つの応答が、Bull and Kay [Bull2007] の オープン学習者モデル（Open Learner Model） です。システムが推定した学習者モデルを学習者自身に見せ、確認・修正・利用できるようにします。学習者は自分の学習状況を理解し、適応の方向性に関する意思決定に参加できるわけです。完全にシステム主導の適応ではなく、学習者と協調して適応のレベルや方向性を決める「協調的適応（negotiated adaptation）」が、自律性と適応の両立を目指す方向性として重要だと、僕は考えています。

第三に、適応の透明性と信頼 です。学習者がシステムの適応の根拠を理解できないと、システムへの信頼が損なわれます。「なぜこの問題が選ばれたのか」「なぜこのヒントが出されたのか」を説明できることは、学習者の受容と適切な利用のために重要です。第 9 章で見た BKT のような解釈可能なモデルは、この説明可能性を支える基盤を提供してくれますが、深層学習ベースの適応では「なぜそうしたか」を学習者にも教師にも説明することが原理的に難しくなります。適応の効果と透明性のトレードオフは、現在も活発に議論されている設計課題です。

これらの限界を踏まえると、優れた適応的システムの設計とは「すべてを最適に適応させる」ことではなく、「適応の対象と程度を慎重に選び、学習者に適切な制御権を与える」ことだと言えます。

まとめ

本章では、適応的学習支援を「学習者の状態と目標に応じて学習体験のパラメータを動的に調整する設計問題」として位置づけ、粒度（マクロ・ミクロ・即時）と次元（内容・順序・難易度・支援量）の二軸で整理しました。Bloom の 2 シグマ問題への応答として個別化を実現する有力な手段でありつつ、適応そのものが学習者のヘルプ要求行動を歪め、過剰適応が学習を浅くし、自律性を奪い得るという困難も抱えています。第 9 章で構築した学習者モデルは、これらの設計判断の入力として使われますが、推定の不確実性をどう扱うか、学習者にどこまで制御権を渡すかは、引き続き設計者の判断に委ねられています。

次章への橋渡し

適応的支援が実際に学習者に届くのは、UI を通じてです。どんなに優れた適応戦略でも、学習者がシステムを使いこなせなかったり、ヒントを誤読したり、認知負荷で疲弊したりすれば、効果は失われてしまいます。第 11 章では、ヒューマンコンピュータインタラクション（HCI）の観点から、学習支援システムのインタフェースとインタラクションが学習に与える影響を扱います。UI が単なる表面ではなく 認知負荷を直接操作する設計問題 であることを、一緒に見ていきましょう。

さらに学ぶために

Brusilovsky, P. (2001). Adaptive hypermedia. User Modeling and User-Adapted Interaction, 11, 87-110.
VanLehn, K. (2011). The relative effectiveness of human tutoring, intelligent tutoring systems, and other tutoring systems. Educational Psychologist, 46(4), 197-221.
Aleven, V., & Koedinger, K. R. (2006). An effective metacognitive strategy: Learning by doing and explaining with a computer-based Cognitive Tutor. Cognitive Science, 30(3), 467-505.
Shute, V. J., & Zapata-Rivera, D. (2012). Adaptive educational systems. Adaptive technologies for training and education, 7, 1-35.

ヒューマンコンピュータインタラクションと学習支援

この章で扱う問い

第 10 章で扱った適応戦略がどんなに洗練されていても、それが学習者に届くのはユーザインタフェース（UI）を通じてです。本章で考えたいのは、学習支援システムにおける UI が、単なる「使いやすさ」の問題ではなく、学習者の認知負荷を直接操作する設計問題であること です。図とテキストの配置一つで外在的負荷が変わり、フィードバックの粒度とタイミングで関連負荷の質が変わり、オープン学習者モデルの見せ方でメタ認知の働き方が変わります。HCI の研究室から来たあなたには「タスク効率」と「学習」が同じ UI 設計の中でぶつかる場面として、ITS や AIED の研究室から来たあなたには「適応戦略を学習者にどう手渡すか」という最後の一マイルとして、それぞれ読んでいただけるのではないかと思います。

本章では、認知負荷理論を骨格に据えて、フィードバック設計、オープン学習者モデル、感情に応答するインタフェース、そして LLM チューターの対話設計までを、「数学チュータ」という一貫した想定例を交えながら見ていきます。

学習支援におけるHCIの特殊性

ヒューマンコンピュータインタラクション（Human-Computer Interaction, HCI）は、人間と計算機の相互作用を扱う学際分野で、伝統的にはタスク遂行の効率化、エラー削減、ユーザ満足度向上を目指してきました。Nielsen [Nielsen1993] のユーザビリティ五属性——learnability、efficiency、memorability、errors、satisfaction——は一般的なソフトウェアでは妥当な目標です。

しかし学習支援システムでは、効率を追い求めることが時に学習を妨げます。学習の目標はタスクを素早く完了することではなく、学習者の知識や能力を変化させること だからです。学習者が何も考えずタスクを完了できてしまうほど効率的な UI は、学習者から思考の機会を奪います。第 10 章で触れた desirable difficulty が学習を促進するという知見は、UI 設計の文脈では「適切な摩擦をどこに残すか」という問題として現れます。

Quintana et al. [Quintana2004] は「学習者中心設計（Learner-Centered Design, LCD）」を提唱し、学習支援ソフトウェアにおける「learnability」を、「システムの使い方を学ぶこと」ではなく「システムを通じて対象領域の内容を学ぶこと」と再定義しました。LCD の核は、学習者の現在の能力で達成困難な課題に対して足場かけ（scaffolding）を提供すること、学習者が「いま自分はどこにいて、何を学んでいるか」を理解できるよう学習プロセスを可視化すること、図やシミュレーションを認知的道具として組み込み認知プロセスを外部化すること、そして探究と発見の機会を確保することにあります。これらは UI のレイアウトやインタラクションの細部にまで影響する設計原則です。

認知負荷とインタフェース：数学チュータの設計を例に

第 7 章で扱った Sweller et al. [Sweller2011] の認知負荷理論は、UI 設計に最も直接的な示唆を与える理論です。学習者のワーキングメモリ容量は厳しく制約されており、UI の複雑さがその容量を圧迫すれば、学習内容の処理に回せる資源が削られます。認知負荷は「内在的負荷」（学習内容そのものの複雑さ）、「外在的負荷」（不適切な提示や UI による不要な負荷）、「関連負荷」（スキーマ構築に直接寄与する負荷）の三つに分かれます。UI 設計の目標は、外在的負荷を最小化し、関連負荷を最大化することです。

flowchart TB
    subgraph Bad["悪い設計：外在的負荷が大きい"]
        direction LR
        IB["内在的負荷<br/>(本質的複雑さ)"]
        EB["外在的負荷<br/>(不適切なUI)"]
        GB["関連負荷<br/>(スキーマ構築)"]
        IB --- EB --- GB
    end

    subgraph Good["良い設計：外在的↓、関連↑"]
        direction LR
        IG["内在的負荷"]
        EG["外在的負荷<br/>(縮小)"]
        GG["関連負荷<br/>(拡大)"]
        IG --- EG --- GG
    end

    Bad -. "改善" .-> Good

図 11-1: 認知負荷理論に基づくインタフェース設計。ワーキングメモリは有限のため、悪い設計では外在的負荷が容量を圧迫する。良い設計では外在的負荷を最小化し、関連負荷（学習に寄与）を最大化する。

具体的に考えるために、二次関数の学習を支援する数学チュータの UI を想像してみてください。画面の左側に問題（「 $y = x^{2} - 2 x - 3$ のグラフを描け」）、右側に学習者の作業領域（係数を変えるスライダーと座標平面）、下部に解説テキストが配置されているとしましょう。よくある悪い設計は、解説テキストが画面下部にあり、「グラフの頂点は $(1, - 4)$ です」という説明と、その頂点を表す座標平面上の点が遠く離れて配置されている場合です。学習者は視線を上下に行き来させ、テキスト内の「頂点」と座標平面上の点を頭の中で対応付けねばなりません。これは Sweller らが「分離効果（split-attention effect）」として指摘した古典的な外在的負荷です。改善策は、「頂点」という語を座標平面上の対応する点の隣に直接配置する、あるいは点と語を線で結んで対応関係を明示することです。同じ情報量でも、空間的統合によって学習者のワーキングメモリ負荷が下がります。

別の例として、係数を変えるスライダーを動かしたときに、座標平面上のグラフが滑らかにアニメーションし、同時に音声で「 $x^{2}$ の係数を大きくすると、放物線が縦に細くなります」という説明が流れる設計を考えてみましょう。これは「モダリティ効果」を活用したもので、視覚チャネル（グラフ）と聴覚チャネル（音声）を同時に使うことで、ワーキングメモリの二つのサブシステムを並列に活用します。ところが、ここに同じ内容のテキスト解説まで画面に表示すると、同じ情報を視覚チャネルで二重に処理することになり、Mayer の言う「冗長性効果（redundancy effect）」が生じて学習効果がむしろ下がります。冗長な情報は親切に見えても、しばしば有害なのです。

これらの原則は、見た目の美しさやリッチさとはむしろ対立することが多いものです。学習支援 UI の設計では、「何を入れるか」と同じくらい「何を入れないか」に注意を払う必要があります。

フィードバックの設計：粒度・タイミング・フレーミング

フィードバックは学習支援システムの中核的な相互作用で、単に「正解」「不正解」を返すこと以上に多くの設計判断を含みます。Hattie and Timperley [Hattie2007] の影響力あるレビューは、フィードバックを「現在の学習状況、目標、次にとるべき行動」に関する情報として包括的に捉え、その効果は内容と提供方法に大きく依存することを示しました。設計上の重要な軸は粒度・タイミング・フレーミングの三つです。

粒度については、結果フィードバック（KR: Knowledge of Result）と、より詳細な解説フィードバック（KCR: Knowledge of Correct Response、あるいはエラー特定型のフィードバック）の選択があります。先の数学チュータで、学習者が頂点を $(1, - 3)$ と答えた場合、「不正解」とだけ返すのが結果フィードバック、「 $y$ 座標が違います。頂点の $y$ 座標は $f (1)$ で計算します」とエラー位置を特定するのが解説フィードバックです。一般に解説フィードバックの方が学習効果は高いのですが、与えすぎると学習者の自己訂正の機会を奪います。Cognitive Tutor の階層化ヒント（第 10 章参照）は、最初は粗いフィードバックを返し、学習者が要求すれば段階的に詳細にしていくことで、この緊張関係に対処しています。

タイミング については、即時フィードバックと遅延フィードバックの古典的な対比があります。スキル習得の初期段階では即時フィードバックが効果的で、誤った手続きが定着する前に修正できます。しかし、テスト的な状況や問題解決の練習では遅延フィードバックの方が長期的な定着を促すことが Bjork らの研究から知られています。即時フィードバックは学習者を依存的にし、自己モニタリングの機会を奪い得ます。設計上の解決の一つは、第一試行は遅延でフィードバックし、再試行時には即時にする、といったハイブリッド戦略です。

フレーミング については、フィードバックの言語的トーンが学習者のマインドセットに影響することが Dweck らの一連の研究で示されてきました。「賢いね」と能力を称賛するフィードバックは固定的マインドセットを促し、「がんばって取り組んだね」と過程を称賛するフィードバックは成長マインドセットを促します。同様に、誤答に対して「間違っています」と直接的に伝えるか、「もう一度確認してみよう」と探索を促すかで、学習者の感情と次の行動が変わります。これらは技術的設計の問題というより、システムが学習者にどんな「教師」として現れるかという、より広いインタラクション設計の問題です。

対話的支援：AutoTutorからLLMチューターへ

学習は本質的に対話的です。教師は質問し、学習者は答え、教師は学習者の答えに基づいてさらなる質問やプロンプトを返す。この対話性を計算機システムでどう実現するかは、ITS 研究の長年の中心テーマでした。

AutoTutor [Graesser2004] はその先駆的システムです。物理学やコンピュータリテラシーを領域とし、学習者と自然言語で対話しながら概念理解を支援します。対話は、深い理解を要する問いの提示、学習者の自由記述による回答、回答の意味分析、欠けている要素を引き出すための追加質問・ヒント・プロンプト、要点の要約、という段階を辿ります。AutoTutor の対話戦略はルールベースで実装されていて、潜在意味解析（LSA）を用いて学習者の発話と「理想的な回答の構成要素」を比較し、何が言及されていて何が欠けているかを判定します。評価研究では、教科書のみで学習した群に比べておおむね effect size $0.4$ 〜 $0.8$ の学習効果が報告されており、人間の個別指導（ $d \approx 0.79$ ）には及ばない場合もありますが、コスト効率を考えれば実用的な水準です。

AutoTutor の限界は、対話戦略を事前に設計しておく必要があることと、想定外の発話への柔軟な対応が困難なことでした。2020 年代の大規模言語モデル（LLM）の発展は、この限界を一気に押し広げました。GPT-4 や Claude のような現代の LLM は、広範な領域で文脈に応じた自然な対話を生成できます。しかし、LLM チューターの設計は新たな問題を生みます。LLM はデフォルトでは学習者の質問に「答えてしまう」。生徒が「この方程式を解いて」と頼めば、丁寧に解いてくれてしまう。これは適応的支援の文脈では、ヒント濫用やゲーミングを構造的に促進する設計と言えるでしょう（第 10 章参照）。

良い LLM チューターの設計は、プロンプトとシステム側の足場かけによって LLM の振る舞いを制約することにあります。先の数学チュータの例で言えば、LLM には「学習者が解答を直接求めても答えを出さず、学習者の現在の理解を引き出す質問を返すこと」「学習者が示した中間ステップが正しい場合は次のステップを問う、誤っている場合はその誤りを直接指摘せず、検証する方法を尋ねること」といったソクラテス的対話の役割を与えます。さらに、第 9 章で扱った学習者モデルを LLM のプロンプトに渡し、「この学習者は二次関数の頂点公式を未習得である」といった情報に基づいて支援を調整します。LLM チューターはこの意味で、ITS の学習者モデルと適応戦略を、自然言語生成という柔軟なインタフェースで包む構成を取り得ます。実証研究と倫理的課題については第 12 章で詳しく扱います。

ペダゴジカルエージェントとして対話相手に画面上のキャラクター表現を与えるアプローチも、長く研究されてきました。Reeves and Nass [Reeves1996] の「メディア等式」は、人間が計算機やメディアに対して実際の人間と同様に社会的に振る舞うことを示し、エージェントの存在が学習者の関与を高め得ることを示唆しました。しかし Mayer [Mayer2014] のレビューは、エージェントの単なる存在では学習効果は向上せず、教育的に意味のある行動（適切な説明、質問、フィードバック）を行うことが本質だと結論づけています。礼儀正しく友好的な言葉遣いをする「ペルソナ効果」が学習成果を向上させる証拠もありますが、過剰なアニメーションは「誘惑的詳細」として注意を逸らし、写実的すぎるエージェントは「不気味の谷」を引き起こします。エージェントは万能ではなく、その有用性は具体的な振る舞いの設計次第なのです。

学習プロセスの可視化とオープン学習者モデル

学習者が自分自身の学習状況を理解できるようにすることは、メタ認知と自己調整学習を支える重要な機能です。可視化の対象は二つあります——学習内容そのものと、学習プロセスの状態です。

学習内容の可視化として代表的なのは、対話的シミュレーションです。PhET [Wieman2008] は物理学・化学・数学の概念を学ぶための対話的シミュレーションのコレクションで、例えば「フックの法則」のシミュレーションでは学習者がバネを引っ張り、力と伸びの関係をリアルタイムで観察できます。バネ定数のスライダーを動かすと、グラフがどう変化するかを視覚的に把握できる。PhET の評価研究では、伝統的な講義や教科書のみの学習より高い効果が報告されており、特に複雑な因果関係や動的プロセスの理解に有効です。ただし Tversky et al. [Tversky2002] のレビューが示すように、アニメーションは静止画より無条件に優れているわけではなく、学習者が重要な変化に注意を向けられるような支援とセットで初めて効果を持ちます。概念マップツールである CmapTools [Novak2006] も、学習者が自ら概念とその関係を構築する活動を支援することで、知識の構造化を促します。

学習プロセスの可視化の典型は学習ダッシュボードです。学習時間の推移、各トピックの習熟度、未完了課題、目標達成度などを可視化し、学習者と教師が状況を把握できるようにします。Khan Academy の知識マップは成功例で、学習者は自分が習得したスキルと未習得のスキルを一目で把握でき、保護者や教師も進捗を確認できます。Verbert et al. [Verbert2014] のレビューは、ダッシュボード設計の落とし穴として情報過多を挙げ、可視化の目的を明確化し、認知負荷に配慮し、数値だけでなくその意味と次の行動可能性を伝えることの重要性を指摘しています。

学習プロセス可視化の中で、とくに教育的含意が深いのが オープン学習者モデル（Open Learner Model, OLM） です（第 10 章でも触れました）。OLM は、システムが内部に持つ学習者モデルを学習者本人に開示し、確認・修正・利用できるようにするアプローチです。スキルメーターで KC ごとの習熟度をバー表示する単純な形式から、ベイジアンネットワークで KC 間の依存関係と各要素の習得確率をグラフ表示する複雑な形式まで、表現には幅があります。

Bull の一連の研究 [Bull2010] は、OLM が学習者のメタ認知的気づき、学習計画、動機づけを向上させることを実証してきました。学習者がモデルを見ることで、「自分はこのトピックを十分理解していると思っていたが、システムは未習得と判定している」といった 自己評価とシステム評価のずれ に気づき、それ自体が反省的な学習機会となります。学習者がシステムの評価に同意しない場合、その不一致を解消するための対話——追加の自己評価、テスト、修正——が起き、学習者のメタ認知能力が鍛えられます。OLM の設計は、システムを「学習者を評価する権威」ではなく「学習者と協働する道具」として位置づける哲学を体現するものです。第 10 章で触れた学習者の自律性の問題に対する、具体的な設計上の応答でもあります。

感情とエンゲージメントに応答するインタフェース

学習は認知的活動であると同時に情動的活動でもあります。混乱、退屈、フラストレーション、フロー——学習者の情動状態は学習成果と深く関連します（第 9 章参照）。これに応答する affect-aware なインタフェースの研究が、過去 20 年ほどの間に進展してきました。

Wayang Outpost [Arroyo2014] は、数学学習を支援する ITS で、学習者の表情、姿勢、皮膚電気反応などのセンサーデータから情動状態を推定し、それに応じてヒントの提供方法やキャラクターの応答を変えます。例えば学習者がフラストレーションを示す兆候を検出すると、システムは励ましのメッセージを返したり、課題の難度を下げたりします。実証研究では、こうした affect-aware な介入がエンゲージメントと学習成果を向上させることが報告されています。D'Mello and Graesser [DMello2008] の AutoTutor 研究も、混乱が一定時間続けば追加のヒントを、退屈が検出されればより挑戦的な問いを提示するといった戦略を試みています。

しかしこの種のインタフェースには重要な倫理的問題がつきまといます。学習者の表情や生理データを継続的に監視することは、プライバシーと監視の境界に関わります。Prinsloo and Slade [Prinsloo2017] は、こうしたデータ収集について透明性、同意、データの最小化といった倫理原則を提唱しています。技術的にも、表情から情動を読み取る精度は文化や個人差を超えた一般化が困難で、誤検出が学習者の不快感や不適切な介入につながるリスクがあります。affect-aware なインタフェースは強力ですが、その導入は教育的便益とプライバシー・公平性のリスクを慎重に天秤にかける必要があります。

アクセシビリティとユニバーサルデザイン

学習支援システムは多様な学習者に開かれているべきです。視覚・聴覚・運動機能に制約のある学習者、異なる言語背景の学習者、様々な年齢層の学習者が等しく学習機会を得られる設計が求められます。W3C の Web Content Accessibility Guidelines（WCAG）は、Web コンテンツのアクセシビリティを「知覚可能（perceivable）」「操作可能（operable）」「理解可能（understandable）」「堅牢（robust）」の四つの原則（POUR）として定式化していて、これらは学習支援システムにも直接適用できます。画像への代替テキスト、動画への字幕、キーボードのみでの操作、明確で一貫したナビゲーション、支援技術との互換性。これらは追加機能ではなく、設計初期から組み込むべき基盤です。

Universal Design for Learning（UDL）[Rose2014] は、より広い教育設計の枠組みとして、すべての学習者に等しく効果的な学習機会を提供することを目指します。UDL は、情報を複数の方法（テキスト、音声、図、動画）で提示する「複数の表現手段」、学習者が知識を示す方法を複数（記述、口頭発表、プロジェクト）提供する「複数の行動と表現の手段」、興味と動機づけを支える複数の関与の手段、を提唱します。UDL の哲学は第 10 章の適応的支援と密接に関連します——「正しい」一つの方法ではなく、選択肢を用意することが本質です。アクセシビリティは少数のための特別配慮ではなく、UI 設計の質そのものを高める制約と捉えるべきだと、僕は考えています。

次章への橋渡し

本章では、学習支援システムの UI を 学習者の認知負荷を直接操作する設計問題 として位置づけ、認知負荷理論を骨格に据えてその様々な側面を見てきました。図とテキストの空間的統合、モダリティと冗長性の扱い、フィードバックの粒度・タイミング・フレーミング、対話システムから LLM チューターへの展開、オープン学習者モデルによるメタ認知支援、感情に応答するインタフェース、そしてアクセシビリティとユニバーサルデザイン。これらはすべて、UI の細部が学習者の認知資源と動機にどう影響するかという同じ問いの異なる側面でした。優れた UI は、学習者の認知資源を学習内容そのものに集中させ、学習プロセスを可視化し、学習者の自律性と多様性を尊重します。逆に、不適切な UI は外在的負荷で資源を浪費し、依存を生み、学習者を排除してしまいます。

ここまで第 9 章から第 11 章にかけて、学習者モデルの構築、適応戦略の設計、UI の設計を順に見てきました。これらの基盤を支えるのが、近年急速に発展する人工知能と機械学習の技術です。次章では、AI が ITS の各レイヤにどう適用され得るかを概観し、とりわけ LLM が教育にもたらす可能性と固有の限界を掘り下げていきましょう。

さらに学ぶために

Quintana, C., et al. (2004). A scaffolding design framework for software to support science inquiry. Journal of the Learning Sciences, 13(3), 337-386.
Mayer, R. E. (2014). The Cambridge handbook of multimedia learning. Cambridge University Press.
Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81-112.
Bull, S., & Kay, J. (2010). Open Learner Models. In Advances in Intelligent Tutoring Systems, Springer.
Verbert, K., et al. (2014). Learning dashboards: an overview and future research opportunities. Personal and Ubiquitous Computing, 18, 1499-1514.

AIと機械学習の応用

この章で扱う問い

第 9 章から第 11 章にかけて構築してきた学習者モデル、適応戦略、UI 設計のいずれにも、近年の AI と機械学習の技術が深く入り込んでいます。本章では、ITS の各レイヤに AI 技術がどう適用されているかを、機械学習による予測、自然言語処理による評価、生成 AI による問題生成と対話、計画と推論、強化学習による教授方策の最適化、という五つの軸で整理します。鍵となる主張は、AI 技術は ITS のあらゆるレイヤに適用できるが、各技術には固有の限界とバイアスがある ということです。AIED や機械学習を専門とする研究室から来たあなたには「教育という高ステークス領域では何が違うのか」を、ITS や認知科学の研究室から来たあなたには「データ駆動の手法をどこまで自分の枠組みに取り込めるか」を、それぞれ意識しながら読んでいただけると思います。

LLM のような流暢で強力な技術ほど、過度に礼賛するのも過度に拒絶するのも、教育応用としては危ういものです。本章は、ハルシネーション、バイアス、検証可能性の欠如といった構造的問題を冷静に並べ、技術ごとに「何ができ、何ができないか」を整理することを目指します。

学習支援におけるAIの役割

教育への AI 応用は、1960 年代のプログラム学習や CAI（Computer-Assisted Instruction）にまで遡ることができます。しかし、21 世紀以降の機械学習、特に深層学習の急速な発展によって、その役割は質的に変化してきました。

歴史的に見ると、二つのパラダイムが対立しつつ共存してきました。従来型 AI（symbolic AI, knowledge-based AI） は、専門家の知識を明示的なルールとして記述し、推論エンジンで処理します。1970 年代から 1990 年代にかけて発展した ITS の多くはこのパラダイムに基づきます。代表例は ACT-R モデル [Anderson1993] に基づく Cognitive Tutor で、認知科学の理論をプロダクションルールとして実装しています。これに対して 機械学習アプローチ は、大規模なデータから統計的パターンを自動的に抽出します。Russell and Norvig [Russell2020] が「知識（手作業のルール）から学習（データ駆動）へ」のパラダイムシフトとして整理する流れです。学習者モデリングを例に取れば、第 9 章で扱った Bayesian Knowledge Tracing [Corbett1995] は専門家設計の構造を持つモデルですが、Deep Knowledge Tracing [Piech2015] は学習履歴から自動的に表現を学習します。

両アプローチには、本章を通じて繰り返し現れるトレードオフがあります。従来型 AI は解釈可能性が高く少データでも機能しますが、専門家の知識取得（knowledge acquisition bottleneck）にコストがかかります。機械学習は大規模データから自動学習できますが、説明可能性（explainability）が乏しく、学習者と教師の信頼を得る上で課題となります [Holstein2019]。教育という、誤りが学習者の人生に影響しかねない高ステークスな領域では、この説明可能性の問題は技術的選好を超えた要請です。

Baker and Inventado [Baker2014] は教育データマイニング（EDM）の観点から AI の主要な応用領域を学習者モデリング、行動予測、推薦、自動評価に整理しました。本章ではこれを、ITS の構成要素に沿って機械学習による予測、自然言語処理による評価、生成 AI、計画と推論、強化学習という五つの技術系に再編成して扱います。

機械学習による予測：知識追跡からドロップアウト予測まで

機械学習を ITS に持ち込んだもっとも顕著な領域は、学習者の振る舞いを予測することです。これには二つのスケールがあります——問題単位の正答予測（知識追跡）と、コース単位のドロップアウトや成績の予測です。

知識追跡については第 9 章で詳しく扱いました。Deep Knowledge Tracing (DKT) [Piech2015] は、再帰型ニューラルネットワーク（典型的には LSTM）で学習履歴の系列から次の正答確率を予測します。BKT が KC ごとに独立した二値隠れ状態を仮定するのに対し、DKT は隠れベクトルが KC 間の依存関係や個人差を陰に表現できる柔軟性を持ちます。その後の発展として、Dynamic Key-Value Memory Networks [Zhang2017] は KC ごとに記憶セルを分けることで解釈可能性を回復しようとし、Self-Attentive Knowledge Tracing [Pandey2019] は Transformer アーキテクチャを用いて、過去の応答のうちどれが現在の予測に重要かを attention で表現します。

これらの深層モデルは予測精度では優れることが多い一方、第 9 章で触れたように、出力する確率系列が時として一貫性を欠くことがあります（ある問題に正答した直後にその KC の習得確率が下がるなど）。Xiong et al. [Xiong2016] は DKT と BKT の比較結果がデータ前処理の差に強く依存することも指摘しており、「最新のモデル＝常に最良」とは限りません。重要な含意は、知識追跡モデルの選択は単なるベンチマーク精度ではなく、後続の意思決定（mastery 判定、問題選択）にとって何が必要かに依存するということです。

より長い時間スケールの予測としてはドロップアウト予測があります。Xing et al. [Xing2016] は、MOOC におけるクリックストリームデータから RNN を用いて受講放棄を予測しました。早期にドロップアウト傾向のある学習者を同定できれば、追加の働きかけや支援を提供する 早期介入 が可能になります。しかしこの種の予測には倫理的問題がつきまといます。Gardner and Brooks [Gardner2018] は、予測システムが誤った予測をした場合の悪影響——「あなたはドロップアウトしそう」と告げられた学習者の士気低下や、教師による偏った扱いといった 自己成就予言（self-fulfilling prophecy）——を指摘しています。さらに、予測モデルが特定の人口統計群（人種、社会経済階層など）に対して系統的に異なる精度を示す不公平の問題もあります。Baker and Hawn [Baker2022] は、教育 AI における公平性確保のために多様な集団での評価とバイアス緩和技術が不可欠であることを論じています。予測の精度だけを目的関数にしてシステムを最適化することは、しばしば誤った方向への最適化となるのです。

自然言語処理による評価：エッセイから短文回答まで

自動評価は、教師の専門性が必要とされてきた領域に AI を持ち込む試みです。古典的にはエッセイ採点、近年は短文回答や対話的評価へと拡張されています。

自動エッセイ評価（Automated Essay Scoring, AES）は 1960 年代の Project Essay Grade（Ellis Page）にまで遡る歴史を持ちますが、現代の AES は機械学習と NLP の組み合わせで実用水準に達しています。Shermis and Burstein [Shermis2013] の研究では、AES と人間採点者の一致度が、人間同士の一致度と同等になる場合があることが示されました。現代の AES は、文字数や語彙多様性といった表層的特徴だけでなく、構文解析、意味類似度、論理構造の分析を組み合わせます。

しかし重要な限界があります。Perelman [Perelman2014] は、AES が文章の意味的正しさより統計的パターンに依存することを示し、意味のない（しかし表層特徴が豊富な）文章でも高得点を得られる例を提示しました。AES は「どんな文章が高評価される傾向があるか」を学習しますが、「内容が正しいか」「論証が妥当か」を真に評価するわけではありません。Warschauer and Grimes [Warschauer2008] は、AES が学習支援として機能するためには採点だけでなく質の高いフィードバックが必要だと論じています。形成的評価としての AES は、総括的評価としての AES より要求水準が高いのです。

短文回答（short-answer questions）の自動評価はエッセイより自動化が容易で、多肢選択問題より深い理解を測定できるため、実用上重要な領域です。Burrows et al. [Burrows2015] のサーベイは、ルールベース、統計的、機械学習ベースの手法を整理しています。近年は BERT などの事前学習済み言語モデルを用い、正解例との意味的類似度を計算するアプローチが主流です。教育的価値は単に正誤を判定することにとどまらず、誤答の種類（誤概念、不完全な理解、表現の問題など）を診断することにあります [Suzen2020]。Dzikovska et al. [Dzikovska2013] は、学習者の短文回答に対してチュータリング対話を行うシステムを開発し、正解との意味的差異を分析して誤解を特定し、適切な質問やヒントを生成することを試みました。これらは AES より一段難しい問題で、今でも研究の最前線にあります。

生成AIによる問題生成と対話

2022 年末以降、ChatGPT を起点とする LLM の急速な普及によって、生成 AI が教育応用の中心に躍り出ました。ここでの「生成」には大別して二つの用途があります——学習コンテンツの生成と、学習者との対話的支援です。

問題と説明の自動生成

LLM は、学習者のレベルや興味に応じた問題、説明文、例題を生成できます。「中学 2 年生向けの二次方程式の問題を 3 つ作成し、それぞれに段階的な解説を付けて」と依頼すれば、形式的にはそれらしい出力が得られます。これは教材作成の生産性を大きく高め得る応用です。

しかし、自動生成コンテンツの品質保証は重大な課題です。LLM は流暢な文章を生成できますが、事実の誤り、解答の誤り、年齢や前提知識への不適合、不適切な内容を含み得ます。とくに数式や論理を含む問題では、生成された問題と模範解答の整合性が崩れることが珍しくありません。「 $x^{2} - 5 x + 6 = 0$ の解を求めよ」という問題を生成しつつ、解説で因数分解を $(x - 2) (x - 4)$ とするような単純な誤りも、まだしばしば見られます。

このような誤りに対する対策には二つの方向があります。一つは LLM の出力を 外部の検証器 にかけることです。数学問題なら計算機代数システムで答えを検算し、プログラミング問題ならテストケースで実行検証します。もう一つは、構造化された認知的ドメインモデルを併用することです。学習目標、KC、前提関係をあらかじめ形式言語で記述しておけば、LLM が生成した問題がその目標と整合しているか、必要な KC のみを使っているかを機械的に検証できます。LLM の流暢さを生かしつつ、構造化された制約で品質を担保する——この組み合わせが、生成 AI を教育に責任を持って統合する一つの道筋です。

対話的個別支援とソクラテス的設計

LLM のもう一つの主要用途は、学習者との対話的な個別支援です。第 11 章で論じたように、デフォルトの LLM は学習者の質問に直接答えてしまい、思考機会を奪う傾向があります。良い LLM チューターの設計は、プロンプトとシステム側の足場かけによって LLM の振る舞いを制約することにあります。

Pardos and Bhandari [Pardos2023] は、LLM が生成するヒントを既存の人間が書いたヒントと比較する実証研究を行い、適切に設計されたプロンプトの下で LLM ヒントが人間のヒントに匹敵する学習効果を示す場合があることを報告しました。一方、LLM が誤った解説を自信を持って提示する場面もしばしば観察されました。これは流暢さと正しさが解離する LLM の本質的特性で、教育応用では特に深刻な問題となります。Mollick and Mollick [Mollick2023] は、LLM を「不完全だが有能な助手」として扱う実践的なガイドラインを提案しています。鍵は、LLM に直接答えを求めるのではなく、ソクラテス的対話を通じて学習者自身の思考を促すように役割を設計することです。具体的には、システムプロンプトで「学習者が答えを直接求めても答えを出さず、現在の理解を引き出す質問を返す」「学習者の中間ステップが正しければ次のステップを問い、誤っていれば誤りを直接指摘せず検証方法を尋ねる」といった役割を与えます。さらに、第 9 章の学習者モデルからの情報——どの KC が未習得か、どの誤概念を持つか——を LLM のコンテキストに渡せば、より個別化された対話が可能になります。

LLM の構造的な弱点として、本章を通じて最も注意すべきは ハルシネーション（hallucination） です。LLM は大量のテキストの統計的パターンから次のトークンを予測する仕組みで、内容の真偽を内部で検証する能力を本質的には持ちません。流暢な文章が生成されることと、その内容が正しいことは別問題なのです。教育応用では、LLM の出力を学習者が無批判に信用しないよう、外部知識ベースとの照合（retrieval-augmented generation）、出典の明示、教師や形式化されたドメインモデルによる検証を組み合わせることが重要です。Kasneci et al. [Kasneci2023] は、ChatGPT の教育応用可能性と課題を包括的にまとめており、ハルシネーションだけでなく、訓練データに由来するバイアス、学習者の思考機会を奪う危険、学術的不正行為への悪用といった懸念を整理しています。

なお、僕自身が ITS の研究に関わるなかで一つ強く感じてきたのは、LLM は単独で使うよりも、構造化された認知的表現と組み合わせたときに最も力を発揮するということです。LLM の流暢さに任せきりにせず、認知科学・知識工学の側で築かれてきた中間的な表現と組み合わせる——この方向は僕自身の論文でも具体例を示しています [Koike2026]。本書が一貫して薦めたいわけではなく、あくまで一つの研究実践として参照していただければ十分です。

知識グラフと計画：カリキュラム順序付けへの応用

ITS のマクロ適応（第 10 章参照）は、本質的には 計画問題 です。学習者の現在の知識状態と目標を入力として、両者をつなぐ学習活動の系列を計算します。これに対する古典的アプローチが知識グラフと計画アルゴリズムの組み合わせです。

教育知識グラフ（educational knowledge graph）は、概念をノード、概念間の関係（前提、関連、上位／下位）をエッジとして表現します。Chen et al. [Chen2018] は、MOOC の動画とテキストから自然言語処理と機械学習を用いて自動的に知識グラフを構築する手法を提案しました。概念抽出、関係特定、前提条件推定が自動化されることで、人手では時間のかかる知識グラフ構築を大規模に行えます。

知識グラフは個別化された学習パス生成に直接活用できます。Sun et al. [Sun2019] のような研究は、学習者が未習得の目標概念を指定すると、その概念に至る前提概念を知識グラフ上で逆向きに探索し、すでに習得済みのものを除外して、最短の学習経路を計算します。これは古典的な計画問題（プランニング）として定式化でき、A* 探索や動的計画法といった既存のアルゴリズムが適用できます。

知識構造の確率的扱いとしては、ベイジアンネットワークを用いた学習者モデルが古くから研究されてきました。前提関係にある概念群について各概念の習得状態を確率変数とし、観測される正答／誤答からそれらを同時に推論します。これにより、独立な BKT では捉えられない概念間依存を考慮した精緻な診断が可能になります。

近年は、機械学習と論理推論を組み合わせるニューロシンボリック AI のアプローチも教育応用で注目されています [Garcez2019]。深層学習の柔軟性と記号的推論の解釈可能性を両立させようとする試みで、認知モデルと LLM を組み合わせる方向性とも親和性が高いものです。

代数学の Cognitive Tutor（PUMP Algebra Tutor）[Koedinger1997] のような ITS は、こうした記号的推論と学習者モデルを組み合わせた古典的な実装例です。ACT-R に基づくプロダクションルールが学習者の解法を一手ずつ追跡し、各ステップでフィードバックを返します。LLM 時代にこのような明示的な推論基盤がなお重要なのは、それが 検証可能で説明可能な決定 を提供するからです。

強化学習による教授方策

学習者との相互作用を通じて教授戦略そのものを最適化する試みが、強化学習（Reinforcement Learning, RL）の教育応用です。RL では、システムの状態を学習者モデルで表現し、行動を提供する問題やヒントの選択、報酬を学習者の進歩（正答、理解度向上）として、長期的な報酬を最大化する方策（policy）を学習します。

Rafferty et al. [Rafferty2016] は、教授戦略を部分観測マルコフ決定過程（POMDP）として定式化し、教授行動の最適化を行いました。学習者の知識状態は直接観測できないため部分観測で、この不確実性の下で長期的な学習成果を最大化する行動を計算します。固定的な教授戦略よりも適応的な選択の方が学習効果が高いことが示されています。

RL の利点は、最適な教授方策を事前に設計せずデータから自動的に学習できることです。一方、課題も大きいものがあります。第一に、大量のデータを要します。教育の文脈では、一人の学習者から得られる相互作用は限られているため、シミュレーション環境での事前学習や、学習者モデル経由での合成データ生成が必要になります。第二に、初期の探索段階では学習者に最適でない支援を提供してしまう可能性があり、これは教育の高ステークス性に照らせば看過しがたい問題です。第三に、学習された方策がなぜそうなったのかの解釈が困難で、教師や学習者の信頼を得にくいことです。これらの課題から、現在の実用システムでは、強化学習を全面的に使うのではなく、ルールベースの枠組みの細部最適化に限定して使う、あるいはオフポリシー評価で安全性を担保しながら徐々に展開する、といった慎重な設計が取られています。

マルチモーダル学習分析と監視のリスク

深層学習の進展は、映像・音声・テキスト・生理データといった多様なモダリティを統合的に分析することを可能にしました。例えばオンライン学習の動画から学習者の表情や視線を分析し、エンゲージメントや感情を推定する研究 [Whitehill2014] や、第 11 章で触れた Wayang Outpost のように生理データから情動を推定して介入するシステムがあります。

しかし、こうした技術は学習者のプライバシーと監視の問題を直接引き起こします。Prinsloo and Slade [Prinsloo2017] は学習分析における倫理原則として、透明性、同意、データの最小化を提唱しています。技術的にも、表情や視線からの情動推定の精度には限界があり、文化や個人差を超えた一般化は困難です。誤検出が学習者の不快感や不適切な介入につながるリスクは、利益と慎重に天秤にかける必要があります。マルチモーダル分析は強力ですが、「できることをやる」ではなく「やるべきことを慎重に選ぶ」設計姿勢が求められます。

倫理的課題：公平性、透明性、教師の役割

ここまで各技術ごとに固有の限界を見てきましたが、AI を教育に応用する際に共通して問われる倫理的問題があります。

学術的誠実性 については、学習者が LLM を使って課題を自動生成し自分の作品として提出する不正行為が懸念されています。AI 生成文章を判別する検出器も登場していますが、人間の文章を AI と誤判定する誤検出が広く報告されていて、現状で完全に信頼できる手段ではありません。Sullivan et al. [Sullivan2023] は、単に AI 使用を禁止するのではなく、評価方法を見直し、AI との協働スキルを教育目標に含める方向性を提案しています。これは「AI を使って何ができるか」と「AI なしで何ができるべきか」を改めて教育目標として整理する作業を要請しているわけです。

公平性とバイアス は、知識追跡からドロップアウト予測、LLM の出力まで、ほぼすべての AI 応用に関わります。LLM は訓練データに含まれる人種・性別・文化的ステレオタイプを反映する可能性があり、知識追跡や予測モデルは人口統計群によって異なる精度を示し得ます。Baker and Hawn [Baker2022] は教育 AI における公平性確保のために、多様な集団での評価とバイアス緩和技術の必要性を論じています。

透明性と説明可能性 は、深層学習の進展とともにますます重要な課題となっています。学習者と教師が AI の判断根拠を理解できることは、信頼と適切な利用の前提です。Holstein et al. [Holstein2019] は、教師が AI の予測や推薦を検証・上書きできる「教師中心の AI」の設計原則を提案しています。AI を教師の代替ではなく、教師の判断を補強する道具として位置づける視点です。

プライバシーとデータ保護 は、商用 LLM サービスを学習活動で利用する際にとくに切実です。学習者の入力がモデルの再訓練やログ保管に使われる可能性があり、学校現場で導入する際にはデータ取扱いに関する契約や、個人情報・成績情報を入力しない運用ルールが必要になります。

教師の役割の変化 は、これらすべてを束ねる根源的な問いです。AI が一部の教育機能を自動化することで、教師は何をすべきか。Luckin et al. [Luckin2016] が論じるように、AI は教師を置き換えるものではなく、教師がより創造的で人間的な側面に注力できるようにする道具と捉えるべきでしょう。採点や個別の知識確認といった反復的作業は AI が担い、動機づけ、進路相談、創造的活動の指導といった人間にしかできない側面に教師が時間を使う——これは技術的可能性ではなく、教育設計上の選択です。

次章への橋渡し

本章では AI と機械学習の学習支援への多様な応用を、ITS のレイヤに沿って五つの技術系として整理しました。機械学習による予測、自然言語処理による評価、生成 AI、知識グラフと計画、強化学習。それぞれが ITS の特定の機能を強化し、個別化と効率化に貢献し得ます。一方、各技術には固有の限界とリスクがあります——知識追跡の解釈可能性のトレードオフ、AES が意味より表層特徴を見ること、LLM のハルシネーション、予測モデルの自己成就予言、強化学習の探索コスト、感情認識のプライバシー問題。これらを認識せず「最新技術＝最良」と考えるのは、教育という高ステークスな領域では危険です。

ここまで本書では、認知のモデル化、適応戦略、UI、AI の応用と、ものを「作る」側の話を続けてきました。次章からは視点を切り替え、「作ったものをどう確かめるか」——FCL 研究における評価の枠組みと統計的な道具立てを順に見ていきます。

さらに学ぶために

Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th ed.). Pearson.
Holstein, K., McLaren, B. M., & Aleven, V. (2019). Co-designing a real-time classroom orchestration tool to support teacher–AI complementarity. Journal of Learning Analytics, 6(2).
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103.
Baker, R. S., & Hawn, A. (2022). Algorithmic bias in education. International Journal of Artificial Intelligence in Education, 32(4).
Luckin, R., et al. (2016). Intelligence Unleashed: An argument for AI in Education. Pearson.

FCL 研究の評価

この章で扱う問い

本章の問いは、ただ一つです——本書のテーマに沿って作ったシステムが「効いた」と、僕たちはどうすれば言えるのか。形式化と中間表現を整え、ITS や適応的環境を実装したところで、それが学習者にとって本当に役立っているという証拠を示せなければ、本書の枠組みは工学的な実用には届いても、学問としての説得力を持ちません。第 12 章までは「何をどう作るか」を扱ってきました。本章と次章は、それを「どう確かめるか」を扱います。教育研究や Learning Analytics の研究室から来た方は馴染みのある話題が多いと思いますが、AI 系・HCI 系から学習支援に踏み込んだ方には、教育という領域がどれだけ評価を要求するかを感じてもらう章でもあります。

評価の枠組みは、結局のところ次の三つの軸に尽きます。何を測るのか（学習者の満足度なのか、知識獲得なのか、転移なのか、長期的な生涯影響なのか）。何と比べるのか（無処置との比較なのか、既存教材との比較なのか、人間家庭教師との比較なのか）。誰に対して妥当なのか（実験室の少数例で示された効果は、別の学校・別の学習者集団・別の文化圏にも当てはまるのか）。本章はこの三軸を順に立て、その上で本書の枠組みに固有の評価課題——中間表現が認知的に妥当かをどう示すか、説明可能性をどう評価するか、孤立したシステム評価を超えてエコシステム視点で測るとは何か——を論じます。次章（第 14 章）はこれらの問いに応える統計的な道具立てを与えます。

なぜ本書の枠組みに評価が必要か——「もっともらしさの罠」

本書のテーマに沿うシステムには、評価をしないで済ませたくなる強い誘惑があります。なにしろ、認知科学の理論を引き、形式化を行い、中間表現で記述し、それに基づいて適応的に介入する——構成原理のすべてに正当化の根拠が並んでいるのですから、効果がないはずはないように見えます。

しかし教育研究の歴史は、理論的にもっともらしいものほど、実証されてみると効果が思ったほどないか、むしろ逆効果だった という事例で埋め尽くされています。学習スタイルに合わせた指導は直感的ですが、メタ分析では効果が確認されません。動画を見せながら同じ内容のテキストを画面に出すのは「冗長性で記憶が定着する」と思われていましたが、実際にはワーキングメモリを圧迫して理解を妨げます（cognitive load theory の冗長性効果）。Cognitive Tutor の最初のフィールド研究（1996 年頃）は、研究室で見られた効果が現場ではほとんど消えてしまうところから始まりました。理論が正しいことと、特定のシステム実装が学習者を助けることのあいだには、必ず経験的なギャップがあるのです。

このギャップは、「形式化された理論に基づくから機能するはずだ」と論じるアプローチでこそ、いっそう警戒されるべきものです。形式化はあくまで「考えを揃え、検証可能にする」ための道具であって、考えそのものの正しさを保証しません。誤った認知モデルを精緻に形式化しても、学習者の現実から外れていれば、システムは精緻に外れ続けるだけです。形式化は仮説の表現手段であって、仮説の検証ではない。検証は経験データに依る——これが本章の出発点です。

加えて、本書の枠組みには固有の理由から評価が二重に重要になります。第一に、本書の枠組みは「説明可能性」を重視します。説明できるということは、説明が当たっているか、誤って当たっているように見えているだけかを区別する義務を負うということです。第二に、本書は中間表現の再利用とエコシステムの累積を目指します。再利用に値するかどうかは、誰かが使ったときにそのモデルが本当に学習を助けたという証拠の蓄積でしか正当化できません。形式化と再利用と評価は、三位一体なのです。

第一の軸——何を測るか

「効果があった」と言うとき、何が改善されたことを以って効果と呼ぶのかを、まず決めなければなりません。同じ介入が、見方を変えれば「大成功」にも「ほとんど無効」にもなります。

Kirkpatrick の四層モデルとその適用

企業研修の評価のために提案された Kirkpatrick の四層モデル [Kirkpatrick1994] は、教育技術にもよく適用されます。Level 1: Reaction（学習者が満足したか、続けたいと思ったか）、Level 2: Learning（知識・スキルを獲得したか）、Level 3: Behavior（学んだことを実際の文脈で使えているか＝転移）、Level 4: Results（組織や社会のレベルで結果が出たか——卒業率、進学率、社会参加など）の四層です。

レベル	名称	測定対象	測定方法の例	FCL での重み
1	Reaction	学習者の満足度	質問紙、評価アンケート	補助的
2	Learning	知識・スキルの獲得	事前事後テスト、パフォーマンス課題	中心
3	Behavior	実践での適用	転移課題、観察、追跡調査	中心
4	Results	組織・社会への影響	卒業率、進学率、長期的成果	重要だが測定困難

表 13-1: Kirkpatrick の四層モデルと FCL での重み付け

Duolingo のレビューが好評で利用者数が伸びているのは Level 1 の話であって、その利用者が CEFR の B1 に到達できたかどうかは Level 2 の話です。両者は相関するとは限りません——A/B テストで「ユーザーが楽しい」と「学習者が伸びる」が乖離する現象は、Duolingo 自身が公開している通り、実際にしばしば起きます（第 16 章参照）。FCL が測りたいのは原則 Level 2 と Level 3 です。Level 1 だけで判断してはならないし、Level 4 まで届かなければ社会的価値があるとも言い切れません。

測定が難しい層ほど重要になる

ここに評価の本質的な難しさがあります。測りやすいものは Level 1 と Level 2 の浅い側面——選択式テストの正答率、システム上のスキル習得フラグ——であり、真に重要なものは Level 3 以上の深い側面——別の文脈で同じスキルを再活用できるか、半年後にも保持されているか、その学習が次の学習に踏み切る自信や習慣を生んだか——です。

例えば代数学習で「両辺から定数を引く」操作の習熟率が上がっただけでは、文章題に変換された問題を解けるとは限りません。Cognitive Tutor の評価が単元末テストで効果が見えても次年度に持ち越されないという観察は、転移と保持の弱さとして報告されてきました。本書の評価設計では、Level 2 の浅いところで満足せず、転移課題の設計——文脈、表現、難度を学習時とずらした問題で検証すること——が必須です。

何を測るかは「価値判断」を伴う

第三に、何を測るかという問いはそれ自体が価値判断であることを忘れてはなりません（第 17 章とも繋がる論点です）。「正答率を上げる」を効果と呼ぶことは、「速く正確に答える学習者が良い学習者である」という前提を埋め込みます。これは概念的理解、創造性、批判的思考、メタ認知の発達といった他の価値を相対的に低く扱うことを含意します。形式化を重視するアプローチは、形式化しやすい指標——手続き的習熟、ステップ正答率、習熟確率の閾値到達——に評価が偏りやすい構造的バイアスを抱えます。設計者は、この偏りを意識的に補正する必要があります。

第二の軸——どう比較するか

「学習者の成績が伸びた」だけでは、それが介入のおかげなのか、自然な成熟や同時期に起きた他の出来事のおかげなのかが分かりません。比較こそが因果推論の核です。

ランダム化比較試験——内的妥当性のゴールドスタンダード

Randomized Controlled Trial（RCT）は、学習者を介入群と統制群にランダムに割り当て、群間のアウトカムの差を介入の因果効果として推定します。ランダム割り当てが鍵で、これにより観測されない交絡変数——潜在的な能力差、家庭環境、動機づけ——が群間で確率的に均等化されます。教育研究で RCT は内的妥当性（介入が本当に結果の原因か）の最高水準として位置付けられます [Shadish2002]。

具体例を一つ通して見ましょう。VanLehn のメタ分析 [VanLehn2011] でしばしば引かれる元実験——個別ステップフィードバック付き ITS と、大講義との比較——は、典型的にはこのような構造を取ります。物理または代数の同一カリキュラムを、介入群（ITS でステップフィードバックを受けながら問題を解く）と統制群（同じ問題を紙で解き、後でまとめて解説を聞く）に割り当てます。学習時間と学習量は揃えます。事前事後テストで知識獲得を、ずらした文脈の転移問題で深さを、半年後の保持テストで持続性を測ります。VanLehn のメタ分析は、こうした研究を集約した結果として、ステップレベルの ITS は人間の家庭教師に近い水準（効果量 $d \approx 0.76$ ）で、テキスト・大講義の統制条件を上回ることを示しました。

Cognitive Tutor の RAND 大規模評価 [Pane2014] は、同じ哲学を「実験室を出た」スケールで実行した稀有な事例です。テキサス州を中心に 7 学区 147 校・約 18,700 名の生徒を、学校単位（クラスター）でランダムに介入群と統制群に割り当てました。介入群は 1 年目に Cognitive Tutor 中心の代数 I カリキュラムへ移行し、2 年目もそのまま継続しました。1 年目は有意差なし、2 年目に介入群が標準テストで $d \approx 0.20$ 高かった。これが、教育介入として「実環境で再現性のある統計的有意差」として歴史に残る数字です。VanLehn の研究室実験での $d \approx 0.76$ と RAND の現場実験での $d \approx 0.20$ の差——ほぼ 4 倍——が、この章のあと半分で議論する「内的妥当性と外的妥当性のトレードオフ」の物質的な現れと言えるでしょう。

準実験デザイン——現場が押し付けてくる現実

教育現場では、クラスを無作為に割り当てることが倫理的・実践的に困難なことがしばしばあります。同じ学校内で「あなたのクラスは新システム、隣のクラスは旧来通り」と分けることは、保護者や教師の納得を得にくいです。そこで使われるのが 準実験デザイン です——異なる学校、異なる学期、異なる教師のクラスを比較します。

問題は当然、群間に事前の差（selection bias）が入り込むことです。新システムを導入する学校は、たいてい教師がもとから熱心で、設備が整っており、学力的にも上の側にいます。それを補正するために、いくつかの統計的手法が常用されます。

事前テストによる共変量調整（ANCOVA）は、事前テストの成績を共変量としてモデルに入れ、群間で「同じ事前学力ならどちらが伸びるか」を比較します。差分の差分法（Difference-in-Differences）は、事前事後の変化量を群間で比較し、各群の初期値の差をキャンセルします。傾向スコアマッチング（Propensity Score Matching）は、観測された特性（年齢、性別、過去成績、社会経済指標など）から「介入群に入る確率」を推定し、その確率が近い学習者同士をペアにして比較します。

デザイン	利点	欠点・課題
RCT	因果推論のゴールドスタンダード；交絡変数を制御；内的妥当性が高い	教育現場では実施困難；コストが高い；外的妥当性に課題
準実験デザイン	実践的に実施可能；現実的な文脈での評価；コストが低い	選択バイアスのリスク；統計的調整が必要；内的妥当性に課題

表 13-2: 実験デザインの比較

これらはどれも、観測されない交絡（measured covariate に乗ってこない要因）に対しては無力です。「同じ事前テスト得点でも、新システムを使う側のクラスは教師が三倍熱心だった」のような状況は、共変量調整では消えません。準実験は実用的ですが、結論を絶対視しないという習慣を要求します。

比較の単位——個人かクラスか

教育研究では割り当ての単位（個人なのか、クラスなのか、学校なのか）が決定的に重要です。クラスを単位に割り当てた研究を、個人レベルで分析するとサンプルサイズを過大評価して有意差を出しすぎてしまいます（クラスタリングの問題）。RAND の Cognitive Tutor 評価が学校単位での割り当てだったのは偶然ではありません——介入の本質が「学校全体のカリキュラム移行」であった以上、それより小さな単位では現場が成立しないのです。第 14 章で扱う階層線形モデル（HLM）は、この多層構造を正面から扱う統計的道具です。

第三の軸——誰に対して妥当か

VanLehn のメタ分析と RAND の評価で効果量に 4 倍近い差が生じたのは、被験者の質や数の違いだけではありません。研究室で示された効果が、別の文脈にどこまで一般化できるか——これが 外的妥当性（external validity）の問題です [Shadish2002]。

内的妥当性と外的妥当性のトレードオフ

研究室の RCT は、介入の純粋な因果効果を抽出するために、ノイズを徹底的に除去します。同質な大学生被験者、訓練された実験者、統制された時間と環境——これらは内的妥当性を最大化します。しかし同時に、現場では決して再現されない条件 を作り上げてしまうのです。実際の中学校では、学力差の大きい生徒が混ざり、教師は ITS の使い方に十分習熟しておらず、ネットワーク障害で 30 分遅れる日もあり、生徒の半数は前夜の睡眠が足りていません。

Cognitive Tutor の RAND 評価が 1 年目に有意差を出せなかった主因は、実装の忠実度——教師が研修通りに ITS の時間配分やダッシュボード活用を行えていたか——のばらつきでした。2 年目に効果が出始めたのは、教師がシステムに慣れ、実装が研究計画に近づいたからです。これが意味するのは、「ITS の効果」を測ったつもりで、実は「ITS と現場の摩擦」を測っていたという、教育介入評価が常に直面する逆説です。

両者を埋めるために、近年は段階的なアプローチが取られます——まず研究室で内的妥当性の高い実験で「効くこと」を示し、次に少数校でフィージビリティ研究を行い、最後にスケール RCT で「現場でも効くこと」を確かめます。Efficacy（理想条件での効果）と Effectiveness（現場条件での効果）の区別 は、教育評価の語彙として定着しています。本書のテーマに沿う評価設計は、これを意識的に切り分ける必要があります。

構成概念妥当性——「測ったものは本当に測りたかったものか」

外的妥当性と並んで重要なのが 構成概念妥当性（construct validity）です——テストで「代数の理解」を測ったつもりが、実は「テスト形式への慣れ」や「読解速度」を測っているだけかもしれません。本書の関心からは、特に次の三つが問題になります。

第一に、ITS の中で測れるスキルと、現実の数学的能力との対応 です。Cognitive Tutor が「両辺を割る」スキルを習熟と判定したことが、紙の試験で同じ操作を再現できることを意味するとは限りません。インタフェース固有の手がかり（例えば「次のステップ」ボタンの配置）に依存して問題を解いているかもしれません。

第二に、短期記憶と長期保持の混同 です。事後テスト直後の正答率は、長期記憶への定着を意味しません。間隔を空けた保持テスト、できれば翌学期のテストでの再評価が必要です。

第三に、多肢選択 vs パフォーマンス課題 です。多肢選択テストは採点が安全で大規模に実施できますが、深い理解、推論の柔軟性、概念の関連付けを測る能力は限定的です。FCL が標榜する「概念的理解」を評価したいなら、説明課題、誤り検出課題、転移課題などのパフォーマンス課題が必要となります。

文化的・社会的妥当性

本書のような形式化されたシステムは、開発元の文化的前提を内在させやすいものです。日本の数学教育は文章題の構造的読解を重視し（第 16 章で扱う Monsakun はその発想に立ちます）、米国の数学教育は手続き的流暢さを早期に重視します。日本で開発された認知モデルが米国の教室でそのまま機能する保証はありません。本書のエコシステム構想は中間表現の再利用を狙いますが、再利用するときに 文化的・教育制度的妥当性の再検証 が要ります——これは形式化の限界を画す重要な制約です。

本書の枠組みに固有の評価課題

ここまでの三軸——何を測るか、どう比較するか、誰に対して妥当か——は、教育介入研究全般に共通する話です。本書の枠組みに固有の評価課題は、これらの上に、さらに三つ加わります。

中間表現の認知的妥当性をどう示すか

本書の枠組みは中間表現を「学習者の認知構造のモデル」として書き下します。しかしそれが学習者の頭の中で実際に起きていることに対応しているかは、自明ではありません。例えば Cognitive Tutor は数学問題の解法を ACT-R プロダクションルールの集合として表現しますが、実際の学習者がそのルールに対応する操作を心の中で実行しているという証拠は、独立に確かめる必要があります。

確かめ方には二系統あります。一つは 予測的妥当性——モデルが「学習者がこのスキルでつまずく」と予測した箇所で実際に誤答が増えるか、モデルが習熟と判定した箇所で実際に転移課題でも成功するか。これは大規模ログデータで検証できます（第 14 章の HLM や BKT 分析がここで使えます）。もう一つは プロセス的妥当性——思考発話法（第 14 章）でのプロトコル分析や、視線追跡データで、モデルが想定する認知ステップが実際に観察されるか。後者は規模が出せませんが、モデルの意味的妥当性に直接迫れます。

本書の評価設計では、両方を組み合わせる必要があります。予測精度だけ高くて、内部のプロセスがブラックボックスでは、それは Deep Knowledge Tracing と区別がつかないからです。

説明可能性をどう評価するか

「説明可能である」というのは、本書の主張する核心的な価値の一つです。だがこれは検証されなければなりません。三つの観点で問えます。

正確さ——システムが提示する説明（「あなたはここでスキル X を誤適用した」）が、内部のモデル状態を正しく反映しているか。LLM が生成する説明は、しばしば内部状態と乖離します（事後合理化）が、これは形式モデルでも油断なりません。

理解可能性——その説明を、学習者・教師・保護者が実際に読んで意味を取れるか。形式的に正確でも、専門用語まみれで読まれない説明は、説明していることになりません。説明の理解度は、ユーザー研究（インタビュー、理解度クイズ、行動変容の追跡）で測ります。

行動への寄与——説明を読んだ学習者・教師は、その説明に基づいて自分の学習・指導を変えるか。説明可能性が「飾り」で終わらず、メタ認知的調整や教師の介入判断に実際に使われていることを示すには、説明の有無で群分けした介入実験が要ります。

エコシステム視点での評価——孤立から累積へ

第三に、本書の野心は「個別システムの効果」を超えて「エコシステムとしての累積」にあります（序章、第 15 章、第 18 章参照）。となると、評価の単位もまた、個別システムを超えて拡張されるべきです。

具体的には、次のような問いが評価の対象になります。ある中間表現で書かれた認知モデルが、別の研究グループによって再利用された頻度はどれくらいか。再利用されたとき、再利用先のシステムでも効果を生んだか。PSLC DataShop [Koedinger2010] のような共有データに対して、コミュニティが累積的に改善した知見の量はどれくらいか。これらは個別の RCT では測れない、コミュニティ・レベルの評価指標 です。

これは現状ほとんど整備されていません。学術論文の引用数や DataShop での再利用回数といった粗い指標で代替されているのが実情です。本書の発展は、エコシステム評価のメトリクスそのものを設計することを伴う——これは第 18 章の課題です。

評価設計の道筋——三軸を組み合わせる

これら三軸を実際の研究計画に落とすときの、典型的な道筋を示しましょう。

問いを言語化する ところから始まります——「このシステムは効くか」では雑すぎます。「このシステムは、どのレベル（Level 1〜4）で、何との比較で、どの集団に対して効くか」を明示します。本書の評価では、Level 2 と Level 3 を中心に据え、しかし「概念的理解」「転移」「メタ認知的調整」のうち何を中心とするかを宣言します。

比較条件を設計する。「介入なし」は弱い基準です。同等の学習時間で行う既存の方法、人間家庭教師、別の ITS、自分のシステムの一部機能を切り落としたバージョン（ablation）——どれと比べるかで結論の重みが大きく変わります。本書のように「説明可能性」「中間表現」「適応性」など複数のコンポーネントを持つシステムでは、ablation 比較がコンポーネント別の効果を分離する上で不可欠です。

割り当て単位を選ぶ。個人なのかクラスなのか学校なのか。本書の介入が「学習者の認知に直接働く」なら個人レベル、「教師の指導と組み合わさって機能する」ならクラスレベル、「カリキュラム全体の置き換え」なら学校レベル。割り当て単位より小さな単位での効果推定はできません。

外的妥当性の射程を宣言する。研究室実験なら「この結果はこの集団・この条件での効果である」と限定的に書きます。複数文脈での再現がなければ一般化は控えるべきです。これは本書のエコシステム志向にとって倫理的にも重要なところで——再利用される中間表現は、その評価の射程と一緒に流通すべきだからです。

事前登録を行う。仮説と分析計画を実験前に公開登録する慣習（pre-registration）は、HARKing（Hypothesizing After the Results are Known）を防ぎ、評価の信頼性を担保します。これは次章の話題ともつながります。

形成的評価と総括的評価——開発のサイクルへ

ここまでは「すでに作ったものをどう確かめるか」（総括的評価, summative evaluation）の話でした。本書の実際の研究では、もう一つの評価——開発の途中で設計を改善するための 形成的評価（formative evaluation）——が同じくらい重要になります。

形成的評価は、少数の学習者を対象にしたパイロット試行、思考発話法（第 14 章）による問題箇所の特定、教師との対話、A/B テストによるインタフェース改善の繰り返しから成ります。Wieman らの PhET は、各シミュレーションを開発する過程で多数の学生インタビューを反復し、設計を磨きました [Wieman2008]。これは Design-Based Research（第 14 章）の哲学そのものです。

形成的評価と総括的評価は対立しません——前者は仮説の精緻化、後者はその検証です。本書の評価は、両者の循環として組まれるべきです。中間表現に基づくシステムは、形成的評価で発見された誤概念や予想外の躓きを、中間表現の修正としてフィードバックできる——これが本書のエコシステム志向の中核的なプロセスです。

次章への橋渡し

本章では、FCL 研究の評価を「何を測るか」「どう比較するか」「誰に対して妥当か」の三軸で立て、その上に FCL 固有の三つの課題——中間表現の認知的妥当性、説明可能性の評価、エコシステム視点——を重ねました。これらは「枠組み」の話で、実際にこれらを実行するには統計的な道具立てが要ります。

次章では、その道具立て——効果量、検出力、多重比較補正、構造方程式モデリング、階層線形モデル、シーケンス分析、そして思考発話法やデザインベース研究といった質的・反復的手法——を、FCL 研究の具体的な場面に即して紹介します。統計が苦手でも追えるように、手を動かして確かめられる小さな例を多めに置きました。本章で枠組みを立てた問いに、定量的に答える術を見ていきましょう。

実験計画法と統計的分析

この章で扱う問い

第 13 章で「FCL 研究の評価とは何を測り、何と比べ、誰に対して妥当かを問うことだ」という枠組みを立てました。本章はその枠組みを動かすための統計的道具立てです。統計手法は、認知効果を客観的に検出するための言語 であって、研究者の直感を「データが何を支持しているか」に翻訳する役割を担います。とりわけ本書の評価では、(1) 効果がどれくらい大きいか（効果量）、(2) その大きさを検出するのに十分な実験か（検出力）、(3) 多くの仮説を同時に検定するときに偶然のシグナルをどう抑えるか（多重比較補正）の三点を理解しているかどうかが、研究品質を決定的に左右します。

数式が苦手なあなたへ、先に一言だけ。本章は数式を読み飛ばしても筋は追えるように書きました。 $\sum$ や $σ$ が並ぶページを前に身構える必要はありません。怖がらずに、まずは具体例の数字だけを目で追ってみてください。後から定義に戻っても遅くありません。

統計が苦手な学生も読めるように書きました。手を動かしながら追える例を多く置いていますので、定義を一度で完璧に飲み込めなくても、具体例の数字を電卓で確かめてみると感覚がつかめると思います。逆に、統計をすでに学んだ方には「本書の文脈ではこの手法がどう効くか」という視点を補ってもらえると幸いです。

本章はこれらを順に扱い、続いて学習データに固有の構造（多層性、時系列、潜在変数）を扱う高度な手法——構造方程式モデリング、媒介・調整分析、階層線形モデル、シーケンス分析、学習曲線——に進みます。最後に、定量的手法だけでは捉えきれない「なぜそう学んだか」を扱う質的手法（思考発話法、デザインベース研究、混合研究法）に触れて閉じます。すべての話題で、本書の文脈で「なぜこれが必要か」を意識しながら進みましょう。

効果量——「有意」と「意味のある」を分ける

統計的有意性（ $p < 0.05$ ）は「観測された差が偶然だけで生じた確率が小さい」と言っているにすぎません。サンプルサイズを増やせば、ほとんどあらゆる小さな差が有意になってしまいます。効果が実践的に意味があるかは、効果量（effect size）で別に評価しなければなりません。

群間平均の差を測る最も標準的な指標が Cohen's $d$ です [Cohen1988]。

$d = \frac{X ˉ _{treatment} - X ˉ _{control}}{S D _{pooled}}$

ここで $S D_{pooled}$ は両群のプールされた標準偏差で、 $S D_{pooled} = ((n_{1} - 1) S D_{1}^{2} + (n_{2} - 1) S D_{2}^{2}) / (n_{1} + n_{2} - 2)$ で計算します。

具体的に計算してみましょう。本書の枠組みに基づく代数 ITS の評価で、介入群（ $n_{1} = 64$ ）の事後テスト平均が $\overset{ˉ}{X}_{1} = 78$ 、 $S D_{1} = 12$ 、統制群（ $n_{2} = 64$ ）が $\overset{ˉ}{X}_{2} = 72$ 、 $S D_{2} = 13$ だったとします。プールされた標準偏差は

$S D_{pooled} = \frac{63 \cdot 144 + 63 \cdot 169}{126} = \frac{9072 + 10647}{126} \approx 12.51$

したがって $d = (78 - 72) /12.51 \approx 0.48$ 、すなわち中程度の効果です。これは VanLehn のメタ分析で報告された ITS の典型値（ $d \approx 0.76$ ）よりは小さいですが、Cognitive Tutor の RAND 大規模 RCT の効果量（ $d \approx 0.20$ ）よりは大きく——「研究室と現場のあいだ」に位置する数字だと解釈できます。

効果サイズ $d$	解釈	説明・例
$d < 0.2$	無視できる	実践的意義は小さい
$d \approx 0.2$	小	RAND の Cognitive Tutor 評価がここ
$d \approx 0.5$	中	明確に認識できる差
$d \approx 0.8$	大	顕著、ITS のメタ分析の典型値（ $d \approx 0.76$ ）はここ
$d > 1.0$	非常に大	教育研究では稀（個別家庭教師の Bloom 2σ がここ）

表 14-1: Cohen's $d$ 効果サイズの解釈と FCL 関連研究の参照点

実践的有意性は別の話です。 $d = 0.5$ で統計的にも実践的にも意味があっても、ユーザー一人当たり 100 ドルかかるシステムなら採用は難しいでしょう。費用対効果分析（cost-effectiveness analysis）と組み合わせて初めて、教育施策としての判断ができます。

なお Cohen's $d$ 以外にも、相関ベースの $r$ 、分散説明率の $η^{2}$ や $ω^{2}$ 、オッズ比など、設計に応じた効果量があります。重要なのは「何らかの効果量を必ず報告する」という規律です。

検出力分析——実験を始める前に必要な人数を決める

サンプルが小さすぎれば、真に存在する効果を見逃します（第二種の過誤, Type II error）。大きすぎれば資源の無駄です。実験を始める前に、必要なサンプルサイズを決めるのが 検出力分析（power analysis）の役割です。

検出力は、「真の効果が存在するときに、それを統計的に有意と判定できる確率」と定義されます。教育研究では一般に $power = 0.80$ （80%）が目安とされます。必要なサンプルサイズは、(a) 検出したい効果量、(b) 有意水準 $α$ （通常 0.05）、(c) 求める検出力——の三つから逆算できます。

具体例を一つ。独立 2 標本 $t$ 検定で「中程度の効果」 $d = 0.5$ を検出したい。 $α = 0.05$ （両側）、 $power = 0.80$ とすると、各群に約 64 名（合計約 128 名）が必要です [Faul2007]。これを「小さい効果」 $d = 0.2$ にすると、各群に約 394 名（合計約 788 名）に跳ね上がります。

この感度の差が、評価設計に与える示唆は重いものです。本書のように「形式化に基づく洗練された介入」を売り出すとき、研究者は内心 $d = 0.5$ 以上を期待しがちですが、Cognitive Tutor の現場での実勢は $d \approx 0.20$ です。現場で検出可能な効果を測りたいなら、各群数百名規模のサンプルが必要 ということになり、これは単一の研究室で集められる規模を超えます。本書のエコシステム構想（PSLC DataShop のような共有プラットフォーム）が必要になる現実的な理由の一つがここにあります。

逆に効果量 $d = 0.8$ を期待してよい状況——例えば家庭教師との比較で個別 ITS の効果を見るような研究——なら、各群 26 名で十分です。検出力分析は「期待される効果量によって必要規模が桁違いに変わる」ことを定量化する道具で、いずれの場合も、実験開始前に行うことに価値があります——終わってから「サンプルが足りなかった」と気づくのは遅すぎます。

G*Power [Faul2007] や R の pwr パッケージなどで、各種検定に対する検出力分析を実施できます。

多重比較——たくさん検定すると偶然が紛れ込む

複数の統計検定を同じデータで同時に行うと、偶然で有意な結果が出る確率が上昇します。独立な 20 個の検定をすべて $α = 0.05$ で実施すれば、少なくとも 1 つが偶然に $p < 0.05$ になる確率は

$1 - (1 - 0.05)^{20} \approx 0.64$

です。すなわち約 64%。本書の研究では、ITS の中の数十のスキル単位それぞれで「介入群が伸びたか」を検定したり、複数のサブグループ（学年、性別、事前学力）に分けて分析したりすることがあり、多重比較は日常的に発生します。

代表的な対策を、具体的な数字で比較してみましょう。10 個の独立な仮説を検定し、生の $p$ 値が小さい順に $0.001, 0.008, 0.015, 0.025, 0.033, 0.041, 0.05, 0.08, 0.10, 0.20$ であったとします。

Bonferroni 補正 は、有意水準を検定数で割ります—— $α^{'} = 0.05/10 = 0.005$ 。これより小さい $p$ 値は最初の $0.001$ のみで、有意と判定されるのは 1 件です。最も保守的で、検出力を大きく犠牲にします。

Holm 法（Holm-Bonferroni）は段階的に閾値を緩めます——小さい順に $i$ 番目の検定では $α / (11 - i)$ と比較します。 $0.001 < 0.05/10 = 0.005$ （有意）、 $0.008 < 0.05/9 \approx 0.0056$ （有意でない）。Holm では順次「これより上はもう有意としない」となるので、有意は最初の 1 件です。Bonferroni より検出力は高いのですが、この例では結果が同じになります。

FDR 制御（False Discovery Rate, Benjamini–Hochberg 法）は哲学が異なります——「有意と判定したうち、誤って有意とした割合（FDR）」を制御するのです。同じく $i$ 番目の $p$ 値を $i \cdot α / m$ （ここで $m = 10$ ）と比較します。 $0.05 \cdot 1/10 = 0.005$ 、 $0.05 \cdot 2/10 = 0.01$ 、 $0.05 \cdot 3/10 = 0.015$ 、…。 $p_{1} = 0.001 < 0.005$ 、 $p_{2} = 0.008 < 0.01$ 、 $p_{3} = 0.015 \leq 0.015$ 、 $p_{4} = 0.025 < 0.02$ ではない——ここで止まります。BH 法では「最大の $i$ で $p_{i} \leq i α / m$ となるところまで」が有意なので、この例では最初の 3 件が有意となります。FDR は「探索的に多数の候補を篩い分け、後で個別検証する」用途に向き、検出力を保ちながら偽陽性を制御できます。

補正法	有意件数（この例）	哲学	適する場面
補正なし	7 件（ $p < 0.05$ ）	各検定で個別判定	単一の事前仮説検定
Bonferroni	1 件	family-wise error の厳格制御	確認的な少数の主仮説
Holm	1 件	family-wise error の段階的制御	Bonferroni と同条件で検出力高
FDR (BH)	3 件	偽陽性割合の制御	探索的な多数仮説のスクリーニング

表 14-2: 多重比較補正法の比較（ $m = 10$ 検定の例）

本書の研究では、(a) 主仮説（「ITS 全体としての効果はあるか」）には Bonferroni か Holm、(b) 探索的な事後分析（「どのスキル、どのサブグループで効果が大きいか」）には FDR、と使い分けるのが標準的です。「補正なしで $p < 0.05$ を多数報告する」のは現代の評価基準では受け入れられません。

ベイズ的代替——「証拠の強さ」として読む

頻度論的検定（ $p$ 値、信頼区間）は教育研究の主流であり続けますが、近年はベイズ的アプローチも普及してきました。違いは哲学的でもあり実用的でもあります。 $p$ 値は「帰無仮説が真のときに観測データ以上の値が得られる確率」であって、「効果がある確率」ではありません。ベイズ因子（Bayes Factor, BF）は対立仮説と帰無仮説の事前/事後オッズの比で、「データはどちらの仮説をどれだけ支持するか」を直接示します。

具体的には、 $B F_{10} = 10$ なら「対立仮説（効果あり）が帰無仮説の 10 倍支持される」、 $B F_{10} = 0.1$ なら「帰無仮説が対立仮説の 10 倍支持される」と解釈できます。Jeffreys の慣習的な目安では、 $BF > 3$ で「中程度の証拠」、 $BF > 10$ で「強い証拠」、 $BF > 30$ で「非常に強い証拠」とされます。本書の評価で「効果がない」を主張したい場合（例えば ablation 比較で「説明可能性機能を外しても主要効果は変わらない」）、頻度論では「帰無仮説を採択」が原理的にできませんが、ベイズ因子なら「帰無仮説が支持される」を直接示せます。これは説明可能性や中間表現の貢献を分離評価したい FCL 研究で実用上の意味を持ちます。

学習データに固有の構造——多層・潜在・時系列

本書の評価で扱うデータは、単純な「介入群と統制群の事後テスト平均」では収まらない構造を持っています。学習者は学級にネストされ、学級は学校にネストされている。観測されない潜在変数（理解度、動機づけ）が観測変数（正答率、学習時間）の背後にある。学習は時間的プロセスで、行動の系列が意味を持つ。これらに対応する手法を順に見ていきましょう。

階層線形モデル（HLM）——個人とクラスを混同しない

学習者は学級にネストされ、学級は学校にネストされます。同じ学級の学習者は、同じ教師の影響を受け、同じ仲間と相互作用するため、互いに独立ではありません。通常の回帰分析は観測の独立性を仮定するため、この構造を無視すると標準誤差が過小評価され、有意差が出すぎてしまいます。

Hierarchical Linear Modeling（HLM、マルチレベルモデル）はこの構造を正面から扱います [Raudenbush2002]。例えば二層モデルの最も単純な定式化は次のようになります。

レベル 1（学習者）： $Y_{ij} = β_{0 j} + β_{1 j} X_{ij} + ϵ_{ij}$
レベル 2（学級）： $β_{0 j} = γ_{00} + γ_{01} W_{j} + u_{0 j}$

ここで $Y_{ij}$ は学級 $j$ の学習者 $i$ の成績、 $X_{ij}$ は個人レベルの変数（事前テスト得点など）、 $W_{j}$ は学級レベルの変数（教師の経験年数、ITS の利用時間など）です。 $u_{0 j}$ は学級レベルの誤差で、これによって「同じ学級の学習者は似ている」構造が表現されます。

Cognitive Tutor の RAND 評価が学校単位での割り当てだったように、本書のフィールド研究は本質的にクラスター構造を持ちます。HLM はその中で「個人レベルの効果」と「学級レベルの効果」を分離して推定できる——例えば「ITS そのものの効果」と「教師の使い方による効果」を切り分けることが可能になります。

構造方程式モデリング（SEM）と媒介・調整分析——「なぜ効くか」を数式で問う

本書の評価は「効くか」だけでなく「なぜ効くか」を問います。介入の直接効果と間接効果を分離するのが 媒介分析（mediation analysis）、効果がどのような条件で強まるかを見るのが 調整分析（moderation analysis）です [MacKinnon2008]。

具体例で見ていきましょう。本書の枠組みに基づく適応的システムが「学習成果（Y）」を改善するという結果が出たとします。これだけでは「なぜ」が分かりません。仮説として「適応性（X）が学習者の自己効力感（M）を高め、それが学習成果（Y）を向上させる」という媒介経路を立てます。

flowchart LR
    subgraph 媒介モデル
        X1["X（適応性）"] -- "a" --> Mm["M（自己効力感）"]
        Mm -- "b" --> Y1["Y（学習成果）"]
        X1 -- "c'（直接効果）" --> Y1
    end
    subgraph 調整モデル
        X2["X（介入）"] -- "β₁" --> Y2["Y（学習成果）"]
        W["W（事前知識）"] --> Y2
        X2 -. "相互作用 X×W (β₃)" .-> Y2
    end

図 14-1: 媒介分析と調整分析のモデル図。媒介モデルでは間接効果 $= a \times b$ 、総効果 $= c^{'} + a \times b$ 。調整モデルは $Y = β_{0} + β_{1} X + β_{2} W + β_{3} X W$ で表される。

Baron & Kenny [Baron1986] の古典的方法に対して、現在は Preacher & Hayes のブートストラップ法 [Preacher2004] で間接効果 $a \times b$ の信頼区間を直接推定するのが標準です。間接効果が有意で、直接効果 $c^{'}$ が小さければ「効果は完全媒介」、両方有意なら「部分媒介」と解釈します。

調整分析は「ITS の効果は事前知識の高い学習者でより大きい」のような交互作用仮説を検証します。本書の文脈では、「説明可能性は教師経験年数が浅いほど効果的」「適応的足場かけは事前知識が低い学習者ほど効果的」のような問いに使えます。

これらをまとめて多変数の因果構造として推定するのが 構造方程式モデリング（SEM, Structural Equation Modeling）です [Kline2015]。観測変数（学習時間、課題完遂率、自己申告の興味）から潜在変数（動機づけ）を構成し、潜在変数間の因果パスを推定します。

flowchart LR
    U["使いやすさ"] -- "β₁" --> M["動機づけ"]
    M -- "β₂" --> O["学習成果"]
    U -- "β₃ (直接効果)" --> O

図 14-2: SEM による因果構造の例。間接効果 $= β_{1} \times β_{2}$ 、総効果 $= β_{3} + β_{1} \times β_{2}$

Arroyo らは Wayang Outpost の評価で SEM を用い、感情認識システムが学習者の感情状態（潜在変数）を改善し、それが学習成果に影響するという経路を示しました [Arroyo2014]。これは本書の枠組みにおける「説明可能性 → メタ認知の改善 → 自己調整学習の獲得 → 長期成果」のような多段階仮説の検証のひな型でもあります。適合度指標（CFI、RMSEA、SRMR など）で、モデルがデータにどの程度適合するかを評価します。

学習プロセスを時系列として見る

学習は時間軸上のプロセスです。本書の評価では、行動ログを時系列として分析することで、単純な事前事後比較では見えないパターンが浮かび上がります。

Differential Sequence Mining——成功者と失敗者の行動シーケンスの差

DSM（差分シーケンスマイニング）は、二つのグループ（成功者 vs 失敗者、介入群 vs 統制群）間で、行動シーケンスのパターンがどう異なるかを発見します [Kinnebrew2013]。

例えばプログラミング学習で、各学習者の行動を「コード入力」「実行」「エラー」「ドキュメント参照」「修正」「テスト」のシーケンスとして表現します。成功した学習者は「エラー → ドキュメント参照 → 修正 → テスト → 成功」というシーケンスを高頻度で示し、失敗した学習者は「エラー → ランダムな変更 → エラー → ランダムな変更」というパターンに陥っている、といった対比が定量化できます。Blikstein は実際にプログラミング学習環境で、成功した学習者の特徴的な行動パターン（試行錯誤の後に計画的な設計に移行する）を発見しました [Blikstein2011]。

本書の文脈では、DSM は中間表現の妥当性検証にも使えます。「中間表現が想定する認知ステップ」と「実際の行動シーケンス」の対応を見ることで、モデルが捉え損なっている学習プロセスが見つかるからです。

状態遷移と隠れマルコフモデル

学習者の認知状態を離散的な状態（「未理解」「部分理解」「完全理解」）として表し、状態間の遷移を確率的にモデル化します。観測可能な行動（正答・誤答）から観測されない内部状態（理解度）を推定する 隠れマルコフモデル（HMM）は、Bayesian Knowledge Tracing（第 9 章）の数理的核です。

flowchart LR
    S1(("未理解"))
    S2(("部分理解"))
    S3(("完全理解"))
    S1 -- "0.3" --> S1
    S1 -- "0.6" --> S2
    S1 -- "0.1" --> S3
    S2 -- "0.4" --> S2
    S2 -- "0.1" --> S1
    S2 -- "0.5" --> S3
    S3 -- "0.9" --> S3
    S3 -- "0.1" --> S2

図 14-3: 学習状態の遷移図の例。各矢印の数値は遷移確率を示す。完全理解に到達すると高確率で維持されるが、忘却により部分理解に戻る可能性もある。

本書の評価では、「介入の前後で遷移行列がどう変化したか」「どの状態間の遷移が困難か」を比較できます。例えば「ITS 介入後、部分理解 → 完全理解の遷移確率が 0.3 から 0.5 に上昇した」のような形で、介入の効果を遷移確率の変化として報告できます。

学習曲線——習熟の速さと到達レベル

学習曲線は、試行回数に対するパフォーマンス（エラー率、解答時間など）の変化を示すものです。多くのスキル学習は、近似的にべき乗則に従うことが報告されています [Newell1981]。

$T = a + b \cdot N^{- c}$

$T$ は試行 $N$ での所要時間、 $a$ は漸近的パフォーマンス、 $b$ と $c$ は学習速度パラメータです。近年は指数則のほうが個人レベルの曲線によく適合するという指摘もあり [Heathcote2000]、関数形は対象現象に応じて選ぶ必要があります。

本書の文脈では、学習曲線は次の三点を定量化できます。(i) どちらのシステムで速く習熟するか（ $c$ の比較）、(ii) 最終的な到達レベル（ $a$ の比較）、(iii) 個人差はどの程度か（パラメータの分散）。例えば $T = 20 + 200 N^{- 0.5}$ （システム A）と $T = 30 + 250 N^{- 0.3}$ （システム B）を比べると、A は減衰が速く漸近線も低い——つまり「速く高みに達する」と解釈できます。PSLC DataShop [Koedinger2010] は大規模な学習曲線データを公開し、研究者が分析手法を開発・検証できるようにしています。

ラグ系列分析——「A の後に B」のパターンを統計的に問う

ラグ系列分析（Lag Sequential Analysis）は、行動の時系列における遷移パターンを統計的に分析する手法です [Bakeman1997]。「教師の質問の後に学習者の正答が、偶然より有意に多く起こるか」のような問いに答えます。

行動を離散カテゴリーにコーディング（教師質問 T-Q、学習者正答 S-A、学習者誤答 S-E、教師フィードバック T-F など）し、ラグ 1 で「行動 X の後に行動 Y が何回起こったか」の遷移頻度を集計します。

先行行動＼後続行動	T-Q	S-A	S-E	T-F
T-Q	2	25	18	5
S-A	20	3	2	15
S-E	8	2	3	22
T-F	30	10	8	2

表 14-3: 遷移頻度行列の例

各行動 Y の全体での出現確率から偶然に期待される頻度を計算し、観測値との差を Z スコアで評価する。簡便な近似で

$Z \approx \frac{f _{observed} - f _{expected}}{f _{expected}}$

で、 $∣ Z ∣ > 1.96$ で両側 5% 水準で有意となります。Allison & Liker による調整 Z など、より精緻な定式化も用いられます。Chiu は協調学習における発話系列分析で、グループ内の発話の流れと学習成果の関係を検討しました [Chiu2008]。

本書の文脈では、ラグ系列分析は「ITS の介入が学習者の行動パターンをどう変化させたか」を直接的に検証できます。例えば「適応的ヒントの導入前後で、『ヒント閲覧 → 正答』の遷移確率が増加したか」「説明可能性機能を有効にすると、『誤答 → 説明閲覧 → 修正』のシーケンスが増えたか」といった形で、機能の有無が学習プロセスに与える影響を時系列で追跡できます。

質的手法——「なぜそう学んだか」に応える

ここまでの定量手法は「何が起こったか」「どれくらい効果があったか」を語るのに優れています。しかし「なぜそう学んだか」「学習者の頭の中で何が起きていたか」を理解するには、質的手法が要ります。

思考発話法とプロトコル分析

学習者に課題を解きながら考えていることを声に出してもらい、録音・分析します。Ericsson and Simon の古典的方法論は、認知プロセスの詳細な分析を可能にしました [Ericsson1993]。手順は単純です——練習課題で「考えを声に出す」ことに慣れさせ、本課題を実施しながら録音、逐語的に書き起こし、コーディングスキームで分析する、という流れです。

例えばプログラミング初学者がエラーメッセージをどう解釈するかを調べたいとき、「あれ、ここでエラーが…『undefined variable』って何だろう。x のスペルミスかな？」といった発話から、エラー理解の過程を追えます。これは本書の中間表現の妥当性検証に直接使えます——モデルが想定する誤概念が、学習者の発話で実際に確認できるかどうか、というわけです。

注意点として、思考発話自体が認知プロセスを変化させる可能性（リアクティビティ）があります。Ericsson & Simon は、短期記憶内容の単純な言語化（Level 1, 2）は認知過程を大きく変えないが、説明や理由づけを求める発話（Level 3）は認知を変えうると指摘しています。実務では課題実行中の concurrent 発話と、課題後の retrospective 発話を目的に応じて使い分けます。

Chi のプロトコル分析フレームワーク [Chi1997] は、発話を意味的単位にセグメント化し、カテゴリーに分類して定量化します。

カテゴリー	説明	発話例
理解的発話	概念やメカニズムの理解を示す	「ああ、ループは配列の各要素を処理するんだ」
メタ認知的発話	自分の理解や戦略を監視・調整	「ここで詰まっているから、例を見てみよう」
誤概念的発話	誤った理解を示す	「変数は一度しか使えないんだっけ？」
手続き的発話	手順やステップを述べる	「まず変数を宣言して、次にループを書く」
感情的発話	感情や動機づけの状態を示す	「これは難しい…でも頑張ろう」

表 14-4: プロトコル分析におけるカテゴリーの例

複数の研究者が独立にコーディングし、一致率（Cohen's $κ$ ）を計算します。教育研究では $κ \geq 0.70$ 程度が実務的な許容範囲とされています。

デザインベース研究——介入と理論の循環

Design-Based Research（DBR、デザイン実験）は、教育技術研究に特に適した方法論です [DesignBasedResearch2003]。実践的問題解決と理論構築を統合するアプローチで——研究者は実際の教育現場で介入を設計・実装し、効果を評価し、設計を改善するサイクルを反復します。

flowchart LR
    A["1: 問題の特定"] --> B["2: 設計原則の仮説"]
    B --> C["3: 実装と評価"]
    C --> D["4: 反省と改善"]
    D --> A

図 14-4: デザインベース研究（DBR）の反復サイクル。複数サイクルを通じて設計原則を洗練し、理論的知見を生成する。

DBR の成果は単なる「このシステムは効果があった」ではなく、「このような設計原則に基づけば、このような文脈で、このような学習が促進される」という理論的主張です。例えば Betty's Brain システム [Biswas2005]（第 16 章で扱います）は、複数年にわたる教室実装と評価を通じて teaching agent の設計原則とメタ認知支援の理論を洗練した好例です。

本書の評価で DBR が重要なのは、中間表現と教授戦略の設計原則を「現場で繰り返し試して磨く」プロセスとして組めるからです。形成的評価（第 13 章）と DBR は哲学的に親和性が高いと言えるでしょう。

混合研究法——量と質を組み合わせる

Mixed Methods Research は、量的手法と質的手法を統合します [Creswell2011]。RCT で学習効果を検証しつつ（量）、インタビューでなぜその効果が生じたかを理解する（質）ことで、より豊かな知見が得られます。

統合戦略には、複数のデータ源から同じ現象を検証する トライアンギュレーション、量が「何が」を、質が「なぜ」を示す補完、一方の結果から他方を設計する展開などがあります。本書の評価では、ログデータから DSM で異常パターンを検出し（量）、該当学習者にインタビューで掘り下げる（質）、といった組み合わせが典型です。

妥当性の脅威——常に意識すべきもの

研究の妥当性には複数の種類があり、それぞれに脅威があります [Shadish2002]。第 13 章で外的妥当性と構成概念妥当性を扱ったので、ここでは残りの二つを補います。

内的妥当性（介入が本当に結果の原因か）への脅威には、歴史的要因（同時期の他の出来事）、成熟（学習者の自然な発達）、選択バイアス、検査効果（事前テストの影響）、統計的回帰などがあります。RCT は内的妥当性を高めますが、教育現場では実装ばらつきが新たな脅威を生みます。

統計的結論妥当性（統計的推論が適切か）への脅威は、サンプルサイズが小さすぎる、検定の仮定（正規性、等分散性、独立性）を満たさない、信頼性の低い測定を用いる、多重比較を補正しない、などです。本章で扱った効果量・検出力・多重比較の話題は、まさにこの妥当性の保護のためにありました。

倫理とオープンサイエンス

学習データは個人の認知プロセスの詳細な記録で、倫理的配慮が要ります——インフォームドコンセント、データ最小化、匿名化、GDPR・FERPA・個人情報保護法などの法的遵守、統制群への配慮（待機リスト統制、クロスオーバーデザイン）、機械学習を用いる場合の公平性指標の評価（第 17 章で詳述します）。

研究の透明性のためには、CONSORT 声明 [Schulz2010] のような報告基準に従うこと、事前登録（pre-registration）で仮説と分析計画を実験前に公開し HARKing を防ぐこと、データとコード、可能なら学習ログそのものを公開すること（プライバシー保護との両立を図りつつ）、オープンアクセスで公開することなどが推奨されます。これらは本書のエコシステム志向と直結します——再現可能で累積的な研究文化なくして、エコシステムは成立しないからです。

次章への橋渡し

本章では、本書の評価を支える統計的・方法論的道具立てを、効果量・検出力・多重比較から始め、HLM・SEM・媒介分析・シーケンス分析・学習曲線、そして思考発話法・DBR・混合研究法へと進めてきました。これらは「本書の評価を厳密にやる」ための語彙であり、第 13 章の「何を測るか・どう比較するか・誰に対して妥当か」の三軸を実装する手段です。

ここで扱った統計の話と、研究計画・論文化・査読対応のような「実践知」の側は地続きです。研究実装のスキル面（実験デザイン・原稿執筆・可視化など）は、姉妹編「研究の一歩目」の第 5 部「研究スキルと実践知」にまとまっていますので、必要に応じて行き来してみてください。

第 13 章と第 14 章で「評価」の節を閉じます。次章からは視野をさらに広げ、FCL を取り囲む関連分野——ITS、AIED、Learning Analytics、Educational Data Mining、Learning Engineering——との関係を見ていきます。FCL とそれぞれの分野は、競合よりむしろ強みの違う隣人として、どう協調し得るのかを整理してみたいと思います。

分野	駆動原理	出発点	中心成果	代表例
EDM	データ駆動	学習ログ	パターン発見、予測モデル	Gaming detector、Q 行列学習
LA	データ駆動	学習ログ	ダッシュボード、早期警報	Course Signals
AIED 主流	データ駆動寄り	データと AI 技術	予測モデル、対話システム	DKT、LLM チューター
LE	中立（プロセス工学）	実装プロセス	A/B テスト、反復設計	Duolingo、ASSISTments TestBed
ITS	理論駆動寄り	認知理論	個別指導システム	Cognitive Tutor、ALEKS
FCL	理論駆動 + 形式化志向	認知科学・教育心理学	形式化された中間表現とエコシステム	（本書全体が提案）

応用事例——いま動いているシステムを見渡す

この章で扱う問い

本章は 応用事例の章 です。「答えを返すだけでは、なぜ学ぶ力は育たないのか?」という本書を貫く問いを、ここでは具体的なシステムに即して見ていきます。前章までに整理してきた認知科学・知識工学・ITS の理論が、現実の教育現場で動いているシステムにどう結実しているのか——代表的な十数のシステムについて、(1) 誰がいつ何のために作ったか、(2) どのような認知モデル・学習モデルに基づくか、(3) 実際の学習者から見た UI・データの流れはどうなっているか、(4) 効果を裏付ける証拠は何か、(5) 限界と未解決問題は何か、を、できるだけ具体的に並べていきます。

その上で、これらを本書がたびたび戻ってきたいくつかの軸——形式化、認知科学との結合、中間表現、エコシステム指向、説明可能性 (第 13 章参照)——から横断的に眺め直します。Cognitive Tutor、ASSISTments、ALEKS、Khan Academy、Duolingo、Error-based Simulation、Monsakun、AutoTutor、Wayang Outpost などは、本書のどの枠組みのために作られたわけでもありません。けれども、それぞれの設計判断のなかに、本書が大事にしてきた発想と重なる部分・離れる部分が見えてきます。事例から学ぶことで、次世代システムが目指せる具体像が、少しずつ手触りをもって浮かび上がってくるはずです。

ITS や AIED の開発に関心のあるあなたには、ここで挙げる十数の設計事例が「自分の研究領域はこのなかのどこにいて、どこに空きがあるか」を考える手がかりになるでしょう。認知モデルの形式化に関心があるなら、各システムが認知のどの粒度をどう書き下しているかを並べて比べてみてください。

論文化や発表のスキルそのものは本書ではあまり踏み込みません。研究としての書き方・伝え方を体系的に学びたい場合は、姉妹編『研究の一歩目』(https://koike-lab.org/) の第 5・6 部にまとまっています。本書はそちらと対をなす「分野コンテンツ編」として、システムの中身そのものに紙幅を使っていきます。

本章の構成は次の通りです。まず数学・科学の ITS として Cognitive Tutor / MATHia、ASSISTments、ALEKS、Khan Academy を扱います。続いて言語学習として Duolingo、エッセイ評価として Criterion を取り上げます。次に問題解決・推論支援として AutoTutor、Wayang Outpost / MathSpring、iTalk2Learn を概観します。日本の AIED 研究の重要な貢献である Error-based Simulation と Monsakun には独立した節を設け、認知的衝突 (cognitive conflict) と問題作成 (problem posing) という 2 つのアプローチを詳しく紹介します。さらにプログラミング教育、科学探究、専門職教育の事例を扱い、僕の研究室で進めているささやかなプロジェクトも一例として並べてから、最後に横断的な見方と研究上の提案でまとめます。

数学・科学の ITS

数学教育は ITS の最も成功した応用領域です。手続き的知識が形式化しやすく、誤りパターンが体系的で、評価が客観的に行えるからです。一方で概念的理解、表現の柔軟性、文章題の意味理解など、形式化が容易でない側面も豊富にあり、問題作成・概念理解・適応的評価といった多様なシステムが共存しています。

Cognitive Tutor / MATHia (Carnegie Learning)

Cognitive Tutor は Carnegie Mellon 大学の John R. Anderson らのグループが 1980 年代後半から開発を進め、1990 年代後半に Pittsburgh の公立学校への大規模導入で広く知られるようになった代数・幾何の ITS です [Anderson1995]; [Koedinger1997]。商用化のために Carnegie Learning 社が 1998 年に設立され、現在は Web ベースの MATHia として米国の中学・高校で広く使われています。Cognitive Tutor の理論的基盤は Anderson の ACT-R 認知アーキテクチャ (第 2 章参照) であり、数学の問題解決を プロダクションルール の系列として表現する点が決定的に特徴的です [Anderson1993]; [Anderson2007]。

実際の学習者体験を見てみましょう。一次方程式 $3 x + 5 = 14$ を解く画面では、左側に問題が表示され、右側に複数列のワークシートがあります。学習者は「両辺から 5 を引く」「両辺を 3 で割る」「 $x$ の値を確認する」といった各ステップを自分で書き込んでいきます。各ステップ入力ごとに、システムは内部の 認知モデル——当該領域で熟達した人間がもつであろうプロダクションルールの集合——と入力を照合する モデル追跡 (model tracing) を行い、正しいプロダクションが適用されたか、典型的な誤適用 (bug rule) のいずれに該当するかを判定します。誤りに対しては即座にフィードバックが返り、学習者がつまずいた場合には段階的なヒント (scaffolding) が 3〜4 段階に分けて提示されます。並行して Bayesian Knowledge Tracing (BKT) [Corbett1995] が個々のスキル (knowledge component, KC) の習得確率を更新し、Mastery Learning の閾値 (典型的には $p (習得) \geq 0.95$ ) に達したスキルは練習対象から外されます。教師には、クラス全体・個人別の習得状況を示すダッシュボードが提供されます。

効果については Pittsburgh やその後の多くの学区で蓄積されたエビデンスがあります。代表的な評価として、Pane et al. (2014) が RAND Corporation の主導で実施した大規模 RCT があります。147 校・約 18,700 名の生徒を対象とし、2 年間の介入を行った結果、Cognitive Tutor を fidelity 高く運用した学校 で標準テストに対して効果量 d ≈ 0.20 程度の有意な学習効果が報告されました [Pane2014]。VanLehn (2011) のメタ分析でも、ステップレベルの個別フィードバックを行う ITS は人間の個別指導に近い効果量を示すことが指摘されています [VanLehn2011]。

一方で限界も明確です。第一に、認知モデルは数学領域に特化しており他領域へ転用できません。第二に、概念的理解 (なぜその手続きが正しいのか) の評価は手続きに比べて弱いです。第三に、効果は実装の忠実度に強く依存し、教員研修や授業時間配分が崩れると効果は失われます。第四に、開発コストは膨大で、ユニットを一つ作るためにかなりの時間の認知タスク分析が必要とされます。これらの限界は、Cognitive Tutor 単体ではなく 教員と組み合わせて使う Learning Engineering 的な運用 (第 13 章参照) を必要とすることを意味します。

ASSISTments (Heffernan, WPI)

ASSISTments は Worcester Polytechnic Institute (WPI) の Neil Heffernan と Cristina Heffernan が 2003 年頃から開発を進めている、宿題支援を中心とする数学学習プラットフォームです [Heffernan2014]。名前は "assist" + "assessments" の合成で、生徒を 援助しながら同時に評価する という設計思想を表しています。教師は授業の延長として、既存の教科書やワークシートに対応する問題セットを ASSISTments で配信します。生徒は自宅で問題に取り組み、誤った解答を入力すると即座に hint や正解、関連する補助問題 (scaffolding question) が提示されます。翌朝にはクラス全員の解答ログがダッシュボードに集約され、「どの問題でクラスの何割がつまずいたか」が一目で分かる Common Wrong Answer Reports が表示されます。

ASSISTments のもう一つの大きな特徴は、米国の研究者コミュニティに対する TestBed としての役割です。新しい hint 生成アルゴリズム、新しい問題形式、新しいフィードバック介入を、既存の利用者集団に対して A/B 形式で容易に実験できる仕組み (ASSISTments TestBed, E-TRIALS) が用意されており、多くの学習科学・EDM 研究の基盤となっています。Roschelle et al. (2016) は、Maine 州の 7 学年生徒約 2,800 名を対象とした大規模 RCT を実施し、ASSISTments を 1 年間使った群が対照群に比べて、州標準テスト (MCAS) で効果量 d ≈ 0.22 (およそ 1 学年分の追加学習に相当) の有意な改善を示すことを報告しました [Roschelle2016]。学校全体で展開可能で、Educator Reports Tool による教師の介入意思決定が学習効果に寄与していることが示唆されています。

限界としては、ASSISTments はあくまで 問題提示と即時フィードバック に特化しており、Cognitive Tutor のような内的な認知モデルやステップ単位のモデル追跡をもちません。学習者が「なぜ間違えたか」の理由は教師や hint 設計者が事前に書いておく必要があります。また、本格的な習熟度推定や適応的問題選択は研究プロジェクトベースで実装されているものの、デフォルトの利用形態では教師がカリキュラム順を選びます。

それでも、ASSISTments の 教師中心の設計思想 (「教師の意思決定を補強するためのデータを提供する」) は、ITS が孤立して稼働するのではなく classroom orchestration の一要素として位置づけられるべき、という Holstein らが強調する方向性と一致しており [Holstein2019]、教育実践と研究を継続的につなぐ稀有な事例となっています。

ALEKS (McGraw-Hill, Knowledge Space Theory)

ALEKS (Assessment and LEarning in Knowledge Spaces) は、Jean-Claude Falmagne と Jean-Paul Doignon らが提唱した Knowledge Space Theory (KST) [Doignon1999]; [Falmagne2006] を基盤に、UC Irvine 発のスタートアップが商用化したシステムで、現在は McGraw-Hill 傘下にあります。K-12 から大学初年次レベルの数学・科学を中心に、米国を中心とした広範な学校・大学で利用されています。

KST の核は、ある領域の知識項目集合 $Q$ について、学習者がもち得る「実際に観察され得る知識状態」の全体 $K \subseteq 2^{Q}$ を考えるという発想です。 $K$ は項目間の前提関係に従って閉じた knowledge space をなします。例えば「2 桁の足し算ができる」が「3 桁の足し算ができる」の前提なら、後者を含む状態は必ず前者を含みます。学習者の知識状態は単なるスカラー能力 $θ$ (IRT, 第 3 章参照) ではなく、 $Q$ の 部分集合 として表現されます。ALEKS の 初期評価セッション では、学習者に 25〜30 問程度の問題が適応的に提示され、各回答ごとに Bayesian 更新で「現在の knowledge state がどの集合か」の確率分布が絞り込まれていきます。

評価が終わると、学習者には円形のダッシュボード (pie chart) が示され、すでに習得済みの項目、いま学習可能な項目 (outer fringe: 現状態に 1 項目を足せば移行可能な状態の差分)、まだ前提が揃っていない項目が色分けされます。学習者は学習可能な項目のリストから次に取り組むトピックを選び、概念説明と練習問題のペアに進みます。一定のミニ評価ごとに knowledge state が再推定され、円グラフが更新されます。Falmagne et al. (2006) の総説および McGraw-Hill が公開する内部評価では、ALEKS 利用が標準テストや単位取得率を有意に改善することが報告されています [Falmagne2006]。一方で、KST は膨大な knowledge space を専門家の判断とデータから構築する必要があり、構築コストとモデルの透明性に関する批判もあります。また、純粋に手続き的・項目的な学習に強い反面、概念的・探究的学習との相性は限定的です。

Khan Academy

Khan Academy は、2006 年に Salman Khan が親類向けに作った数学解説 YouTube 動画から始まり、現在は数学・科学・人文学・経済学・コンピュータ科学など広範な領域を扱う非営利の無料オンライン学習プラットフォームに成長しました。月間アクティブ利用者は世界で 1 億人を超え、規模の点では本章で扱う他のどのシステムをも圧倒しています。

学習者の体験は次のようになります。各トピックは数分の解説動画と、自動採点付きの練習問題の組で構成され、学習者は mastery-based progression によって進みます。例えば「分数の足し算」で連続正答数が一定数に達すると、そのスキルは "Familiar"→"Proficient"→"Mastered" と段階を上がっていきます。各単元の前提関係は Knowledge Map として可視化され、学習者は自分の進度マップを俯瞰できます。教員・保護者向けには進捗ダッシュボードがあり、教室での補助教材としても広く使われています。

研究上の特徴は、Cognitive Tutor のような 理論駆動の精緻な認知モデル を持たないことです。スキル間の前提関係は専門家の判断で記述され、学習者の状態は単純な連続正答カウントで管理されます。それでも巨大なリーチによる教育機会の平等への寄与は大きく、補助的に利用される設定での穏やかな学習効果は複数の準実験的評価で報告されてきました。2023 年以降、Khan Academy は GPT-4 を活用した Khanmigo を一部の学校で実証導入しています。Khanmigo は学習者の質問に答えるだけでなく、教師に対する授業計画や差別化提示の支援、ライティングの相手役 (Socratic dialogue) など、複数の役割を担う設計です。教育的効果は 2026 年現在まだエビデンス蓄積の途上ですが、LLM を ITS の枠組みに組み込む大規模実装の代表例として注目されています [Pardos2023]; [Stamper2024]。トレードオフは明確で、巨大なスケール と 弱い認知モデル の組み合わせは、個別の躓きの構造的診断には弱く、ハルシネーションのリスクも残ります。

言語学習

言語学習は規則性 (文法・語彙) と例外、長期記憶への定着、発音や聴取といった非テキスト・モダリティが入り混じる領域で、ITS の多様な側面が試される場です。

Duolingo: 大規模 A/B テストと half-life regression

Duolingo は 2011 年に Luis von Ahn と Severin Hacker が始めた語学学習アプリで、現在は 100 以上のコース、月間アクティブユーザ約 1 億人を抱える世界最大級の言語学習プラットフォームです。ゲーミフィケーション (XP, streak, league, heart system) と短時間レッスン (典型的には 1 レッスン 2〜5 分) を中心とし、空き時間学習に最適化された設計が特徴です [Deterding2011]。

Duolingo の認知科学的に最も興味深いコンポーネントは、語彙の長期記憶定着のための 間隔反復スケジューラ です。Settles & Meeder (2016) は、half-life regression (HLR) と呼ばれる手法を提案・公開しました [Settles2016]。各単語ペア $(u, w)$ について、現在の記憶強度を半減期 $h$ で表現し、最後のレビューからの経過時間 $Δ$ に対して想起確率を $p = 2^{- Δ/ h}$ とモデル化します。 $h$ は学習者・単語の特徴量 (過去の正解回数、誤答回数、その単語固有の難しさなど) から線形回帰で推定され、学習者の忘却曲線 (第 5 章参照) を個別に近似します。スケジューラは「想起確率が一定の閾値を下回る直前」に当該単語を復習問題として浮上させます。これは Atkinson の最適スケジューリング、Pimsleur のグラデーテッド間隔反復、SuperMemo の SM-2 アルゴリズムなどの伝統に連なる、認知理論と機械学習の橋渡しの好例といえます。

Duolingo は同時に、UI、レッスン構造、難易度カーブ、通知文面に至るまであらゆる要素を 大規模 A/B テスト で最適化することで知られます [Settles2016]。これは Learning Engineering (第 13 章参照) の反復最適化サイクルが極限まで産業化された例といえます。一方で、A/B テストの最適化指標は 学習成果ではなくエンゲージメント (継続率、レッスン完了数) に偏りがちで、「どれくらい英語が話せるようになるか」と「どれくらい毎日アプリを開いてくれるか」の間にはしばしば乖離が生じます。"learning vs engagement" のトレードオフは Duolingo 自身も認識する課題で、社内研究グループは CEFR 準拠の言語熟達度評価との対応付けを継続的に発表しています [Settles2016]。

Criterion: 自動エッセイ評価とフィードバック

Criterion は Educational Testing Service (ETS) が開発した、英文エッセイの自動評価とフィードバックを行う Web サービスです [Burstein2004]。学習者がエッセイを提出すると、文法・用法・スタイル・構成・論理展開の 5 側面それぞれにスコアと具体的なフィードバックが返ります。例えば「パラグラフ間の接続詞が不足している」「同じ語彙の繰り返しが多い」「主張に対する根拠が示されていない」といった指摘がインライン注釈として表示されます。

Criterion の核となる採点エンジンは e-rater で、表層特徴量 (語彙の多様性、文長、構文の複雑度、ディスコースマーカーの使用パターンなど) を回帰モデルで人手評価スコアに対応付けます。学習者向け利用法として最も推奨されるのは「下書き段階での自己評価ツール」としての使い方で、これにより推敲を重ねる動機付けが高まることが報告されています。一方、Perelman (2014) ら批判者は、e-rater が長く複雑な文を機械的に高評価する傾向、深い意味理解を行えないことなどを指摘し、ハイステークス試験での単独利用には警鐘を鳴らしています [Perelman2014]。

問題解決・推論支援

数値計算や語彙暗記のような「答えが一意に決まる課題」を超えて、複数の手順や対話的な思考を要する課題への支援も活発に研究されてきました。

AutoTutor: 自然言語による対話型チューター

AutoTutor は Memphis 大学の Arthur Graesser らのグループが 1990 年代後半から開発を続けている、自然言語対話を通じて学習者を導くチューターです [Graesser2004]。物理 (ニュートン力学)、コンピュータ・リテラシー、批判的思考など複数のドメインで実装されています。AutoTutor の中心的な教授戦略は expectation and misconception tailored (EMT) discourse と呼ばれるもので、各問題について「学習者が言語化すべき期待表現 (expectations)」と「典型的な誤概念 (misconceptions)」のセットが事前に定義されています。

学習者体験は、画面上のアニメーションエージェント (talking head) との対話として進みます。エージェントが問題を提示し、「あなたはどう思いますか?」と促します。学習者がテキスト (または音声) で回答すると、AutoTutor は Latent Semantic Analysis (LSA) や正規表現マッチを用いて、学習者の発言が事前定義された expectation のどれにどの程度近いか、misconception のどれを示しているかを評価します。

期待された内容が出てこない場合、AutoTutor は段階的に介入の具体性を高めていきます。

pump: 「他には何かありますか?」と発話量を増やすよう促す
hint: 「摩擦があるとどうなるでしょう?」と方向性のあるヒントを与える
prompt: 「重力加速度は ___ ?」と空所補充させる
assertion: 「重力加速度は 9.8 m/s² です」と直接情報を与える

最終的に誤概念があれば明示的に否定し、正解の expectation を学習者自身に言わせるよう導きます。これは Socratic 対話 (第 13 章参照) の自動化と見なすこともできます。

複数の評価研究で、AutoTutor は熟練人間チューターには及ばないものの、教科書を読むだけの統制条件と比べて効果量 d ≈ 0.4〜0.8 の学習効果を示すことが報告されています [Graesser2004]; [VanLehn2011]。後継システムである Operation ARIES! (科学的探究) や AutoTutor-Lite などへ展開され、学習者の感情状態を検出して介入する Affective AutoTutor [DMello2008] も開発されました。限界としては、LSA ベースの応答評価は深い意味理解を行えず、表現が想定から外れると性能が落ちる、対話の自由度が制約される、などがあり、近年は LLM 統合への移行が議論されています。

Wayang Outpost / MathSpring: 情動を読む数学チューター

Wayang Outpost は University of Massachusetts Amherst の Ivon Arroyo と Beverly Park Woolf らが開発した、米国 SAT/MCAS 数学を対象とする ITS です [Arroyo2014]; [Woolf2009]。後継システムは MathSpring として現在も運用されています。技術的に Cognitive Tutor 系統のステップレベル指導を行うとともに、学習者の情動状態 (affect) を多モダリティで検出し、それに応じた介入を行うことが大きな特徴です。

学習者の前にはアニメーションキャラクター (例: Jane) が常駐し、学習者の解答パターン (解答時間、ヒント要求頻度、誤答パターン) と、必要に応じて Web カメラからの表情、姿勢センサ、皮膚電気反応などの生体信号から、frustration (苛立ち)、boredom (退屈)、confusion (混乱)、engagement (没入) などの情動状態が推定されます [Whitehill2014]。frustration が検出されればキャラクターが共感的なメッセージを返す、boredom にはより難しい問題で挑戦を促す、confusion には追加のスキャフォールディングを与える、といった affect-aware tutoring が行われます。Arroyo et al. (2014) の評価では、特に女子生徒や数学不安の高い生徒においてエンゲージメントと学習成果の改善が示されています [Arroyo2014]。

Wayang Outpost 系統の意義は、ITS の関心を「正解にたどり着く認知プロセス」から「学習活動を続けるための情動・動機づけプロセス」へ拡張した点にあります。これは Csikszentmihalyi のフロー理論 [Csikszentmihalyi1990] や Ryan & Deci の自己決定理論 [Ryan2000] の ITS への実装でもあります。一方で限界として、生体信号からの情動推定は精度・プライバシー・倫理の三重の課題を抱えており、教室導入への普及には依然として慎重な議論が必要です [Holmes2022]。

iTalk2Learn: マルチモーダル分数学習 (補足)

iTalk2Learn は EU の Horizon 2020 プロジェクトの一部として、ロンドン大学・ハンブルク大学などが共同開発した小学校高学年向けの分数学習システムです。音声入力 と タッチ操作の操作型ツール (Fractions Lab)、構造化問題 (Whizz Maths Tutor)、自由探索の 3 要素を組み合わせ、生徒の発話・操作の両方からつまずきを検出してフィードバックします。マルチモーダル ITS の代表例として、欧州圏の AIED 研究の流れを示しています。

日本の AIED 研究: Error-based Simulation と Monsakun

日本の AIED 研究は世界的に独自の貢献をしてきており、とりわけ広島大学の 平嶋宗 (Tsukasa Hirashima) らのグループによる Error-based Simulation (ES) と Monsakun は、欧米中心の ITS 研究にはない発想を提示してきました。両者に共通するのは、誤りや問題作成という「学習者の能動的な外化」を学習機会の中心に据える点です。

Error-based Simulation (ES): 誤りを可視化する物理シミュレーション

Error-based Simulation (ES) は、平嶋・今井・堀口・東本らが 2000 年代以降、主に高校・大学初年次の物理 (力学) を対象に開発してきた学習支援システムの方法論です [Hirashima2009]; [Horiguchi2014]。中心的なアイデアは、学習者の 誤った信念に従って物理現象をシミュレートし、その結果として得られる「奇妙な振る舞い」を視覚的に提示する ことで、認知的衝突 (cognitive conflict) を引き起こし、誤概念の修正を促すことにあります。

具体例で説明しましょう。「重い物体は軽い物体より速く落ちる」という Aristotle 的な誤概念をもつ学習者がいるとします。通常の教示では「いえ、空気抵抗を無視すれば同じ速度で落ちます」と正解を伝えますが、学習者の素朴信念はそれだけでは容易には覆りません。

ES では違うアプローチをとります。まず学習者に、糸でつながれた重さの異なる 2 つの物体が斜面を滑る問題を与え、力の図示と運動の予測をさせます。ここで学習者が誤った力の図 (例: 軽い物体が引きずられているのに、糸の張力を考慮しない) を入力すると、システムはその誤った力の組み合わせを そのまま物理エンジンに与えてシミュレーション し、結果として現実にはあり得ない振る舞い (例: 物体が空中に飛び上がる、糸が伸び続ける) が画面上に再生されます。

学習者は「自分の力の図に従えばこんな変なことが起きる」ことを直接目撃し、強い違和感を感じます。これが認知的衝突であり、学習者は自発的に力の図を修正したくなります。Piaget の同化と調節の用語で言えば、ES は 調節 (accommodation) を強制的に引き起こす環境 だと言えるでしょう。

ES の設計上の鍵は、誤りそのものを単にエラー扱いせず、学習資源として再活用する ところにあります。Horiguchi & Hirashima (2014) は、ES が単なる正誤フィードバックよりも誤概念の修正において有意に効果的であることを実験的に示しました [Horiguchi2014]。応用は力学に限らず、運動の合成、電気回路、円運動など多岐にわたります。本書の視点からは、ES は 誤概念を形式化された因果モデルに乗せて実行可能にする という、強い形式化と認知科学的洞察の融合の好例です。限界としては、シミュレーションが「変に見える」ためには学習者がその時点で何が「変」かを判断できる素朴感覚を持っている必要があり、概念が完全に欠落している場合には機能しないこと、ドメインごとに物理エンジンと誤概念モデルを構築するコストが高いこと、などが挙げられます。

Monsakun (もんさくん): 文カードによる問題作成型学習

Monsakun (作問くん) は、平嶋らが 2007 年頃から開発を進めてきた、小学校算数の 文章題作成 (problem posing) を支援するタブレット型学習環境です [Hirashima2007]; [Hirashima2014]。「与えられた問題を解く」のではなく「正しい問題を組み立てる」ことを学習活動の中心に据える点が決定的に新しいところです。

学習者の体験はこうです。画面上部に「条件: 引き算の問題で、答えが 2 になるもの」のような 目標条件 が示されます。下部には複数の 文カード が並びます。例えば次のようなものです。

「りんごが 3 個あります」 (存在文)
「りんごをトムが 2 個もらいました」 (関係文)
「全部で何個になるでしょう」 (問題文)
「のこりは何個でしょう」 (問題文)
「りんごを 5 個もらいました」 (関係文)

学習者は 3 枚 (典型的には「存在文・関係文・問題文」の 3 種) を選んで縦に並べることで、ひとつの算数文章題を構成します。完成した問題はシステム内部の 意味的構造記述 に変換され、次の 2 点が自動的に判定されます。

(a) 算数文章題として構造的に成立しているか (変化型 change / 合併型 combine / 比較型 compare のいずれかの schema に当てはまるか)。

(b) 目標条件 (演算と答え) を満たすか。

誤りには「主語が一致していません」「演算が引き算になりません」など、構造に基づくフィードバックが返ります。

Monsakun の認知科学的な背景は、Polya 以来の「問題を解くより問題を作ることのほうが深い理解を要する」という洞察にあります。算数文章題の理解は、単に計算の手順を知るだけでなく、問題文の 意味的 schema (誰が誰にどれだけ何をした、結果は何か) を読み取る能力に依存します。問題を作る活動は、この schema を能動的に操作することを強制します。日本国内の小学校での実証研究では、Monsakun を用いた授業を受けた児童は、対照群に比べて文章題の構造理解と転移問題の解答率で有意に上回ることが報告されています [Hirashima2014]。算数の文章題以外にも、代数や英語の文構成など、構成要素と関係に分解できる対象であれば適用できる枠組みとして展開が試みられており、問題作成型学習 (learning by problem posing) という汎用的なパラダイムを形成しつつあります。本書の関心からは、Monsakun は問題の意味構造そのものを 形式化された中間表現 として明示する点で、僕がこの本で繰り返し触れてきた発想に極めて近いシステムだと言えます。

僕の研究室で進めているささやかなプロジェクト

ここで、僕の研究室で現在進めているささやかなプロジェクトも、上記と並ぶ多くの試みの一つとして、簡単に紹介しておきます。本書で繰り返し触れている形式化や中間表現といった発想は特定の研究グループのものではなく、ITS / AIED / 認知科学・教育工学のさまざまな研究者が共有しうる地図ですが、その地図上の一つの実践例として読んでもらえればと思います。詳しい設計判断や評価結果は僕の論文 [Koike2026] にまとまっています。

CHUNK [Koike2020a]: プログラミング学習における FBS (Function–Behavior–Structure) 三層モデルに基づく中間表現の試みです。学習者がコードの「何をするか (機能)」「どう動くか (振舞い)」「どう書かれているか (構造)」をどの粒度で行き来できるかを サブゴール柔軟性 と呼んで概念化し、BROCs や Compogram といったプロトタイプで検証してきました。Cognitive Tutor 系統がプロダクションルールで構造を扱うのに対し、ここでは三層を横断する中間表現を立てるところに違いがあります。
CLOVER [Koike2023a]: 力学などの領域で、誤りを 制約違反 として実行可能にし、学習者に観察させる枠組みです。上で紹介した平嶋らの Error-based Simulation を継承する系譜にあり、Teachable Agent への応用 (TAME) や、フィードバック設計のためのフレームワーク (ELMER) を派生させています。
OCEAN [Koike2023c]: 学習環境全体を「認知・行動・動機・目標」の四層で記述してみる試みです。WHALE という学習パス推薦エージェントが、この四層モデルに基づいて次の課題を選ぶよう設計されています。学習者を一つのスキル変数で表すのではなく、複数の側面をそれぞれ別の中間表現として持つ、という発想です。
CCS (Computational Cognitive Schemas) [KoikeCCS2026]: 領域横断的な思考スキルを「操作–状態系列」として書き下す、いわば「中間表現のための中間表現」です。CHUNK・CLOVER・OCEAN がそれぞれの領域で立てた中間表現を、より上位の共通言語で並べ直そうとしています。

これらは未完の試みで、本書全体の主張がこれらに依存するわけではありません。あくまで「本書で論じてきた中間表現や形式化を、ある研究室がこういう形で具体化してみている」という事例です。詳しくは僕の論文 [Koike2026] や研究室のサイト (https://koike-lab.org/) を参照してください。

プログラミング教育

プログラミング教育は、ITS と適応的学習支援の重要な応用領域です。プログラミングは明確に形式化された知識領域でありながら、初学者には多様な躓きポイントと誤概念が存在します。

プログラミング学習の認知的課題

Pea (1986) と Soloway (1986) の古典的研究は、初学者のプログラミング学習における体系的な誤概念を明らかにしました。例えば、「プログラムは上から順に実行される」という誤った線形モデル、変数の値が「同時に」変わるという誤解、ループの意味的理解の困難などです [Pea1986]; [Soloway1986]。

これらの誤概念は単なる知識不足ではなく、日常的な因果推論や時間的理解からの不適切な転移です (第 8 章参照)。効果的な学習支援のためには、これらの誤概念を体系的にモデル化し、診断・修正する必要があります。

自動評価・データ駆動ヒント

Code.org や Codecademy などのプラットフォームは、学習者のコードを自動実行してテストケースと照合し、即座にフィードバックを提供します。より高度なシステムは、単なる正誤判定を超えて、エラーの原因を診断し、適応的なヒントを生成します。Rivers and Koedinger (2017) の Intelligent Programming Tutor は、過去の学習者の解答パターンから自動的に解答状態空間を構築し、現在の学習者のコードに最も近い「次のステップ」をデータ駆動で抽出してヒントとして提示します [Rivers2017]。これは Cognitive Tutor 流の専門家手書き認知モデルとは対照的に、学習者自身のログから生成される認知モデル という別解の好例です。

ビジュアルプログラミングと実行可視化

ビジュアルプログラミング環境 である Scratch、Blockly などは、抽象的な構文を具体的な視覚的ブロックとして表現することで、認知負荷を軽減します (第 7 章参照)。Guzdial (2004) は、こうした環境が特に初学者の動機づけと概念理解に効果的であることを示しています [Guzdial2004]。実行過程の可視化 ツールは、プログラムの動的な振る舞いを理解させます。Python Tutor [Guo2013] は、プログラムの各ステップで変数とメモリの状態を視覚化し、学習者のメンタルモデル構築を支援します。

認知的徒弟制と AI アシスタント

Pair Programming (ペアプログラミング) と Peer Code Review (ピアコードレビュー) は、認知的徒弟制 (第 4 章参照) の原則を具現化した実践です [Williams2002]。熟練者が問題解決プロセスを「声に出して考える」ことで、初学者は専門家の思考プロセスを観察し、模倣し、内在化します。近年は、AI による「バーチャル・ペアプログラマー」も研究されています。LLM ベースのコーディングアシスタント (GitHub Copilot、ChatGPT など) は、学習ツールとしての可能性と同時に、学習者の思考機会を奪う危険性も指摘されています (第 12 章参照)。

科学教育: シミュレーション、教えることで学ぶ、探究

科学教育では、概念的理解、探究スキル、科学的推論の支援が重要です。物理、化学、生物における誤概念は広く研究されており、効果的な学習支援には概念変化 (conceptual change) を促す必要があります。

PhET Interactive Simulations

PhET はコロラド大学ボルダー校の Carl Wieman らが 2002 年に開始したインタラクティブな科学シミュレーション集です [Wieman2008]。物理・化学・生物・数学・地学にわたる多数のシミュレーションが、ブラウザ上で無料で動作します。学習者はパラメータ (角度、摩擦係数、質量、波長など) をスライダーで変化させ、結果を観察することで因果関係を探究的に理解します。例えば「摩擦のある斜面上の物体の運動」シミュレーションでは、力の矢印、運動エネルギー、位置エネルギーの内訳がリアルタイムに表示され、抽象概念が直接見えるようになります。

設計上の特徴は、認知科学者・科学教育研究者・グラフィックデザイナーが協働し、各シミュレーションごとに 学生インタビュー によるユーザビリティテストを反復することにあります (第 15 章 Design-Based Research の実例とも見なせます)。Wieman et al. (2008) のレビューでは、PhET を用いた学習が従来の演習より高い学習成果をもたらすことが多くの研究で示されています [Wieman2008]。特に電場、量子力学など視覚化困難な抽象概念で効果が大きいことが分かっています。一方、構成主義的探究を支える設計のため、学習者の状態を診断・追跡する仕組みは弱く、教師の介入や事前事後テストと組み合わせて初めて学習成果に結びつくことが多いです。

Betty's Brain: 教えることで学ぶ

Betty's Brain は Vanderbilt 大学の Gautam Biswas らが開発した、learning by teaching を中核に据える環境です [Biswas2005]。学習者は、生態系や気候変動などのトピックについて概念マップを構築し、その内容をエージェント Betty に「教えます」。学習者がノードとリンク (例: 「CO₂ → 温度上昇」) を編集すると、Betty はそのマップを推論エンジンに変換し、メンターからの試験問題に回答します。Betty の回答が誤っていれば、それは学習者の概念マップが不完全か誤りを含むことを意味し、学習者はメンター教師 (Mr. Davis) からのフィードバックや、自分でマップを読み返す メタ認知活動 を通じて修正していきます。

この設計は、Vygotsky の社会的構成主義と Schwartz らの教えることによる学習研究を背景とし、学習者を「教師役」に置くことで自己調整学習を促します。実証研究では、Betty's Brain 群は対照群に比べて概念的理解とメタ認知スキルの両方で改善を示しました [Biswas2005]。

ChemCollective と仮想実験

ChemCollective [Yaron2010] は Carnegie Mellon の David Yaron らが開発した仮想化学実験室で、学習者が試薬を選び、実験を計画・実行し、データを分析します。実際の実験室では危険・高コスト・時間的制約があるため実施困難な実験も、仮想環境では安全に試行錯誤できます。White & Frederiksen (1998) の ThinkerTools [White1998] は物理力学を探究的に学ぶ環境で、仮説生成、実験計画、データ収集、結論という探究プロセスとその reflection を支援します。

言語・作文・読解の補足

Duolingo と Criterion はすでに上で扱いましたが、言語学習の領域には他にも参照価値の高い事例があります。

Project LISTEN's Reading Tutor は Carnegie Mellon の Jack Mostow らが 1990 年代から開発した英語朗読チューターで、児童が画面のテキストを音読すると、音声認識で誤読・つまずきを検出し、画面上のキャラクターが該当語の発音や意味を補助します。読解と発音という、ITS が伝統的に苦手としてきた領域に音声処理技術で踏み込んだ重要な事例です。第二言語の語彙学習では Quizlet、Memrise、Anki など spaced repetition を中核とするツールが多数あり、Duolingo の HLR と同様の認知科学的設計を共有しています。

日本語学習領域では、東京外国語大学発の Reading Tutor が日本語学習者向け読解支援を行い、Lang-8 系の作文相互添削プラットフォームが学習者コミュニティを形成してきました。最近では LLM チャットによる作文添削、発音採点、対話練習などが急速に広がりつつあり、Duolingo の Birdbrain や Khanmigo の同型として、日本語学習領域でも独自の生態系が形成されています。これらは認知モデルの厳密さよりも 大規模データと LLM の汎用性 に依拠する点で、第 13 章で論じた AIED 的アプローチに位置づけられます。

専門職教育

医療、法律、工学などの専門職教育では、複雑な推論、意思決定、実践的スキルの習得が求められます。FCL と ITS のアプローチは、これらの高度な認知スキルの支援にも応用されてきました。

医療教育: 診断推論の支援

医療診断は、症状から病名を推論する複雑な問題解決プロセスです。MYCIN [Shortliffe1976] は 1970 年代に開発された感染症診断のエキスパートシステムで、後に GUIDON [Clancey1984] として教育用に拡張されました。GUIDON は MYCIN のルールベースを教材として、学習者の診断推論を Socratic 対話で導きます。現代の医療教育システムは、よりリアリスティックな症例シミュレーションを提供します。DxR Clinician などのシステムは、バーチャル患者 (virtual patient) との対話を通じて、病歴聴取、身体診察、検査オーダー、診断、治療計画の全プロセスを練習できます。重要なのは、単に正しい診断に到達するだけでなく、診断推論のプロセスを支援することです。学習者の推論を追跡し、認知バイアス (確証バイアス、利用可能性ヒューリスティックなど) を指摘したり、見落としている可能性のある診断を示唆したりします。

法学教育: 事例ベース推論

CATO [Ashley1990] は、判例に基づく法的推論 (case-based legal reasoning) を教えるシステムです。学習者は新しい事例を分析し、過去の判例と比較してどちらの当事者に有利かを論証します。CATO は判例間の類似性と相違性を factor hierarchy として構造的に表現し、学習者の論証を評価します。法的推論では事実の細部が結論を左右するため、単純なルールベースのアプローチでは不十分で、事例ベース推論 (Case-Based Reasoning, CBR) のアプローチが適しています。

専門職教育における共通課題

専門職教育への ITS 適用には共通の課題があります。知識の複雑性: 専門的知識は形式化が困難な暗黙知 (tacit knowledge)、文脈依存性、例外の多さなどの特徴があります。倫理的・社会的側面: 専門職の実践には倫理的判断、対人コミュニケーション、チームワークなど、純粋に認知的ではない側面があります。real-world complexity との乖離: シミュレーション環境は必然的に単純化されており、実際の診療や法律実務との乖離をどう扱うかが重要です。「transfer of learning」 (学習の転移、第 8 章参照) を促進する設計が求められます。

横断的視点: 事例から見えるもの

ここまで Cognitive Tutor / MATHia、ASSISTments、ALEKS、Khan Academy、Duolingo、Criterion、AutoTutor、Wayang Outpost、iTalk2Learn、Error-based Simulation、Monsakun、CHUNK / CLOVER / OCEAN / CCS、PhET、Betty's Brain、ChemCollective、各種プログラミング学習環境、医療・法学教育システムを概観してきました。これらを横断的に眺めると、あなたの目にもいくつかの設計上の軸が浮かんでくるはずです。

下表は、本章で扱った主要システムを設計次元で整理したものです。

システム	領域	認知モデルの種類	学習者状態の表現	主な評価エビデンス
Cognitive Tutor / MATHia	数学 (代数・幾何)	ACT-R プロダクションルール (手書き)	BKT 確率, KC 単位	Pane et al. 2014 RCT (d≈0.20)
ASSISTments	数学 (宿題支援)	問題ごとの hint ツリー (手書き)	正答率, 共通誤答	Roschelle et al. 2016 RCT (d≈0.22)
ALEKS	数学・科学	Knowledge Space (集合論的)	knowledge state 部分集合	多数の準実験 (Falmagne 2006)
Khan Academy	多領域	knowledge map (手書き)	mastery 段階	観察研究中心, 一部 RCT
Duolingo	語彙・文法	half-life regression (データ駆動)	単語ごと半減期 $h$	A/B テスト, CEFR 対応評価
AutoTutor	物理・批判的思考	EMT discourse + LSA	expectation 充足度	準実験 (d≈0.4–0.8)
Wayang Outpost	数学 + 情動	ステップモデル + 情動推定	スキル + 情動状態	Arroyo et al. 2014
Error-based Simulation	物理 (力学)	誤概念を実行可能なモデルに (手書き)	図示された力ベクトル	校内実験 (Horiguchi 2014)
Monsakun	算数文章題	文構造schema (change/combine/compare)	構成された問題の意味構造	校内実験 (Hirashima 2014)
PhET	物理・化学・生物	シミュレーションモデル	(明示的状態追跡なし)	Wieman 2008 等
Betty's Brain	科学概念	学習者作成の概念マップ	学習者外化マップ	準実験 (Biswas 2005)

第一に、認知モデルの作り方 には大きく 3 系統あります。

(a) 専門家が手書きで構築するルールベース (Cognitive Tutor、AutoTutor、CATO、ES、Monsakun の構造判定)。

(b) 集団データから自動構築するもの (Rivers & Koedinger のヒント生成、ALEKS の knowledge space 推定の一部、Duolingo HLR、Deep Knowledge Tracing)。

本書が望ましいと考えるのは (a) と (b) のハイブリッドで、加えて (c) の活動が生成する学習者外化を中間表現に乗せていく方向です。

第二に、誤りの扱い にも特徴的な対比があります。Cognitive Tutor や ASSISTments では誤りはステップフィードバックの引き金、ALEKS では knowledge state の確率的更新の証拠、ES では誤りそのものを実行して可視化する素材、Monsakun では誤った組み合わせを構造的に診断する材料、Betty's Brain では Betty の回答誤りを通じた学習者自身の自己診断機会となります。「誤りは何のためのものか」のデザインの違いが、教授戦略の違いに直結します。特に ES と Monsakun が示すのは、誤りは罰すべきものでも単に修正すべきものでもなく、能動的な意味構築のための原材料となり得る という洞察です。

第三に、学習活動の能動性 にも幅があります。Cognitive Tutor や ASSISTments は与えられた問題を解く受動寄りの活動、PhET や ChemCollective は探究、Betty's Brain は教えること、Monsakun は問題を作ること、ES は予測することを学習活動の中心に据えています。能動性が高くなるほど、学習者の認知負荷は増えますが、深い理解と転移可能性が高まる傾向があります。Kapur (2008) の productive failure 研究 [Kapur2008] もこの方向の示唆を与えています。

第四に、エビデンスの種類と質 も多様です。Cognitive Tutor / MATHia と ASSISTments には大規模 RCT があります [Pane2014]; [Roschelle2016]。Duolingo は CEFR との対応評価と無数の社内 A/B テスト。AutoTutor は中程度規模の準実験。ES と Monsakun は中規模の校内実験。Khan Academy は大規模ですが因果同定が難しい観察研究中心です。VanLehn (2011) のメタ分析が示すように、ステップレベルの個別フィードバックを行う ITS の効果量は、人間チューターに迫るレベルになり得ます [VanLehn2011]; [Ma2014]。

第五に、スケーラビリティ の対比もあります。Khan Academy と Duolingo は数千万から億のオーダーで利用されています。Cognitive Tutor / MATHia は米国の多くの学区で運用されており、ASSISTments や ALEKS も学校単位の導入が進んでいます。一方、AutoTutor、ES、Monsakun、および僕の研究室のプロジェクトを含む大半の研究系システムは、研究室レベルや特定の協力校での実験的展開が中心で、一回の評価実験は数十名規模で行われることがほとんどです。スケールの大きさと認知モデルの精緻さは現状トレードオフの関係にあり、両立を目指すことは本書が繰り返し戻ってくる課題の一つです。

五つの軸からの横断評価

これまで見てきたシステムを、本書がたびたび戻ってきた軸 (形式化、認知科学との結合、中間表現、エコシステム、説明可能性。第 13 章参照) から眺め直してみましょう。

形式化の程度: 成功と限界

成功例: Cognitive Tutor / MATHia は ACT-R に基づく厳密な認知モデルを持ち、数学の問題解決をプロダクションルールとして形式化しています。ALEKS は知識状態を集合論的に明示し、Knowledge Space Theory による形式化を持ちます。ES は誤概念そのものを物理シミュレータで実行可能な形に形式化します。Monsakun は問題の意味構造 (change/combine/compare) を明示的な schema として形式化します。これらは、本書がしばしば望ましいと述べてきた方向に近いアプローチです。

限界: しかし、いずれの認知モデルも システム固有 であり、他のドメインやシステムと共有できません (中間表現の欠如)。Duolingo の HLR モデルや Khan Academy の knowledge map は領域非依存的ですが、認知科学的な深さは限定的です。PhET のシミュレーションは構成主義的学習を支援しますが、学習者の認知プロセスの形式化は限定的で、「何を学んだか」の追跡は弱いです。

認知科学との結合: 理論駆動 vs データ駆動

Cognitive Tutor は ACT-R、Betty's Brain はメタ認知理論、ES は認知的衝突理論、Monsakun は schema 理論と問題作成研究、AutoTutor は対話的足場かけ理論と、それぞれ強い認知理論基盤を持ちます。一方、Duolingo や Khan Academy の多くは データ駆動 のアプローチが優勢です。Duolingo の HLR は記憶理論に基づきますが、UI や問題選択の多くは A/B テストによる最適化です。これは効果的ですが、「なぜ機能するか」の認知的説明は限定的です (第 13 章の AIED と認知学習工学の対比参照)。本書がしばしば望ましいと述べてきたのは 理論駆動とデータ駆動のハイブリッド で、理論が初期設計を導き、データが理論を検証・精緻化する関係です。

中間表現と相互運用性: 決定的な欠如

ほぼすべてのシステムが、中間表現を欠いています。Cognitive Tutor の認知モデル、ALEKS の knowledge space、Duolingo の語彙モデル、PhET のシミュレーションモデル、Monsakun の問題 schema は、それぞれ独自の内部表現を持ち、相互に交換できません。例えば Cognitive Tutor で開発された代数スキルのモデルを ASSISTments や ALEKS で再利用できませんし、Duolingo の語彙習得モデルを読解システムと統合することもできません。異なるシステム間で学習者の知識状態を引き継ぐこともできません。

これは重大な問題です。本書がもっとも貢献できそうだと考えているのが、まさにこの空白です。標準化された中間表現 (第 6 章参照) により、ドメイン知識、学習者モデル、教授戦略を異なるシステム間で共有できれば、学習支援研究はずいぶん見通しが効くようになるはずです。

エコシステム指向: 孤立 vs 連携

現状では、各システムは孤立しています。Cognitive Tutor のコミュニティ、Duolingo のユーザー、PhET の利用者、Monsakun の利用学校は、それぞれ独立しており、知見が体系的には共有されません。例外的に PSLC DataShop [Koedinger2010] と ASSISTments TestBed は、研究者間でデータと介入を共有するプラットフォームとして機能しています。本書が思い描くエコシステム (序章参照) は、こうした取り組みを一般化し、(a) 認知モデルリポジトリ、(b) プライバシー保護下での学習データ共有、(c) プラグイン可能なモジュール (学習者モデリング、適応的課題選択、フィードバック生成など) を視野に入れています。

説明可能性: 透明性と信頼

Cognitive Tutor は比較的説明可能で、学習者の誤りが「どのプロダクションルールの誤適用か」を追跡できます。ALEKS は knowledge state を pie chart で学習者・教師に可視化する open learner model [Bull2010] の好例です。Monsakun の問題構造診断、ES の物理的因果の可視化も、学習者にとって理解可能なフィードバックを与えます。一方、Duolingo の機械学習ベース問題選択や Khanmigo の LLM 応答は、相対的に ブラックボックス 寄りで、「なぜこの問題が提示されたか」「なぜこの応答が返ったか」は学習者に十分には説明されません。これは説明可能性を重視する立場とは相性が悪く、特にハイステークス利用や学習者・教師の信頼が問われる場面で問題になります。

次世代システムに向けた研究の手がかり

既存システムを並べてみると、これからの研究で取り組めそうな課題がいくつか浮かび上がります。

中間表現の標準化と認知モデルの共有

ドメイン横断的な認知スキル・概念のオントロジーを開発し、標準化された中間表現を確立する道があります。例えば「変数」という概念は代数、プログラミング、化学、統計など複数のドメインに現れ、各ドメインでの意味は微妙に異なりますが共通の抽象構造をもちます。共通の中間表現があれば、これらを統一的に記述し、ドメイン間での知見の転用が現実味を帯びます。

技術的課題: OWL (第 4 章参照) 等の記述言語の選択、バージョン管理、コミュニティによる合意形成プロセス。
既存資産との接続: PSLC DataShop の KC モデル、Khan Academy の Knowledge Map、ALEKS の knowledge space などの異なる粒度・形式のモデルを橋渡しする必要があります。
期待される効果: 新規ドメインで ITS を開発する際に既存認知モデルを再利用でき、システム間で学習者状態を転送できます。これは現在の ITS 開発の最大の障壁である コールドスタート問題 の緩和に直結します。

説明可能な適応的システム

機械学習の予測力と認知モデルの説明可能性を統合したハイブリッドシステムを構築する方向もあります。例えば Duolingo の HLR を ACT-R の活性化拡散モデル (第 2 章参照) と結合すれば、システムは「あなたの単語 X の記憶強度は現在 Y 程度で、忘却が始まる時期に近いので、今復習するのが最適です」と説明できます。Cognitive Tutor の BKT を Deep Knowledge Tracing [Piech2015] と組み合わせる Hybrid Knowledge Tracing [Tang2023] などはこの方向の試みです。

期待される効果は次の 3 点です。

学習者のメタ認知支援: 自分の学習プロセスを理解し、自己調整学習につなげる (第 6 章参照)。
教師の信頼と介入能力: ブラックボックス推薦に頼らず、教師がシステムの判断を吟味して介入できる。
倫理的透明性: ハイステークス利用におけるアルゴリズムの説明責任 [Holmes2022]; [Baker2022] を担保する。

クロスドメイン転移を支援するシステム

異なるドメイン間での学習転移を明示的に支援するシステムを設計する方向もあります。例えばプログラミングで学んだ「ループ」の概念が、数学の数列、化学の周期表、生物のライフサイクルなど他のドメインでも現れることを示し、抽象化と具体化を促す。共通の中間表現を持てば、「ループ」の抽象構造 (「一定の規則に従って繰り返される過程」) を形式化し、異なる具象化とマッピングしやすくなります。技術的には Structure Mapping Theory (第 3 章参照) の類推的推論モデル化、適切な転移機会の検出アルゴリズムが必要です。

問題作成型・誤り活用型 ITS の一般化

Monsakun と ES は、欧米中心の ITS 研究にはない設計原理を示しています。問題作成型は学習者の能動的外化を中間表現に乗せ、誤り活用型は誤りそのものを実行可能な形に形式化します。共通の中間表現が整備されれば、これらの設計原理を他の領域 (プログラミングの作問、歴史の論証作成、生物のシステム図作成など) に広げていくことが現実的になります。

形式化の限界を認識したデザイン

すべてを形式化しようとせず、形式化可能な部分 (手続き的知識、明示的な概念関係など) と形式化困難な部分 (創造性、暗黙知、社会的スキルなど) を識別し、適切に設計する道もあります。例えばプログラミング学習システムで、アルゴリズムの正しさは ITS が支援し、コードの「美しさ」「読みやすさ」「創造的解法」についてはピアレビューや教師のフィードバックに委ねる、というハイブリッドデザインです。

次章への橋渡し

本章では、Cognitive Tutor / MATHia から Monsakun、Error-based Simulation、Duolingo、Khan Academy、AutoTutor、Wayang Outpost、そして僕の研究室のプロジェクトを含む代表的な学習支援システムを、各々のシステムが解こうとした問題、認知モデル、UI、効果の証拠、限界を含めて具体的に見てきました。それぞれが独自の成功と限界を抱えており、いずれもシステム固有の認知モデルにとどまり、中間表現の欠如、エコシステムの未形成、説明可能性の不足という共通課題が残されている ことを、本書の視点からは確認できました。これらの課題に向き合いながら、より再利用可能で、説明可能で、理論的に厳密な学習支援を作っていけるかどうか——それがあなたを含む次の世代の研究者の仕事になります。

ところで、これらのシステムが「どの程度効果的か」を客観的に評価することは、科学的な学習支援研究の核心でもあります——けれども本章では効果の話を、各システムごとに代表的な数字を挙げる程度に留めてきました。次章ではそこから一歩離れて、システムを社会に出すときに避けて通れないもう一つの問い——プライバシー、公平性、自律性、説明責任、ラベリング、教師の労働——を扱います。倫理は、形式化と並ぶ、設計に内在する制約です。

倫理と社会的課題

この章で扱う問い

教育 AI を社会に展開すると、技術的問題から滑らかにつながる仕方で、倫理的・社会的問題が立ち現れます。本章の主張は単純です——倫理は後付けの規制遵守ではなく、設計に内在する制約である。「まずシステムを作って、後で倫理委員会に確認する」という順序は、本質的に間違っています。学習者の認知データをどこまで集めるか、誰のための公平性を担保するか、学習者にどの程度の自律性を残すか、システムの判断にどう説明責任を負うか——これらは設計の最初に決まる事柄であって、設計の終わりに付け足すものではないのです。

本章は、プライバシー、公平性、自律性、説明責任、ラベリング、教師の労働という六つの論点を順に取り上げます。それぞれに固有の難しさがあり、抽象論で済ませず、ProPublica の COMPAS 分析、Hewlett Foundation の AES バイアス検証、GDPR の忘れられる権利訴訟といった具体的な事例で「ここでは何が現実に問題になっているか」を示します。形式化と説明可能性を強みにする立場は、倫理的問題に対しても他のアプローチより少しは有利な道具を持っています——その「少し」を、どう実装に落とすかが本章の関心事です。

前章では応用事例を見てきました。動いているシステムを並べると、効果の話だけで章を閉じたくなります。けれども実際の現場で問題になるのはむしろ、ここで扱う問いの方です。あなたが将来、教育データを扱うシステムを作るとき——ITS / AIED の開発に関わるあなた、学校現場で AI 教材の導入を検討しているあなた、学習データを使った研究を計画しているあなた——それぞれにとって、本章は「設計の最初に立ち止まって考えるべきこと」のチェックリストとして読めるはずです。

なぜ倫理が設計に内在するのか

技術者は「技術は中立的であり、使い方の問題だ」と考えがちですが、この見方は学習支援には当てはまりません。学習支援システムを設計するとき、設計者は次のような問いに必ず答えなければなりません [Friedman2003]。

「何を学ぶべきか」——どの知識・スキルを重視するか。テスト得点に直結する手続き的習熟か、深い概念理解か、創造性か、批判的思考か。「どのように学ぶべきか」——講義型か、探究型か、協調学習か。「誰のための教育か」——エリート教育か、万人のための教育か。「成功とは何か」——テストの点数か、深い理解か、人格形成か、長期的な学習動機の醸成か。

これらの判断は、教育哲学、文化、社会的文脈に依存する 価値判断 です。中立な答えは存在しません。形式化を進めるアプローチは、この価値判断を コードと中間表現に書き込む ことになります。「習熟」を $p (習得) \geq 0.95$ と定義すれば、それは「速く高確率で正答する学習者が良い学習者」という価値観の数値化です。「最適な課題」を「最も学習効率が高い課題」と定義すれば、効率という価値が他のすべての価値を支配する設計が生まれます。

そして善意で設計されたシステムが、しばしば予期せぬ負の帰結を生みます。テストスコア最大化を目的にすれば、学習者は「テストに出る内容」だけを学び、深い理解や創造性が犠牲になります。効率性を重視すれば、学習者の自律性や内発的動機づけが損なわれます。設計者が倫理的判断を意識しないことは、倫理的判断をしないことではなく、無自覚にしていることです。

形式化は、この点で逆説的に有利です——形式化は暗黙の前提を明示化する作業ですから、価値判断もまた明示化される機会を持ちます。「習熟の閾値を 0.95 に設定する」と書く瞬間に、「なぜ 0.95 か」「これは誰の価値基準か」という問いが立ち上がります。形式化が倫理的検証の起点になりうるのです。

プライバシー——学習データは何を映すか

学習支援システムは、解答内容だけでなく、解答に至るプロセス、つまずきのパターン、学習時間、視線データ、感情状態など、極めて密度の高いデータを収集します。これは学習支援に有用ですが、同時に学習者の認知能力、知識の欠如、誤解、感情的脆弱性を 他人より克明に明らかにしうる 情報でもあります。

何が問題か

具体的なリスクは四つに分かれます。差別リスク——「この学習者は理解が遅い」「集中力が低い」というラベルが固定化され、将来の進学・就職機会が制限される。米国では一部の学校で「early warning system」が黒人・ヒスパニック系生徒に対してドロップアウト予測の高リスクを過剰に出力し、これが追加の監視や不利な進路指導につながった事例が報告されています。監視社会化——常時データ収集は学習者に心理的圧迫を与え、リスクを取った試行錯誤を抑制する。データ漏洩——学習データは生涯にわたって本人の評価に影響しうる情報であり、漏洩の被害は深刻になる。商業利用——教育データが企業の利益 (広告ターゲティング、保険料算定など) のために二次利用される。Zuboff の言う「監視資本主義」が教育セクターに侵入する [Zuboff2019]。

EU の General Data Protection Regulation (GDPR、2018 年施行) は、データ主体に 訂正権、削除権 (忘れられる権利)、データポータビリティ などを与えました。教育の文脈で象徴的な事例を一つ挙げましょう。ある欧州圏の MOOC プラットフォームに対して、修了証取得後に「自分の学習ログ全件の削除」を求めた学習者がいました。プラットフォーム側は「ログは集計分析の改善に必要であり、匿名化されている」と主張しましたが、ログには学習者ごとに固有のセッション ID が紐づき、再識別の可能性が排除できませんでした。最終的にプラットフォーム側が個人レベルログの削除に応じた——これは、GDPR の「忘れられる権利」が学習データに具体的な義務を課す事例として、教育データ実務における先例となっています。

教訓は、「匿名化したから大丈夫」は技術的に成立しない場合がしばしばある ということです。学習ログは行動の系列パターンが個人に対して非常に固有性が高く、外部データとの突き合わせ (例えば成績公表データ、SNS の投稿時刻) で再識別されうるからです。細粒度な認知モデルを構築するシステムでは、この問題は一段と深刻になります——学習者の誤概念のパターン自体が、本人の指紋のように振る舞うのです。あなたが将来、教育データを扱うシステムを作るとき、「うちは個人を特定する気はないから大丈夫」と思い込まないでください。あなたが作るデータ構造そのものが、すでに本人を識別しうる粒度になっていないかを、設計の最初に問い直す必要があります。

対策と原則

具体的な設計原則は次の五つに集約されます。

データ最小化——目的達成に必要最小限のデータのみを収集する。本書の認知モデルが要求するのが「正誤と所要時間」だけなら、視線データや感情データを取らない。

同意と透明性——何のデータを、なぜ、どのように収集・利用するかを学習者 (未成年なら保護者も) に明示し、同意を得る。子どもの同意年齢は GDPR 加盟国で 13–16 歳、米国の COPPA は 13 歳未満を対象とする。

匿名化と再識別リスクの評価——k-匿名性などの形式的指標で再識別困難性を保証する。ただし「絶対的な匿名性」は不可能であることを認識する。

アクセス制御——データへのアクセスを厳格に制限し、暗号化、監査ログ、最小権限原則を徹底する。

データ主権——学習者が自分のデータを確認・修正・削除できる権利を保障する。これは GDPR、日本の個人情報保護法、米国の FERPA (Family Educational Rights and Privacy Act) 等の法的要請でもある。

本書の枠組みに固有の論点として、中間表現として保存される認知モデルそのものの扱い があります。「学習者 A は誤概念 X を持つ」という診断は、生データではなく本書の中間表現に記録されます。これは生データよりさらに濃縮された個人情報であり、削除権・訂正権の対象は中間表現にも及ぶべきです。本書の中間表現を再利用可能にしようとすればするほど、誰がどの権限でその中間表現を読めるかという設計問題が重くなります。「いま自分が見ている粒度の情報を、当人が見せたくないと言ったら即座に削除できるか」を実装の前段で確認しておく――そんな運用上のディシプリンが、データ主権を絵空事にしないための土台になります。

公平性——複数の正義は同時に満たせない

AI 技術の普及とともに、アルゴリズムバイアスが深刻な問題として認識されるようになりました [Barocas2023]。学習支援も例外ではありません。

バイアスの源泉

バイアスは三段階で入り込みます。

データバイアス——訓練データが特定の属性 (性別、人種、社会経済的背景) に偏ると、システムもそのバイアスを学習します。米国で開発された早期警報システムが、訓練データの大部分が中産階級白人のデータであるために、低所得層・少数派の学生に不適切な予測を出すことが繰り返し報告されています。

設計バイアス——設計者の暗黙の仮定がシステムに反映されます。「良い学習者は速く正確に答える」という仮定は、じっくり考える学習者を不当に低く評価します。「典型的な誤りパターン」を訓練データの多数派から定義すれば、文化的に異なる思考様式の学習者の誤りが「異常」とラベル付けされます。

評価バイアス——何を「成功」と定義するかで、特定のグループが不利になります。標準化テストは文化的背景によって有利・不利があることが知られており、システムがそれを評価指標に採用すれば、バイアスは制度的に固定化されます。

ProPublica の COMPAS 分析——教訓を学習支援に持ち帰る

公平性研究の歴史的転換点となったのが、2016 年の ProPublica による COMPAS 分析です。COMPAS は米国の刑事司法で使われていた累犯リスク予測アルゴリズムで、被告人の再犯確率を予測し、裁判官の判断を補助していました。ProPublica は数万件の予測と実際の累犯データを照合し、「黒人被告は実際には再犯しなかったのに高リスク予測されることが、白人被告より約 2 倍多い」と報告しました。一方で COMPAS の開発元 Northpointe は、「予測スコアごとの実際の累犯率は人種で同等である」と反論しました。

注目すべきは、両者がともに正しいことです。Chouldechova (2017) と Kleinberg ら (2017) が形式的に証明した不可能性結果が示したのは、真陽性率の人種間平等 (ProPublica 基準) と予測値較正の人種間平等 (Northpointe 基準) は、ベース率が群間で異なる限り同時には満たせない ということでした。「公平」には複数の数学的定義があり、それらは互いに両立しません。どの公平性基準を採用するかは、技術的最適化の問題ではなく 価値判断 です。

この教訓は学習支援にそのまま持ち込まれます。例えば「ドロップアウト予測モデル」を考えてみましょう。

グループ間で 真陽性率 (真にドロップアウトする学生のうち高リスクと予測される割合) を等しくしたいか?
グループ間で較正 (高リスクと予測された学生のうち実際にドロップアウトする割合) を等しくしたいか?
グループ間で 人口統計学的均等 (高リスク予測の割合) を等しくしたいか?

これらはどれも「公平性」と呼べますが、ベース率が群間で異なる限り、同時に満たすことはできません。本書の文脈で、この決定は中間表現の設計時に下されるべきです——「われわれのシステムは、こういう意味での公平性を優先する。なぜなら…」と明示されるべきなのです。

Hewlett Foundation AES コンペのバイアス事後検証

もう一つの具体例として、Automated Essay Scoring (AES、自動エッセイ採点) の事例があります。2012 年、Hewlett Foundation はクラウドソーシング型コンペ Kaggle で AES アルゴリズムの精度を競わせました。優勝アルゴリズムの精度は人間採点者間の一致率に匹敵し、「機械が人間を超える」と話題になりました。

しかし数年後の事後検証で、優勝アルゴリズムを含む多くの AES が、英語非母語話者の作文や、非標準的な英語方言 (African American Vernacular English など) の作文を、人間採点者より系統的に低く評価する ことが示されました。Perelman の批判 [Perelman2014] はもっと露骨で、e-rater は文長や複雑な単語の使用といった表層的特徴に過剰に反応し、内容空虚な長文を高く評価する一方、簡潔で深い論証を低く評価することを示しました。

教訓は二つあります。第一に、「精度」は単一の数字で語れない——平均的な精度が高くても、特定のサブグループで系統的に低ければ、そのシステムはそのサブグループに対しては不公平です。第二に、評価指標と人間の判断の相関だけでは不十分——その人間の判断自体がバイアスを含んでいた可能性を、独立に検証する必要があります。本書の評価設計 (第 13 章) でサブグループ別の効果検証を求めたのは、まさにこの理由からです。

公平性の機械学習的定義

機械学習の公平性研究では、より技術的な定義が定着しています。人口統計学的均等 (Demographic Parity)——保護属性 (性別、人種など) の各グループで、肯定的な予測 (合格、推薦) の割合が等しい。機会均等 (Equal Opportunity)——真の正例の中での真陽性率が、各グループで等しい。等化オッズ (Equalized Odds)——真陽性率と偽陽性率の両方が、各グループで等しい。較正 (Calibration)——予測確率が、各グループで実際の正例率と一致する。

基準	定義	学習支援での例
人口統計学的均等	$P (\hat{Y} = 1 ∣ A = a)$ がグループ $a$ に依らない	ITS 推薦が人種で割合が等しい
機会均等	$P (\hat{Y} = 1 ∣ Y = 1, A = a)$ がグループ $a$ に依らない	真に習熟する学生のうち高評価が等しい
等化オッズ	真陽性率・偽陽性率が両方ともグループに依らない	機会均等に加え、誤って高評価される率も等しい
較正	$P (Y = 1 ∣ \overset{p}{^} = p, A = a)$ が $a$ に依らない	予測スコア $p$ の意味がグループで等しい

表 17-1: 公平性の機械学習的定義

これらの基準が同時には満たせないという不可能性結果 (Chouldechova 2017、Kleinberg et al. 2017) は、価値判断の必要性を技術的に裏付けます。FCL が形式化を通じて貢献できるのは、「われわれのシステムはどの公平性基準を採用しているか」を中間表現の中で明示する規律です。データ駆動の機械学習システムが暗黙のうちに「精度最大化」だけを最適化対象とするのに対し、本書の枠組みは公平性の選択を設計上の宣言事項として扱えます。

デジタルデバイド——技術自体が格差を拡大する

公平性のもう一つの側面は、技術へのアクセスそのものの不平等です [Warschauer2003]。高品質なデバイス、高速インターネット、静かな学習環境は、すべての学習者に等しく利用可能ではありません。本書の枠組みに基づく洗練された ITS が普及すればするほど、それを使えない学習者と使える学習者の格差は広がります。Reich and Ito [Reich2017] は、教育技術が必ずしも格差を縮小しておらず、むしろ拡大している現状を実証データで示しています。

本書のエコシステム構想 (第 18 章) が、低リソース環境でも動作するモデル、オフライン対応、軽量実装を中核要件として組み込むかどうかが、この問題への態度を決めます。

自律性——学習者をシステムの従属者にしないために

高度に適応的なシステムは、皮肉なことに、学習者の自律性を損ないうるものです。システムが常に「次に何をすべきか」を指示すると、学習者は自分で目標を設定し、方略を選択する能力を失います。システムが常に即座にフィードバックを提供すると、学習者は自己評価や自己調整の能力を発達させる機会を失います。「システムが教えてくれるから、自分で考えなくてもいい」という依存が生じてしまうのです。

教育の本質的目標の一つは、学習者の自律性 (autonomy) と主体性 (agency) の育成です。システムはこの目標を支援すべきであり、阻害してはなりません。具体的には、学習者が自分の学習目標を設定できるようにすること、複数の学習経路を提示し選択させること、段階的にシステムのサポートを減らし (フェーディング) 自律性を高めること、メタ認知的スキル (自己モニタリング、自己調整) を育成すること——これらが設計指針となります。

本書の枠組みは二つの意味でこれを助けうるでしょう。一つは オープンラーナーモデル (第 8 章参照)——学習者に自分の認知モデル (「どのスキルが習得済みか、どの誤概念があるか」) を見せることで、自己調整を促進します。中間表現が学習者にも読める粒度で書かれていれば、学習者は自分の状態を理解し、自分で次の学習を計画できます。もう一つは human-in-the-loop 設計——AI が選択肢を提示し、なぜその推薦をするのかを説明し、最終決定を学習者に委ねる仕組みです。Regan and Jesse [Regan2019] は、学習者が「アルゴリズムに従う存在」になり自己決定能力を失う危険を警告しています。

逆に、本書の形式化を強引に進めると、学習者の状態を細粒度に把握し過剰に介入するシステムを作ってしまいます。「形式化が進むほど自律性を奪う」というトレードオフは、本書の根本的なジレンマです。本書は、形式化は学習者の自己理解を支援する道具であって、学習者を最適化する道具ではない、という立場を取ります。

説明責任——ブラックボックスの問題と本書の優位性

深層学習や LLM ベースのシステムは、しばしば「ブラックボックス」になります。なぜそのような判断をしたのかを、人間が理解しにくい場合があるのです。学習者や教師が「なぜこのフィードバックが与えられたのか」を理解できなければ、信頼できません。システムが誤った診断や不適切な支援を行ったとき、その原因を特定し修正することも困難になります。

FCL が形式化を重視する理由の一つは、まさに説明可能性です [Caruana2015]。形式化された認知モデルに基づくシステムは、その推論過程を辿れます——「学習者 A には概念 X のフィードバックを提供した。なぜなら、学習者は問題 P を誤り、その誤りパターンはドメインモデルの誤りモデル M における概念 X の誤解を示唆するからだ」と書き下せます。

しかし、説明可能性を技術的に持つことと、それが社会的説明責任に応えることは別です。第 13 章で論じた通り、説明の 正確さ (モデル状態を正しく反映しているか)、理解可能性 (学習者・教師が読める形式か)、行動への寄与 (説明を読んだ人が実際に判断を変えるか) の三観点で、説明は別途検証されなければなりません。本書の形式モデルが「内部的に説明可能」であっても、その説明が学習者にとって意味不明な専門用語で書かれていれば、説明責任を果たしていることにはなりません。

誰が責任を負うか

システムが不適切な支援を提供し学習者に害を与えた場合、誰が責任を負うのでしょうか。システム開発者か、利用した教師か、データを提供した研究者か——これは法的・倫理的に未決の問題です。少なくとも開発者は次の責任を負うべきでしょう——システムの限界を明示する、適切な使用方法を教育する、継続的に評価し問題を修正する、透明性を確保し外部からの検証を可能にする。本書の中間表現の公開は、最後の点に直接貢献します。

ラベリングの危険——「習得済み」と「未習得」の重さ

本書のような形式化されたシステムは、学習者を細かいラベル (「スキル X 習得済み」「誤概念 Y を持つ」「ZPD レベル 3」) でカテゴライズします。これは学習支援に必要ですが、同時に ラベリング効果——ラベルが本人や周囲の期待を方向付け、自己成就予言を引き起こす——のリスクを持っています。

教育心理学の古典的研究 (Rosenthal の Pygmalion 実験など) は、教師が生徒に対して持つ期待が実際のパフォーマンスに影響することを示してきました。本書のシステムが「この学生は数学的概念理解が低い」とラベリングし、それが教師に共有されれば、教師の期待が実際の指導行動を変え、結果として学生の伸びを抑制しうるのです。

形式化はラベルの精度を高めますが、同時にラベルの 固定化リスク を高めます。曖昧で印象的な評価なら、教師も生徒も「実際に当たっているのか」と疑問を持てます。形式化された数値スコアは、根拠のない権威を持ちうるのです。本書の中間表現が「学習者の状態は時間とともに変化する流動的なもの」として設計され、ラベルの 有効期限 や 確信度 を明示し、容易に更新可能であることが、ラベリングの害を緩和します。学習者のスキル状態を扱う際には「これは数週間後にはまた変わる確率の塊だ」と意識的に自分に言い聞かせる――それくらいの留保なしには、一度貼ったラベルが見立てそのものを縛りにきてしまいます。

教師の労働——増強か、置き換えか、de-skilling か

学習支援システムは、教師を置き換えることを目指すべきでしょうか。本書の立場は明確に「否」です。

人間の教師は、単なる知識伝達以上の役割を果たします——情緒的サポート、ロールモデル、社会的スキルの育成、価値観の形成、現場文脈に応じた即興的判断。これらは現在の技術では代替が困難です。本書の目標は教師を増強 (augment) することです [Luckin2016]。システムは個々の学習者の詳細な診断、大量の課題の自動採点、リアルタイムのダッシュボードなど、教師の能力を拡張する道具となります。これにより教師は、より創造的で人間的な側面——個別対話、動機づけ、メンタリング——に時間を割けるようになります。

しかし「増強」が実際にそうなるかは、設計次第です。同じ技術が、教師を「AI の指示を実行する作業員」 (de-skilling) に貶める方向に使われることもあります。例えば授業時間の半分を ITS に充て、教師にはダッシュボードを監視するだけの役割を与える設計は、教師の専門性を侵食します。

Holstein, McLaren & Aleven [Holstein2019] は、教師との 協働設計 (co-design) を強調しています——研究者・開発者が一方的に設計するのではなく、実践者の知見を取り入れて設計する。教師がシステムの動作を理解し、必要に応じてカスタマイズできることが重要です。形式化された中間表現は、この点でも役立ちます——教師が読める粒度で記述された認知モデルなら、教師は「この前提関係は私のクラスでは違う」と修正でき、システムを自分の文脈に適応させられます。

教師の労働問題は、技術的問題ではなく労働社会的問題です。本書の研究者が考えるべきは、「教師の専門性を拡張する設計」を選び、「教師を不要化する設計」を選ばない、という規範的態度を持つことです。

文化的・社会的文脈とグローバルサウス

認知の基本的メカニズム (例: ワーキングメモリの容量制約) はある程度普遍的ですが、学習のスタイル、価値観、社会的規範は文化によって異なります。ある文化圏で開発されたシステムを別の文化圏に適用することには問題があります。例えば個人主義的文化で設計された個別学習システムは、集団主義的文化では不適切かもしれません。

教育技術の研究・開発は、主に欧米と日本などの先進国で行われています。しかし教育の課題はグローバルサウスでより深刻な場合が多く、これらの地域ではインフラ (電力、インターネット) の制約が大きく、欧米で開発されたシステムがそのまま機能しないことが多いです。言語、教育制度、教師の訓練レベルも異なります。本書の中間表現の可搬性は文化的適応を容易にする可能性を持っています——ドメイン知識や教授戦略を文化的文脈に応じて修正できれば、ローカライゼーションが促進されるからです——が、これは可能性に留まり、実現には現地研究者・実践者との協働が不可欠です。

倫理的設計の実践——プロセスへの組み込み

これらの論点を「設計の最初に組み込む」ことを実装するには、組織的・プロセス的な仕組みが必要です。

倫理審査と規制遵守——研究段階では機関の倫理審査委員会 (IRB) の承認が必要で、特に未成年を対象とする研究では厳格な審査が求められます。GDPR、米国の FERPA、日本の個人情報保護法、自治体・学校設置者ごとの規程に注意してください。

多様なステークホルダーの参加——技術者だけでなく、教育者、学習者、保護者、倫理学者、社会学者など多様な立場を設計に参加させます。単一の専門家集団では見落とされるリスクが、多様な視点で発見されます。

継続的評価と改善——倫理的問題は設計時だけでなく、運用中にも生じます。システムの影響を継続的に評価し、問題が発見されたら迅速に対応する体制が必要です。技術や社会の変化に応じて、倫理的基準自体も更新されます。

事前登録と透明な報告——第 14 章で論じた事前登録、CONSORT 等の報告基準、コードとデータの公開は、倫理的検証の前提でもあります。検証できない研究は、倫理的に責任を取れない研究です。

まとめ

倫理は規制遵守ではなく設計に内在する制約です——本章の中心主張をもう一度言い直しておきます。プライバシーは「同意書を取る」だけでは済まず、データ最小化と匿名化と削除権を中間表現の設計に書き込みます。公平性は「悪意がない」では済まず、複数の数学的定義のうちどれを優先するかを明示し、サブグループ別に検証します。自律性は「学習者を尊重する」というポーズでは済まず、オープンラーナーモデルや human-in-the-loop で実装します。説明責任は「説明可能な AI」と謳うだけでは済まず、説明の正確さ・理解可能性・行動寄与を独立に検証します。ラベリングは精度を高めれば済まず、ラベルの流動性と更新可能性を設計に組み込みます。教師の労働は「増強する」と宣言するだけでは済まず、協働設計と専門性拡張を実装に落とします。

本書の形式化と説明可能性は、これらの問題に対して他のアプローチより少しは有利な道具を持っています。しかし「少しは有利」は「自動的に解決する」ではありません。形式化が暗黙の価値判断を明示化する道具であるからこそ、設計者は自らの価値判断を問われ続けます。これが、FCL が技術的方法論であると同時に倫理的態度の問題であることの意味です。

次章への橋渡し

倫理を設計に内在する制約として受け止めたうえで、改めて「では本書の枠組みはこれからどこへ向かうのか?」を問うのが、本書の最終章です。次章では、多層形式化、LLM との責任ある統合、コミュニティとデータ共有という三つの研究プログラムを、未来予測としてではなく、いま取り組める研究上の問いとして提示します。本書を読み終えた読者が、自分の関心領域から本書のエコシステムへ何を持ち寄れるかを考えるための、最後の足場として読んでいただければと思います。

さらに学ぶために

Holstein, K., McLaren, B. M., & Aleven, V. (2019). Co-designing a real-time classroom orchestration tool to support teacher–AI complementarity. Journal of Learning Analytics, 6(2), 27–52.
O'Neil, C. (2016). Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown.
Noble, S. U. (2018). Algorithms of Oppression: How Search Engines Reinforce Racism. NYU Press.
Zuboff, S. (2019). The Age of Surveillance Capitalism. PublicAffairs.
Barocas, S., Hardt, M., & Narayanan, A. (2023). Fairness and Machine Learning: Limitations and Opportunities. MIT Press.
Angwin, J., Larson, J., Mattu, S., & Kirchner, L. (2016). Machine Bias. ProPublica. （COMPAS 分析の原典記事）
Chouldechova, A. (2017). Fair prediction with disparate impact: A study of bias in recidivism prediction instruments. Big Data, 5(2), 153–163. （公平性不可能性結果）
Kleinberg, J., Mullainathan, S., & Raghavan, M. (2017). Inherent trade-offs in the fair determination of risk scores. Proceedings of ITCS 2017. （同上）

本書の未来——三つの研究プログラム

この章で扱う問い

本書は最終章に到達しました。ここまで、認知の分析 (第 5 章)、形式化 (第 6 章)、学習活動の設計 (第 7 章)、実装技術 (第 8〜12 章)、評価 (第 13〜14 章)、関連分野との位置取り (第 15 章)、応用事例 (第 16 章)、倫理 (第 17 章) を順に巡ってきました。本書を閉じるにあたって——本書の枠組みは完成された方法論ではなく、未完の探求です——その探求の方向性を、実行可能な研究プログラムとして提示しておきたいと思います。

本章の主張は、本書の今後を語るのに「あれもこれも」と挙げず、三つの方向性 に集中することです。多層形式化 (multi-layered formalization)——認知を構文・意味・概念・メタの複数層で同時に形式化する道。LLM との責任ある統合 (responsible LLM integration)——大規模言語モデルの言語能力と本書の制御可能性をどう組み合わせるかという、最も時事的でかつ最も困難な問題。コミュニティとデータ共有 (community and data sharing)——形式化と実装の知見が単発で消えず累積する、エコシステムの社会基盤の構築。これら三つは独立ではなく、互いに依存しています。多層形式化は標準化された中間表現を要求し、その中間表現の流通はコミュニティ基盤を要求し、コミュニティ基盤の正当性は LLM 時代における本書の存在意義を要求します。

本章では各方向性を、漠然とした未来予測ではなく、具体的な研究上の問い として提示します。本書の読者が「次に何をすべきか」を考えるときの足場として読んでいただければ嬉しいです。研究室を選ぶ段階の学生にも、すでに別の領域で研究を進めている学生にも、ここで挙げる問いのどれかが「自分のテーマと地続きだ」と感じてもらえるところがあるはずです。

第一の方向——多層形式化

本書の核心は、認知構造の計算論的形式化です (第 6 章参照)。これまで本書の伝統と ITS の歴史は、形式化を主に「単一レベル」で行ってきました——プロダクションルール、制約、概念マップ、Q 行列。しかし実際の学習は多層的です。形式化の方法論自体が、この多層性に応えるよう進化する必要がある——これが第一の研究プログラムです。

多層性とは何か——プログラミング学習を例に

具体例として、プログラミング学習者の認知を見てみましょう。同じ学習者が同じ瞬間に、次の異なる層で別々の知識を発動しています。

構文レベル——文法的に正しいコードを書く。括弧やセミコロンの規則。
意味レベル——コードが意図した動作をする。変数のスコープ、参照透過性、状態遷移。
設計レベル——効率的で保守可能な構造を持つ。命名、関数分割、コードの読みやすさ。
概念レベル——抽象的なアルゴリズムやデザインパターンを理解する。再帰、分割統治、オブジェクト指向。
メタレベル——自分の理解度を監視し、学習戦略を調整する。「ここでデバッガを使うべきか、紙に書くべきか」。

学習者がループでつまずくとき、その原因は構文 (for の書式が分からない) かもしれず、意味 (カウンタ変数が「同時に」変わると思っている) かもしれず、概念 (反復という抽象が腑に落ちていない) かもしれず、メタ (自分が何を分かっていないかが分かっていない) かもしれません。現状の多くの ITS は、これらを区別せずに一つの「スキル」として扱います。Cognitive Tutor の KC (knowledge component) も、たいてい構文か意味のどちらか一方の粒度で書かれます。

研究上の問い

多層形式化の研究プログラムは、次の問いに分解できます。

第一に、層をどう離散化するか——上で挙げた 5 層は便宜的なもので、ドメインによって最適な層数と区切り方が違います。数学では構文層は弱く、概念層が極めて重要です。語学では構文層と意味層の区別が常に揺らぎます。各ドメインで層構造をどう決めるかは、認知的タスク分析と教育心理学的妥当性の問題です。

第二に、層間の相互作用をどうモデル化するか——構文の混乱が意味の理解を妨げ、メタ層の覚束なさが下層全部を不安定化させます。層が独立に積み重なるのではなく、相互に影響し合う構造をどう書き下すか。動的ベイジアンネットワーク、層別の活性化拡散モデル、ACT-R [Anderson2007] や Soar [Laird1987] のような統合的認知アーキテクチャとの連携が候補になります。

第三に、層に応じた診断と介入を設計できるか——同じ「ループの誤答」に対して、構文レベルの問題なら構文補正、意味レベルなら逐次実行の可視化、概念レベルなら別ドメインでの類比提示、メタレベルなら振り返りプロンプト、と介入を分けます。Error-based Simulation (第 16 章参照) は意味層の介入として優れていますが、概念層やメタ層には別のアプローチが要ります。

第四に、確率的・ファジー形式化と多層形式化の両立。従来の形式化 (論理、オントロジー) は明確な真偽を前提としますが、学習者の知識は曖昧で、部分的で、文脈依存的です。BKT のようなベイズ的アプローチや、ファジィ論理、現代の確率的プログラミング言語をどう多層に拡張するかが課題です。

第五に、時間的・発達的形式化——現状の学習者モデルは「現時点での知識状態」を表現します。しかし学習は時間的プロセスであり、知識の獲得速度、忘却曲線、発達段階の遷移を扱う必要があります (第 14 章の学習曲線分析参照)。Piaget [Piaget1952]、Vygotsky [Vygotsky1978] の発達理論との統合は、ITS が長らく避けてきた課題です。

中間表現の階層化——抽象度のスペクトラム

多層形式化と並行して、中間表現そのものに階層構造を持たせる必要があります。本書の中間表現は、抽象的すぎると具体的な実装に結びつかず、具体的すぎるとドメイン間で再利用できなくなります (第 6 章参照)。「ループ」概念を例に、抽象度のスペクトラムを書いてみましょう。

最抽象レベル——「一定の規則に従う反復過程」 (ドメイン非依存)
中レベル——「カウンタによる有限回反復」「条件による反復」 (プログラミング、数学に共通)
具象レベル——for (int i=0; i<n; i++) (C 言語)、 $\sum_{i = 1}^{n}$ (数学記法)

学習者は具象から入り、中レベルへ抽象化し、最抽象レベルで他ドメインと接続します。中間表現がこの階層を明示し、学習者・教師・別システムが必要な抽象度でアクセスできるようにすることが大事です。これは多視点表現とも繋がります——微分の概念は、幾何 (接線の傾き)・解析 (極限としての導関数)・物理 (瞬間速度)・計算 (数値微分) の異なる視点から表現されるべきで、視点間のマッピングを明示するのが中間表現の役割です。

第二の方向——LLM との責任ある統合

大規模言語モデル (LLM) の登場は、学習支援に大きな変化をもたらしつつあります [Kasneci2023] (第 12 章、第 16 章参照)。本書の視点からの問いは単純です——LLM の流暢さと本書の制御可能性をどう統合するか。これは未来の話ではなく、いま起きている話です。Khanmigo (第 16 章) は GPT-4 ベースで広範な学校に展開されており、対応を急がなければ本書の枠組みは時代遅れの方法論として通り過ぎられてしまうかもしれません。

LLM の限界——FCL が補完すべき点

LLM は強力ですが、FCL 的観点から見ると重要な弱点があります。

第一に、認知モデルの欠如——LLM は学習者の認知状態を構造化されたモデルとして追跡しません。「この学習者はどのスキルを習得し、どの誤概念を持つか」の永続的状態がないのです。会話のたびに最初からやり直しに近い状態で動きます。

第二に、教育的戦略の不在——LLM の応答は確率的で、ZPD 内の課題、段階的ヒント、フェーディング (第 10 章参照) といった教育的戦略を保証しません。「学習者が答えに詰まったとき、どこまでヒントを出すべきか」を、LLM は文脈と確率分布から「それっぽく」決めますが、認知科学的に正しい判断とは限りません。

第三に、説明可能性の欠如——「なぜこのヒントを提示したか」の根拠が、LLM の活性化パターンに閉じ込められて取り出せません。

第四に、ハルシネーション——LLM は自信を持って事実誤認を述べます。教育文脈では、これは深刻な害をもたらしうるリスクです。

FCL-LLM ハイブリッドアーキテクチャ

これらの問題に対する本書の応答は、LLM を言語生成エンジンとして使い、FCL が制御の頭脳となる 階層的アーキテクチャです [Stamper2024]。具体的に四層で書いてみましょう。

flowchart TD
    A["第1層：認知モデル層 (FCL)"] --> B["第2層：教授戦略層 (FCL)"]
    B --> C["第3層：対話計画層 (FCL)"]
    C --> D["第4層：言語生成層 (LLM)"]
    D --> User["学習者"]
    User --> A

図 18-1: FCL-LLM ハイブリッドアーキテクチャの四層

第 1 層 (認知モデル層, FCL)——学習者の知識状態を BKT や制約ベースモデルで形式的に追跡。第 2 層 (教授戦略層, FCL)——現在の認知状態に基づき、教育的目標を設定 (「スキル X を習得させる」「誤概念 Y を修正する」)。第 3 層 (対話計画層, FCL)——ソクラテス的対話、worked examples、足場かけなど、具体的な教授戦略を選択。第 4 層 (言語生成層, LLM)——FCL が決定した「教育的意図」を、自然で文脈に適した日本語に変換。

具体例で動かしてみましょう。学習者がプログラミングで「変数の値は同時に変わる」という誤概念を持つとします。

認知モデル層が誤概念 M = {同時更新} を診断 (直前の解答パターンと誤りモデルから)。
教授戦略層が「逐次実行の概念を明示化する」を選ぶ。
対話計画層が「ステップ実行を観察させる」戦略を選択し、シミュレータでの実演をプランする。
言語生成層に「学習者にステップ実行の観察を促す日本語を、プログラミング初学者向けに書いてください」と指示し、LLM が「では、このコードを 1 行ずつ実行したとき、変数 x と y の値がどう変化するか、実際に見てみましょう」と生成する。

この設計の意義は、LLM の柔軟な言語能力と本書の教育的制御可能性が両立できるところにあります。LLM が暴走しても、FCL が教授的意図を承認したものだけが学習者に届く——これが「責任ある統合」の意味です。

研究上の問い

このアーキテクチャは概念的にはきれいですが、実装上の問いは多くあります。

LLM の出力をどう検証するか——FCL が「ステップ実行を促せ」と指示しても、LLM は別の指示を出すかもしれません。LLM 生成テキストが教授的意図と整合しているかを、もう一度本書の側で形式的に検証する仕組みが必要です。
プロンプト設計の形式化——本書の教授的意図を LLM 用プロンプトに落とすこと自体が、新しい形式化の対象です。「教授的意図の中間表現」と「自然言語プロンプト」の対応を体系化する必要があります。
LLM の知識の更新可能性——ドメイン知識が変わったとき (数学カリキュラムの改訂、プログラミング言語のバージョンアップ)、LLM の応答をどう一貫して更新するか。本書の中間表現側を更新するだけでは、LLM が古い情報を出し続けます。
コスト構造——LLM 呼び出しは API コストがかかります。本書の階層構造で適切に間引く (簡単な応答は LLM を使わない) 設計が必要です。

LLM による形式化の自動化——逆方向の使い方

逆方向に、LLM が本書の形式化プロセスを支援できる可能性もあります。

オントロジー構築支援——ドメイン専門家が自然言語で概念を記述すると、LLM が形式的なオントロジー (OWL、第 4 章参照) の候補に変換します。専門家が検証・修正することで、形式化コストを削減できます。

誤概念パターンの自動抽出——大量の学習ログと対話データから、LLM が典型的な誤りパターンを抽出し、Mal-rules (第 9 章参照) として形式化する候補を提案します。

説明生成——形式的な認知モデルから、学習者・教師向けの自然言語説明を LLM が生成します。「あなたの誤りは、概念ノード X と Y の関係を取り違えていることから生じています」を、より平易な表現に言い換える、といった使い方です。

これらは便利ですが、LLM の生成は検証が要ります。本書の形式的枠組みが、LLM 生成の正しさを検証する基準となる——LLM は FCL を加速するが、本書の正しさを保証するのは LLM ではない ということです。

第三の方向——コミュニティとデータ共有

本書の最大の野心は、個別システムの効果ではなくエコシステムとしての累積にあります (序章、第 13 章、第 15 章参照)。これは技術的課題であると同時に、コミュニティ形成の社会的課題でもあります。形式化と中間表現は、それを担う社会的仕組みがなければ単発の論文や孤立した製品で終わる——この認識が第三の研究プログラムの出発点です。

認知モデル・オントロジーのリポジトリ

最初に必要なのは、研究者が開発した認知モデル、ドメインオントロジー、教授戦略を、検索可能・再利用可能な形で登録する場所です。これは、ソフトウェア開発における GitHub、機械学習における Hugging Face のモデルハブに相当する役割を、学習支援研究で果たすことを目指すものです。

技術的要件は明らかです——標準化されたメタデータ (モデルの対象ドメイン、理論的基盤、検証データ、ライセンス)、バージョン管理、検証メトリクス、相互参照 (モデル間の拡張・修正関係)。期待される効果は「車輪の再発明の削減」と「累積的発展」と「新規研究者の参入障壁の低下」です。

研究上の問いは次の三点に絞られます。標準化の範囲をどこに引くか——細かすぎる標準は採用されず、粗すぎる標準は再利用を促進しません。コミュニティ・ガバナンス——誰が標準を決め、誰がリポジトリを運営するか。学術コミュニティ、民間企業、政府機関のどれが正当な担い手か。インセンティブ設計——研究者がモデルを共有する動機をどう作るか。論文出版とは別の評価指標が必要かもしれません。

相互運用可能なコンポーネントライブラリ

リポジトリと並んで、学習者モデリング、適応的課題選択、フィードバック生成、可視化などの機能を、プラグイン可能なモジュールとして提供する基盤が要ります。「Bayesian Knowledge Tracing モジュール」が任意のドメインの知識構造を入力として受け取り、学習者の習熟度を推定する標準インタフェースを提供する——という形式です。

技術的要件は標準 API (入出力の形式、呼び出し規約)、中間表現の統一 (モジュール間でデータをやり取りする共通フォーマット——JSON-LD、xAPI のような既存規格との接続)、ドキュメントと例 (各モジュールの使用法、制約条件の明示)。期待される効果は「システム開発の効率化」「異なるアプローチの公正な比較」「ベストプラクティスの普及」です。

学習データの倫理的共有

PSLC DataShop [Koedinger2010] のように、学習ログデータを研究コミュニティで共有する仕組みも必要です。これは第 17 章で論じた倫理的課題と正面から衝突します——プライバシー、再識別リスク、商業利用の禁止、目的限定、同意。「共有可能性」と「個人保護」のトレードオフをどう設計に書き込むか が、研究上の問いです。

技術的・倫理的要件には、匿名化 (個人識別情報の削除、k-匿名性の保証)、同意 (学習者・教育機関からのインフォームド・コンセント、特に未成年への配慮)、目的限定 (研究目的に限定し商業利用を制限)、標準形式 (異なるシステムのログを統一フォーマットで記録)、削除権 (参加者がデータ削除を要求できる権利、GDPR 準拠) が含まれます。

期待される効果は、大規模データによる理論検証、稀な学習パターンの発見、システム間の効果比較、そしてコミュニティ全体の研究品質の向上です。第 14 章で論じた検出力分析が示す通り、現場効果 ( $d \approx 0.20$ ) の検出には数百〜数千の学習者規模が必要で、これは単一の研究室では集められません——共有データなしには、本書の現場評価は事実上不可能なのです。

コミュニティと標準化

FCL エコシステムの実現には、標準化団体 (IEEE、W3C のワーキンググループなど) が中間表現と API の標準を策定する組織的取り組みが必要です。Learning Tools Interoperability (LTI) や xAPI などの既存教育技術標準との連携も重要です。同時に、論文だけでなくコード・データ・モデルを公開するオープンサイエンス文化、認知科学・教育学・計算機科学・HCI・倫理学が並ぶ学際的協働、Design-Based Research (第 14 章) のように実践者 (教師) も設計プロセスに参加する仕組みが要ります。

これらは技術的問題というより 社会制度的問題 です。FCL を方法論として完成させるだけでは足りず、それを担うコミュニティを育てなければなりません——これが、本書の第三の研究プログラムが研究者個人の努力の射程を超えた、構造的な仕事である理由です。

日本語圏に話を絞ると、第 15 章でも触れた 「教育・学習支援システム研究」 という包括ラベルのもとに、すでにいくつかの研究コミュニティが動いています。本書が描く地図とほぼ重なる射程をカバーしている代表的な研究会・学会は次のあたりです。

なかでも SIG-SLAM (認知スキーマ・学習活動モデリング) は、その名称が示すとおり、本書のテーマと直接重なる問題を扱う研究会です。

加えて、若手研究者・学生向けの集まりとして、

教育・学習支援システム若手の会 (yelss) — 著者も運営に関わっている、所属研究室の枠を越えた若手の集まり
CALST (Co-study Group on Advanced Learning Science and Technology) — AI・知識工学・学習工学・学習科学・認知心理・認知科学にまたがる若手研究者と学生の 協働的な「第二のゼミ」。週 1〜隔週オンラインで集まり、研究発表・輪読・学会発表練習・研究室運営の共有などを「言い訳なしの深い議論」として続ける場

があります。学部生・大学院生・若手教員が、所属研究室の枠を越えて議論したり、互いの研究を見せ合ったりする場で、本書が想定している「近接ラボの学生たちが越境して話せるエコシステム」のささやかな実例です。本書を読み終えた、あるいは途中で「もう少しこの界隈の人と話してみたい」と感じたあなたには、こうしたコミュニティが自然な次の一歩になります。各コミュニティへの参加方法は付録 A や、僕の研究室サイト https://koike-lab.org/ から辿ってください。

三つの方向の絡み合い

ここまで三つの方向性を独立に書きましたが、実際にはこれらは絡み合っています。

多層形式化は、複雑な認知構造を扱える中間表現を要求します。その中間表現が単一研究グループに閉じていては、多層性のメリットが出ません——複数のドメイン、複数の言語、複数の文化的文脈で再利用されて初めて、多層形式化の射程が確かめられます。よって 多層形式化はコミュニティ・データ共有を要求します。

LLM との統合は、LLM の出力を本書の制御下に置くことを要求します。FCL が LLM を制御するためには、FCL 側の認知モデルが十分に豊かでなければなりません——浅い認知モデルでは、LLM の流暢な暴走を抑えきれません。よって LLM 統合は多層形式化を要求します。

コミュニティ・データ共有は、共有することの価値が示されなければ動機が生まれません。LLM 時代に「FCL が必要だ」と言うためには、LLM では達成できない説明可能性・教育的制御性・倫理的責任を、FCL ベースのシステムが具体的に示す必要があります。よって コミュニティ形成は LLM 統合の成功事例を要求します。

この三つは循環しているのではなく、相互依存的に同時進行します。一方を完成させてから次に進むという順序ではありません——三つの方向で並行して、それぞれの研究プログラムが他の二つを引っ張りつつ進んでいきます。これが、本書の今後の数十年の研究プログラムの構造です。

おわりに——未完の探求への招待

本書の枠組みは完成された体系ではありません。本書で述べた形式化、中間表現、エコシステムは、それぞれが進行中の研究テーマで、未解決の問いに満ちています。これは「未熟」ではなく、生きた研究プログラム であることを意味します。

本書を通じて伝えたかったのは、三つの問いに集約されます。第一に、「なぜ」を問い続けているか——多くの学習支援システムは「うまくいく」ことを目標としますが、本書の枠組みは「なぜうまくいくか」を問います。短期的には非効率に見えますが、長期的には科学的知見の累積こそが持続可能な学習支援の基盤となります。第二に、知見を共有できているか——各研究者が独自のシステムを一から構築し、結果を論文で報告するだけでは、車輪の再発明が続いてしまいます。本書の中間表現とエコシステム構想は、この非効率性に応えようとするものです。第三に、技術は誰のためにあるか——AI 技術はしばしば学習者を「最適化の対象」として扱う危険を持ちますが、学習者は能動的な主体です。本書の説明可能性は単なる技術的特性ではなく、学習者の自律性とエージェンシーを尊重する倫理的立場と結びついています (第 17 章)。

読者の皆さんには、本書の「消費者」ではなく「共創者」となっていただきたいと願っています。批判的に吟味し、改善し、拡張し、必要なら根底から書き換えてください。本書の枠組みは、多様な視点と専門性が交わる場であるべきだと、僕は思っています。

学習は、人間の最も基本的な営みの一つです。すべての子どもが、自分の可能性を発揮できる学習機会を持つべきです。本書の枠組みは、そのビジョンの実現に貢献できると僕たちは考えています——しかし技術だけでは不十分です。教師の専門性、教育政策、社会の価値観、すべてが重要です。本書の枠組みは教育の複雑なエコシステムの一部として、理論と実践、研究と現場、技術と人間性を結びつける役割を果たすべきだと思います。

本書で述べたことを、最後に短く三つの命題に圧縮して終わります。形式化は目的ではなく、深い理解のための手段である。中間表現は単なる技術ではなく、知見共有のための言語である。本書の枠組みは固定された方法論ではなく、より良い学習支援への探求である。

この探求は、まだ始まったばかりです。

著者から——読み終えた読者へ

ここまで本書を読んでくれて、ありがとうございました。第 1 章からまっすぐ読んでくれた方も、関心のある章だけを拾い読みしてくれた方も、それぞれの読み方でこの本に時間を割いてくれたこと、心から感謝しています。

まえがきにも書いた通り、本書は LLM をフル活用しながら、僕 (古池) の理解の届く範囲で編んだ「未完成な地図」です。学生たちのために少しでも早く何かを渡したい、という思いで先に世に出しました。書き終えてみると、扱いきれなかった話題、もっと深く論じるべきだった論点、別の角度から書き直したい章が、たくさん残っています。誤りや誇張、出典の取り違えがどこかに残っている可能性も、正直に言って、ゼロではありません。それでも、近接する研究室の学生にも、これから古池研で研究を始める学生にも、認知科学・教育工学・ITS / AIED・LA / EDM・HCI のどこかに自分の重心があるあなたにも、何かしら手がかりが残せていれば、いまの段階ではそれで十分だと思っています。

「ここはおかしい」「これは違う出典だ」「この主張はもう少し丁寧に書ける」と感じた箇所があれば、ぜひ知らせてください。本書はそうしたフィードバックで少しずつ磨かれていく前提で書いています。完成度の高さよりも、地図を更新できるかどうかのほうが、本書の価値を決めます。

本書は「何を研究するか（教育 AI / 学習支援研究の素材・方法・歴史）」に重心を置いた地図でしたが、もう一冊の地図——「どう研究するか（生き方・実践・スキル）」——として、姉妹編「研究の一歩目」を書きました。研究者としての立ち上がり、論文の書き方、メンターとの対話、査読、キャリアといった話題は、そちらに集めています。本書とペアで読んでくれると、二冊が補い合うように届くはずです。とくに最終章「これからの研究者へ」は、これから研究を始めるあなたに宛てて書いた手紙のようなもので、本書の読後にちょうど続く位置にあります。

気になる論点があれば、ぜひ研究室まで連絡をください——批判も、別の見方も、「ここはこう違う」も、すべて歓迎します。本書はそうしたやり取りを通じて、少しずつ書き直されていくものだと思っています。どこかですれ違うことがあったら、あなたの問いがどう育ったかを聞かせてください。喜びも、迷いも、混ぜたまま話してくれて構いません。楽しみにしています。

それでは、ここで本を閉じます。あなたの探求が、よい方向に進みますように。

主要な学術会議・ジャーナル

本書を読み終えたあとも、ぜひ最新の研究動向に触れていただきたいです。ここでは、本書の枠組みに関連する主要な学会・会議・ジャーナルをまとめました。気になる名前があれば、その入り口から芋づる式に研究の地図を広げてみてください。

主要国際会議

Artificial Intelligence in Education (AIED)

概要：AI in Education の代表的な国際会議です。ITS から Learning Analytics、Educational Data Mining まで幅広いトピックをカバーします。
開催：年1回、世界各地で開催されます。
URL：https://iaied.org/
採択率：フルペーパーで概ね25〜30%程度です。

International Conference on Intelligent Tutoring Systems (ITS)

概要：知的個別指導システムに特化した会議です。モデルトレーシング、学習者モデリング、適応的支援などが主なトピックになります。
開催：隔年で開催されます。
URL：https://its-conference.com/

Learning Analytics & Knowledge (LAK)

概要：Learning Analytics の主要会議です。学習データの分析、可視化、実践応用が中心になります。
開催：年1回開催されます。
URL：https://www.solaresearch.org/events/lak/

Educational Data Mining (EDM)

概要：教育データマイニングに特化した会議です。機械学習やデータマイニング手法の教育応用が扱われます。
開催：年1回開催されます。
URL：https://educationaldatamining.org/

International Conference of the Learning Sciences (ICLS)

概要：学習科学の主要会議です。認知科学、教育学、技術の統合的なテーマが中心になります。
開催：隔年で開催されます。
URL：https://www.isls.org/conferences

その他の重要会議

CHI (Conference on Human Factors in Computing Systems)：HCI 全般を扱う旗艦会議で、学習インタフェース関連の研究も発表されます。
CSCL (Computer-Supported Collaborative Learning)：協調学習支援を専門に扱う会議です。
EC-TEL (European Conference on Technology Enhanced Learning)：欧州を中心としたテクノロジー拡張学習の会議です。
L@S (Learning at Scale)：MOOC など大規模学習環境を扱う会議です。

主要学術ジャーナル

International Journal of Artificial Intelligence in Education (IJAIED)

出版社：Springer
URL：https://link.springer.com/journal/40593
特徴：AIED の代表的なジャーナルで、理論と実践の両方をカバーしています。

Journal of Learning Analytics (JLA)

出版社：Society for Learning Analytics Research (SoLAR)
アクセス：オープンアクセスです。
URL：https://learning-analytics.info/
特徴：Learning Analytics の専門誌で、実践的研究を重視しています。

Journal of the Learning Sciences

出版社：Taylor & Francis
URL：https://www.tandfonline.com/toc/hlns20/current
特徴：学習科学の理論と実践を扱います。デザイン研究の論文が多めです。

Computers & Education

出版社：Elsevier
URL：https://www.journals.elsevier.com/computers-and-education
特徴：教育技術全般を広くカバーし、実証的研究を重視しています。

その他の重要ジャーナル

British Journal of Educational Technology (BJET)
Educational Technology Research and Development (ETR&D)
Interactive Learning Environments
Instructional Science
Learning and Instruction

日本の主要学会・研究会

日本語圏で 教育・学習支援システム研究 にあたる仕事をやっているコミュニティを、本書の主題に近い順に整理しておきます。学部生・大学院生のあなたが「研究室の外で同じ関心の人に会いたい」と思ったときの最初の入り口に使ってください。

学会と、その下の研究会

人工知能学会 (JSAI)
- 先進的学習科学と工学研究会 (SIG-ALST) ―AI・認知科学・教育を結ぶ第一線の発表が集まる研究会。
教育システム情報学会 (JSiSE)
- SIG-認知スキーマ・学習活動モデリング (SIG-SLAM) ―名前のとおり、認知のスキーマを表現し学習活動をモデリングするという、本書の主題そのものを扱う研究会。
電子情報通信学会 (IEICE)
- 教育工学研究会 (ET) ―電子情報通信側からの教育工学研究の場。
日本教育工学会 (JSET) ―教育工学全般を扱う最大規模の学会。
日本認知科学会 ―認知科学全般。学習と認知に関するセッションあり。

若手・勉強会

教育・学習支援システム若手の会 (yelss) ―著者も運営に関わっている、所属研究室の枠を越えた若手研究者の集まり。学部生・大学院生・若手教員が中心。
CALST (Co-study Group on Advanced Learning Science and Technology) ―人工知能・知識工学・学習工学・学習科学・認知心理学・認知科学にまたがる、若手研究者と学生のための 協働かつ融合的な研究会。週 1〜隔週でオンラインで 2 時間ほど集まり、個人の研究発表、関連書籍や論文の輪読、学会発表練習、研究室運営の共有といった内容を扱います。所属を越えた 「第二のゼミ」 として機能していて、「言い訳なしの深い議論」を旨としています。

学会本体の年次大会では幅が広すぎて自分の関心に近い人を探しにくい、という場合、SIG-ALST、SIG-SLAM、ET といった研究会、そして yelss のような若手向けの場や、CALST のような少人数の協働研究会のほうが、最初の足がかりになりやすいと思います。

オープンアクセスリソース

arXiv

URL：https://arxiv.org/
カテゴリ：cs.CY (Computers and Society), cs.AI, cs.LG などが関連します。
特徴：プレプリントサーバーです。最新研究が査読前に公開されます。

教育データセット

PSLC DataShop：Learning curve 分析のための大規模学習データを公開しています。 https://pslcdatashop.web.cmu.edu/
EdNet：韓国発の大規模教育データセットです。 https://github.com/riiid/ednet

研究者コミュニティ

International AIED Society：AIED 研究者の国際ネットワークです。 https://iaied.org/
Society for Learning Analytics Research (SoLAR)：LA 研究者のコミュニティです。 https://www.solaresearch.org/
International Society of the Learning Sciences (ISLS)：学習科学のコミュニティです。 https://www.isls.org/

研究を始めるときは、これらの会議・ジャーナルの過去論文に目を通し、コミュニティに参加してみることをお勧めします。実際に発表や聴講に足を運んでみると、紙の上だけでは見えない議論の温度感が掴めるはずです。

オープンソースツール・データセット

実装に手を動かしながら学びたい読者のために、入手しやすいオープンソースツールと公開データセットを集めました。プロトタイピングや授業での演習、卒研テーマの足場づくりに役立ててください。

知的学習支援システム開発フレームワーク

CTAT (Cognitive Tutor Authoring Tools)

開発：Carnegie Mellon University
URL：https://ctat.pact.cs.cmu.edu/
特徴：モデルトレーシング型 ITS および Example-Tracing Tutor を構築するためのツールセットです。GUI 上でプロダクションルールや例示トレースを定義できます。
ライセンス：教育・研究目的では無料で利用できます。

AutoTutor

開発：University of Memphis
URL：http://www.autotutor.org/
特徴：対話的 ITS のプラットフォームで、自然言語対話による学習支援を行います。
応用例：物理、コンピュータリテラシー、批判的思考などで利用されてきました。

Open edX

URL：https://open.edx.org/
特徴：MOOC プラットフォームです。Open Analytics Insights など Learning Analytics 関連機能を備えています。
ライセンス：AGPLv3（オープンソース）です。

学習分析ツール

PSLC DataShop

URL：https://pslcdatashop.web.cmu.edu/
特徴：学習曲線分析や知識トレーシングなどの分析ツールが揃っており、大規模データセットも公開されています。

pyBKT / pyAFM

URL：https://github.com/CAHLR/pyBKT
特徴：Bayesian Knowledge Tracing の Python 実装（pyBKT）と、Additive Factor Model の Python 実装（pyAFM）です。学習者モデル研究で広く使われています。

EduMiningPy（汎用 EDM ツールキット）

特徴：EDM 分野では scikit-learn や PyTorch を組み合わせたワークフローが標準化しつつあります。専用パッケージとしては上記 pyBKT のほか、edm2 系コミュニティリポジトリも参考になります。

オントロジー開発ツール

Protégé

開発：Stanford University
URL：https://protege.stanford.edu/
特徴：OWL オントロジーを視覚的に構築・編集できるツールです。HermiT などの推論エンジンと連携できます。
ライセンス：オープンソース（BSD ライセンス）です。

主要なデータセット

EdNet

URL：https://github.com/riiid/ednet
特徴：韓国の英語学習プラットフォーム Santa TOEIC のデータです。1.3 億件以上の学習記録が収録されています。
応用：知識トレーシングや推薦システム研究で広く使われています。

ASSISTments Dataset

URL：https://sites.google.com/site/assistmentsdata/
特徴：数学学習のデータセットで、学習者の応答、ヒント使用、所要時間などが含まれます。
応用：学習者モデリングや適応的支援の研究に向いています。

Cognitive Atlas

URL：https://www.cognitiveatlas.org/
特徴：認知プロセスと課題のオントロジーを提供しています。

これらのツール・データセットを活用すると、研究や開発の立ち上がりがぐっと速くなります。まずは小さなプロトタイプを動かしてみるところから始めてみてください。

用語集

本書中に出てくる主要な用語を、ここに集めました。本文を読んでいて言葉に詰まったら戻ってくる、索引的な使い方を想定しています。アルファベット順と五十音順の二系統で整理してありますので、馴染みのある入り口から引いてみてください。

アルファベット順

ACT-R (Adaptive Control of Thought–Rational)：John R. Anderson が提唱した統合的認知アーキテクチャです。プロダクションルールに基づいて認知プロセスをモデル化します。
AIED (Artificial Intelligence in Education)：教育への人工知能の応用を研究する学際分野です。
Bloom's Taxonomy：Benjamin Bloom らによる教育目標の分類体系です。原版（1956）は知識・理解・応用・分析・統合・評価の6段階で、改訂版（Anderson & Krathwohl, 2001）では「記憶、理解、応用、分析、評価、創造」の6レベルに整理されています。
CBM (Constraint-Based Modeling)：制約ベースモデリングです。違反してはならない制約（オントロジー的・構文的制約）を定義し、学習者の解答が制約に違反していないかをチェックする手法を指します（Ohlsson, Mitrovic）。
Cognitive Apprenticeship：認知的徒弟制です。モデリング、コーチング、スキャフォルディング、フェーディング、明確化、リフレクション、探究などを通じて認知スキルを教える教授法を指します（Collins, Brown, Newman）。
Cognitive Load Theory：認知負荷理論です。ワーキングメモリの容量制約を考慮した教授設計の理論で、内在的（intrinsic）・外在的（extraneous）・関連的（germane）の3種の負荷を区別します（Sweller）。
EDM (Educational Data Mining)：教育データマイニングです。機械学習やデータマイニング手法を教育データに適用する分野を指します。
FCL (Formalized Cognitive Learning)：認知学習工学。本書のなかで著者が立てる作業ラベルで、人間の認知を計算論的に形式化し、その表現を媒介として適応的学習環境を設計する学際的視点を指します。詳しくは本書の見取り図を参照してください。
GOMS (Goals, Operators, Methods, Selection rules)：認知タスク分析の手法です（Card, Moran, Newell, 1983）。ユーザの認知プロセスを目標、オペレータ、方法、選択規則に分解します。
IRT (Item Response Theory)：項目反応理論です。テスト項目への反応から、学習者の能力（および項目の困難度・識別力など）を推定する統計理論を指します。
ITS (Intelligent Tutoring Systems)：知的個別指導システムです。学習者の状態を診断し、適応的に教授するコンピュータシステムを指します。
Knowledge Tracing：知識トレーシングです。学習者の各スキルの習得確率を、応答に基づいて逐次更新する手法で、代表例は BKT（Bayesian Knowledge Tracing, Corbett & Anderson, 1995）と DKT（Deep Knowledge Tracing, Piech et al., 2015）です。
LA (Learning Analytics)：学習分析です。学習者と学習文脈に関するデータを収集・分析し、学習を理解・最適化する手法を指します。
LLM (Large Language Model)：大規模言語モデルです。GPT 系・Claude などのように、大量のテキストで訓練された深層学習モデルを指します。
Metacognition：メタ認知です。「認知についての認知」と表現されるように（Flavell, 1979）、自己の認知プロセスを監視・制御する能力を指します。
Model Tracing：モデルトレーシングです。学習者の問題解決ステップを、エキスパートモデル（プロダクションルール群）と照合する診断手法を指します（Anderson）。
Ontology：オントロジーです。ある領域における概念とその関係を形式的に定義したものを指します。
Productive Failure：生産的失敗です。十分な支援なしに難しい問題に取り組ませ、その後で正しい解法を教えることで、より深い理解を促す教授法を指します（Kapur, 2008）。
Scaffolding：スキャフォルディング（足場かけ）です。学習者が自力ではできない部分を一時的に支援することを指します（Wood, Bruner, Ross, 1976）。
Schema：スキーマです。概念や状況についての構造化された知識の枠組みを指します。
Self-Regulated Learning (SRL)：自己調整学習です。学習者が自分の学習を計画・監視・制御することを指します（Zimmerman）。
ZPD (Zone of Proximal Development)：発達の最近接領域です。支援があればできることと、自力でできることの間の領域を指します（Vygotsky）。

五十音順

意味ネットワーク (semantic network)：概念をノード、概念間の関係をリンクとして表現する知識表現手法です。
エキスパートシステム (expert system)：専門家の知識を形式化し、推論を行う AI システムです。MYCIN などが代表例として知られます。
オーバレイモデル (overlay model)：学習者の知識を、専門家知識の部分集合として表現する学習者モデルです。
オープンラーナーモデル (open learner model)：学習者に自分の理解状態を可視化して見せる手法で、メタ認知を促進します。
オペラント条件づけ (operant conditioning)：行動の結果（強化・罰）によって行動の生起頻度が変化するという学習理論です（Skinner）。
オントロジー工学 (ontology engineering)：オントロジーを体系的に構築する方法論です。
概念知識 (conceptual knowledge)：陳述的知識（declarative knowledge）の一種で、「〜とは何か」「〜は〜である」という形式の知識を指します。
学習者モデル (learner model)：個々の学習者の知識状態、理解度、スキルレベルを表現したものです。
形式化 (formalization)：暗黙的で曖昧な知識や認知プロセスを、明示的で厳密な形式で表現することを指します。
構成主義 (constructivism)：学習者が能動的に知識を構成するという学習観です（Piaget, von Glasersfeld など）。社会的相互作用を強調する立場（Vygotsky）は社会構成主義と呼ばれます。
誤概念 (misconception)：学習者が持つ体系的な誤った理解を指します。
古典的条件づけ (classical conditioning)：中性刺激と無条件刺激の対提示による学習です（Pavlov）。
ドメインモデル (domain model)：ITS において、教えるべき内容の知識を表現したものです。
認知革命 (cognitive revolution)：1950〜60 年代に起きた、行動主義から認知主義へのパラダイム転換を指します。
認知負荷 (cognitive load)：学習時にワーキングメモリにかかる負荷で、内在的・外在的・関連的の3種類に分類されます。
認知的徒弟制 (cognitive apprenticeship) → Cognitive Apprenticeship を参照してください。
認知タスク分析 (cognitive task analysis)：タスク実行時の認知プロセスを体系的に分析する手法です。
バグモデル (bug model)：学習者の体系的な誤りを明示的にモデル化した学習者モデルです（Brown & Burton, 1978）。
フィードバック (feedback)：学習者の応答に対する情報提供を指します。正誤、正答、精緻化など種類はさまざまです。
フェーディング (fading)：学習が進むにつれて支援を段階的に減らすことを指します。
フレーム (frame)：ある概念や状況についての構造化された知識表現で、スロットと値を持ちます（Minsky）。
プロダクションルール (production rule)：IF–THEN 形式の知識表現で、「もし P ならば Q を実行する」という形を取ります。
プロトコル分析 (protocol analysis)：タスク実行中の発話（think-aloud）や行動を記録・分析する手法です（Ericsson & Simon）。
マルチメディア学習理論 (multimedia learning theory)：テキスト、図、音声などを統合した学習環境の設計原理です（Mayer）。
メタ認知 (metacognition) → Metacognition を参照してください。
モデルトレーシング (model tracing) → Model Tracing を参照してください。
有意味学習 (meaningful learning)：新しい知識を既存の認知構造に関連づけて統合する学習です（Ausubel）。
ワーキングメモリ (working memory)：情報を一時的に保持・操作する記憶システムです。短期記憶のチャンク容量はおよそ7±2（Miller, 1956）とされ、より純粋な保持容量は約4チャンク（Cowan, 2001）と推定されています。

略語一覧

ACT-R：Adaptive Control of Thought–Rational
AIED：Artificial Intelligence in Education
BKT：Bayesian Knowledge Tracing
CAI：Computer-Assisted Instruction
CBM：Constraint-Based Modeling
CCS：Computational Cognitive Schema（計算論的認知スキーマ）
CoP：Community of Practice（実践コミュニティ）
CTA：Cognitive Task Analysis（認知タスク分析）
DKT：Deep Knowledge Tracing
EDM：Educational Data Mining
FCL：Formalized Cognitive Learning（認知学習工学）
GOMS：Goals, Operators, Methods, Selection rules
HCI：Human–Computer Interaction
IRT：Item Response Theory（項目反応理論）
ITS：Intelligent Tutoring Systems
KST：Knowledge Space Theory（知識空間理論）
LA：Learning Analytics
LAD：Language Acquisition Device（言語獲得装置）
LLM：Large Language Model（大規模言語モデル）
LMS：Learning Management System（学習管理システム）
LPP：Legitimate Peripheral Participation（正統的周辺参加）
MOOC：Massive Open Online Course
OWL：Web Ontology Language
RCT：Randomized Controlled Trial（ランダム化比較試験）
RDF：Resource Description Framework
SRL：Self-Regulated Learning（自己調整学習）
UI/UX：User Interface / User Experience
XAI：Explainable AI（説明可能AI）
ZPD：Zone of Proximal Development（発達の最近接領域）

参考文献ガイド

FCL を起点に、各分野へ深く分け入るための文献ガイドです。トピック別に推薦書・推薦論文を並べました。各エントリは「書名 — 著者. 出版社, 年.」の形式で示し、続く行で簡潔な紹介を添えています。

なお、本書全体の引用文献を網羅した一覧は bibliography.md にまとめてあります。また、僕 (古池) の研究室サイト（https://koike.app/）では、現在進行中の研究や最新の論文も随時公開していますので、最新動向を追いたいときはあわせてご覧ください。

入門書・教科書

知的学習支援システム

Building Intelligent Interactive Tutors — Woolf, B. P. Morgan Kaufmann, 2009. ITS の歴史・理論・技術・評価を体系的に網羅した包括的な教科書です。
Advances in Intelligent Tutoring Systems — Nkambou, R., Bourdeau, J., & Mizoguchi, R. (Eds.). Springer, 2010. ITS 研究の主要動向を、各分野の専門家が章ごとに解説する論集です。

学習科学

How People Learn: Brain, Mind, Experience, and School (Expanded ed.) — Bransford, J. D., Brown, A. L., & Cocking, R. R. (Eds.). National Academy Press, 2000. 認知科学に基づく教育設計を論じた、学習科学の古典的名著です。
The Cambridge Handbook of the Learning Sciences (2nd ed.) — Sawyer, R. K. (Ed.). Cambridge University Press, 2014. 学習科学の主要トピックを網羅したハンドブックです。

認知科学

Cognitive Psychology and Its Implications (9th ed.) — Anderson, J. R. Worth Publishers, 2020. 記憶・思考・問題解決を扱う、認知心理学の定番教科書です。

方法論・理論

認知負荷理論

Cognitive Load Theory — Sweller, J., Ayres, P., & Kalyuga, S. Springer, 2011. 認知負荷理論の設計原理と実証研究をまとめた、包括的な解説書です。

オントロジー工学

Knowledge Engineering: Principles and Methods — Studer, R., Benjamins, V. R., & Fensel, D. Data & Knowledge Engineering, 25(1–2), 161–197, 1998. 知識工学の方法論を体系的に整理した基本論文です。

応用分野別

Learning Analytics

Handbook of Learning Analytics (1st ed.) — Lang, C., Siemens, G., Wise, A., & Gašević, D. (Eds.). Society for Learning Analytics Research, 2017. LA の理論・方法・実践を網羅したオープンアクセスのハンドブックです（https://www.solaresearch.org/publications/hla-17/）。

Educational Data Mining

Handbook of Educational Data Mining — Romero, C., & Ventura, S. (Eds.). CRC Press, 2010. EDM の手法と応用事例を集めた、標準的なハンドブックです。

歴史的重要文献

AI in CAI: An Artificial-Intelligence Approach to Computer-Assisted Instruction — Carbonell, J. R. IEEE Transactions on Man-Machine Systems, 11(4), 190–202, 1970. 初期 ITS の先駆的研究で、SCHOLAR システムを提案し、AI を CAI に統合する道を切り拓きました。
Cognitive Tutors: Lessons Learned — Anderson, J. R., Corbett, A. T., Koedinger, K. R., & Pelletier, R. The Journal of the Learning Sciences, 4(2), 167–207, 1995. Cognitive Tutor の設計と教育現場での成果を報告した、実践展開の代表例です。
The 2 Sigma Problem: The Search for Methods of Group Instruction as Effective as One-to-One Tutoring — Bloom, B. S. Educational Researcher, 13(6), 4–16, 1984. 個別指導が集団指導より約2標準偏差優れる効果を示し、ITS 研究の動機づけとなった重要研究です。

読書の進め方

初学者向け

まず Woolf (2009) や Bransford et al. (2000) などの入門書で全体像を掴み、関心のある分野の教科書を精読するのが基本です。その後、主要会議の Best Paper を読み、自分の研究テーマに関連する論文を系統的にレビューしていくと、研究の地図が次第に描けるようになっていきます。

論文の読み方

論文を効率よく読むには、Keshav (2007, "How to Read a Paper") の3パス法が役立ちます。1回目は概要把握、2回目は詳細理解、3回目は批判的分析というように、読む深さを段階的に変えていく方法です。重要論文を見つけたら、その参考文献から関連研究を辿ったり、Google Scholar で「この論文を引用している論文」を検索したりすると、研究の系譜と現在地を立体的に把握できるようになります。

研究コミュニティに参加し、最新動向をキャッチアップしていくことも同じくらい大切です。本書をきっかけに、皆さんがそれぞれの関心に沿って研究の地図を広げていってくれたら嬉しく思います。

参考文献

本書で参照する文献を分野別に整理する。各エントリには <a id="..."></a> のアンカーを付与し、本文中の [link](bibliography.md#KEY) 形式の引用から該当箇所へ直接遷移できるようにしてある。エントリ・キーは [著者姓+西暦] 形式で、章ごとの引用と一致する。各セクション内の並び順は引用キーのアルファベット順である。

認知科学・認知心理学（記憶・注意・スキーマ・専門家–初心者）

[Anderson2000] Anderson, John R. Cognitive Psychology and Its Implications (5th ed.). Worth Publishers, 2000.

[Atkinson1968] Atkinson, Richard C. and Shiffrin, Richard M. "Human Memory: A Proposed System and Its Control Processes". In The Psychology of Learning and Motivation (eds. Spence, Kenneth W. and Spence, Janet T.), vol. 2, pp. 89–195. Academic Press, 1968.

[Baddeley1986] Baddeley, Alan D. Working Memory. Oxford University Press, 1986.

[Bartlett1932] Bartlett, Frederic C. Remembering: A Study in Experimental and Social Psychology. Cambridge University Press, 1932.

[Chi1981] Chi, Michelene T. H., Feltovich, Paul and Glaser, Robert. "Categorization and Representation of Physics Problems by Experts and Novices". Cognitive Science, 5(2), 121–152, 1981.

[Chomsky1959] Chomsky, Noam. "A Review of B. F. Skinner's Verbal Behavior". Language, 35(1), 26–58, 1959. doi:10.2307/411334

[Collins1969] Collins, Allan M. and Quillian, M. Ross. "Retrieval Time from Semantic Memory". Journal of Verbal Learning and Verbal Behavior, 8(2), 240–248, 1969.

[Griggs1982] Griggs, Richard A. and Cox, James R. "The Elusive Thematic-Materials Effect in Wason's Selection Task". British Journal of Psychology, 73, 407–420, 1982.

[Miller1956] Miller, George A. "The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information". Psychological Review, 63(2), 81–97, 1956.

[Neisser1967] Neisser, Ulric. Cognitive Psychology. Appleton-Century-Crofts, 1967.

[Rumelhart1980] Rumelhart, David E. "Schemata: The Building Blocks of Cognition". In Theoretical Issues in Reading Comprehension (eds. Spiro, Rand J., Bruce, Bertram C. and Brewer, William F.), pp. 33–58. Lawrence Erlbaum Associates, 1980.

[Sperling1960] Sperling, George. "The Information Available in Brief Visual Presentations". Psychological Monographs: General and Applied, 74(11), 1–29, 1960. doi:10.1037/h0093759

[Tulving1972] Tulving, Endel. "Episodic and Semantic Memory". In Organization of Memory (eds. Tulving, Endel and Donaldson, Wayne), pp. 381–403. Academic Press, 1972.

[Wason1968] Wason, Peter C. "Reasoning about a Rule". Quarterly Journal of Experimental Psychology, 20(3), 273–281, 1968.

認知アーキテクチャと推論（ACT-R・SOAR・シンボリックAI・Marr）

[Anderson1993] Anderson, John R. Rules of the Mind. Lawrence Erlbaum Associates, 1993.

[Anderson1998] Anderson, John R. and Lebiere, Christian. The Atomic Components of Thought. Lawrence Erlbaum Associates, 1998.

[Anderson2007] Anderson, John R., Bothell, Daniel, Byrne, Michael D., Douglass, Scott, Lebiere, Christian and Qin, Yulin. "An Integrated Theory of the Mind". Psychological Review, 114(4), 1036–1060, 2007.

[Card1983] Card, Stuart K., Moran, Thomas P. and Newell, Allen. The Psychology of Human-Computer Interaction. Lawrence Erlbaum Associates, 1983.

[Laird1987] Laird, John E., Newell, Allen and Rosenbloom, Paul S. "SOAR: An Architecture for General Intelligence". Artificial Intelligence, 33(1), 1–64, 1987. doi:10.1016/0004-3702(87)90050-6

[Marr1982] Marr, David. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman, 1982.

[Minsky1975] Minsky, Marvin. "A Framework for Representing Knowledge". In The Psychology of Computer Vision (ed. Winston, Patrick H.), pp. 211–277. McGraw-Hill, 1975.

[Newell1972] Newell, Allen and Simon, Herbert A. Human Problem Solving. Prentice-Hall, 1972.

[Newell1981] Newell, Allen and Rosenbloom, Paul S. "Mechanisms of Skill Acquisition and the Law of Practice". In Cognitive Skills and Their Acquisition (ed. Anderson, John R.), pp. 1–55. Lawrence Erlbaum Associates, 1981.

[Newell1982] Newell, Allen. "The Knowledge Level". Artificial Intelligence, 18(1), 87–127, 1982.

[Pearl1988] Pearl, Judea. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, 1988.

[Russell2020] Russell, Stuart J. and Norvig, Peter. Artificial Intelligence: A Modern Approach (4th ed.). Pearson, 2020.

教育学・学習科学（Bloom・Bransford・Sawyer・Vygotsky・Piaget・構成主義）

[Anderson2001] Anderson, Lorin W. and Krathwohl, David R. (eds.) A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom's Taxonomy of Educational Objectives. Allyn & Bacon, 2001.

[Ausubel1963] Ausubel, David P. The Psychology of Meaningful Verbal Learning. Grune & Stratton, 1963.

[Bloom1956] Bloom, Benjamin S. (ed.) Taxonomy of Educational Objectives: The Classification of Educational Goals. David McKay, 1956.

[Bloom1984] Bloom, Benjamin S. "The 2 Sigma Problem: The Search for Methods of Group Instruction as Effective as One-to-One Tutoring". Educational Researcher, 13(6), 4–16, 1984.

[Branch2009] Branch, Robert Maribe. Instructional Design: The ADDIE Approach. Springer, 2009.

[Bransford1972] Bransford, John D. and Johnson, Marcia K. "Contextual Prerequisites for Understanding: Some Investigations of Comprehension and Recall". Journal of Verbal Learning and Verbal Behavior, 11(6), 717–726, 1972.

[Bransford1999] Bransford, John D. and Schwartz, Daniel L. "Rethinking Transfer: A Simple Proposal with Multiple Implications". Review of Research in Education, 24, 61–100, 1999.

[Bransford2000] Bransford, John D., Brown, Ann L. and Cocking, Rodney R. How People Learn: Brain, Mind, Experience, and School. National Academy Press, 2000.

[Bruner1960] Bruner, Jerome S. The Process of Education. Harvard University Press, 1960.

[Collins1989] Collins, Allan, Brown, John Seymour and Newman, Susan E. "Cognitive Apprenticeship: Teaching the Crafts of Reading, Writing, and Mathematics". In Knowing, Learning, and Instruction: Essays in Honor of Robert Glaser, pp. 453–494. Lawrence Erlbaum Associates, 1989.

[Gagne1985] Gagné, Robert M. The Conditions of Learning and Theory of Instruction (4th ed.). Holt, Rinehart and Winston, 1985.

[Hattie2007] Hattie, John and Timperley, Helen. "The Power of Feedback". Review of Educational Research, 77(1), 81–112, 2007. doi:10.3102/003465430298487

[Kapur2008] Kapur, Manu. "Productive Failure". Cognition and Instruction, 26(3), 379–424, 2008.

[Kapur2016] Kapur, Manu. "Examining Productive Failure, Productive Success, Unproductive Failure, and Unproductive Success in Learning". Educational Psychologist, 51(2), 289–299, 2016.

[Kirkpatrick1994] Kirkpatrick, Donald L. Evaluating Training Programs: The Four Levels. Berrett-Koehler Publishers, 1994.

[Lave1991] Lave, Jean and Wenger, Etienne. Situated Learning: Legitimate Peripheral Participation. Cambridge University Press, 1991.

[Piaget1952] Piaget, Jean. The Origins of Intelligence in Children. International Universities Press, 1952.

[RittleJohnson1999] Rittle-Johnson, Bethany and Alibali, Martha W. "Conceptual and Procedural Knowledge of Mathematics: Does One Lead to the Other?". Journal of Educational Psychology, 91(1), 175–189, 1999.

[Ryan2000] Ryan, Richard M. and Deci, Edward L. "Self-Determination Theory and the Facilitation of Intrinsic Motivation, Social Development, and Well-Being". American Psychologist, 55(1), 68–78, 2000.

[Sawyer2006] Sawyer, R. Keith (ed.) The Cambridge Handbook of the Learning Sciences. Cambridge University Press, 2006.

[Stahl2006] Stahl, Gerry (ed.) Group Cognition: Computer Support for Building Collaborative Knowledge. MIT Press, 2006.

[Vygotsky1978] Vygotsky, Lev S. Mind in Society: The Development of Higher Psychological Processes. Harvard University Press, 1978.

[Wood1976] Wood, David, Bruner, Jerome S. and Ross, Gail. "The Role of Tutoring in Problem Solving". Journal of Child Psychology and Psychiatry, 17(2), 89–100, 1976.

学習理論：認知負荷・スキーマ・転移・マルチメディア（Sweller・Mayer）

[Bjork1994] Bjork, Robert A. "Memory and Metamemory Considerations in the Training of Human Beings". In Metacognition: Knowing about Knowing (eds. Metcalfe, J. and Shimamura, A. P.), pp. 185–205. MIT Press, 1994.

[Heathcote2000] Heathcote, Andrew, Brown, Scott and Mewhort, D. J. K. "The Power Law Repealed: The Case for an Exponential Law of Practice". Psychonomic Bulletin & Review, 7(2), 185–207, 2000.

[Mayer2009] Mayer, Richard E. Multimedia Learning (2nd ed.). Cambridge University Press, 2009.

[Mayer2014] Mayer, Richard E. "Cognitive Theory of Multimedia Learning". In The Cambridge Handbook of Multimedia Learning (ed. Mayer, Richard E.), 2nd ed., pp. 43–71. Cambridge University Press, 2014.

[Pashler2008] Pashler, Harold, McDaniel, Mark, Rohrer, Doug and Bjork, Robert. "Learning Styles: Concepts and Evidence". Psychological Science in the Public Interest, 9(3), 105–119, 2008.

[Settles2016] Settles, Burr and Meeder, Brendan. "A Trainable Spaced Repetition Model for Language Learning". In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pp. 1848–1858, 2016.

[Sweller1988] Sweller, John. "Cognitive Load During Problem Solving: Effects on Learning". Cognitive Science, 12(2), 257–285, 1988.

[Sweller2011] Sweller, John, Ayres, Paul and Kalyuga, Slava. Cognitive Load Theory. Springer, 2011.

メタ認知・自己調整学習（Zimmerman・Winne・Flavell）

[Flavell1979] Flavell, John H. "Metacognition and Cognitive Monitoring: A New Area of Cognitive-Developmental Inquiry". American Psychologist, 34(10), 906–911, 1979.

[Kruger1999] Kruger, Justin and Dunning, David. "Unskilled and Unaware of It: How Difficulties in Recognizing One's Own Incompetence Lead to Inflated Self-Assessments". Journal of Personality and Social Psychology, 77(6), 1121–1134, 1999. doi:10.1037/0022-3514.77.6.1121

[Winne1998] Winne, Philip H. and Hadwin, Allyson F. "Studying as Self-Regulated Learning". In Metacognition in Educational Theory and Practice (eds. Hacker, Douglas J., Dunlosky, John and Graesser, Arthur C.), pp. 277–304. Lawrence Erlbaum Associates, 1998.

[Zimmerman2002] Zimmerman, Barry J. "Becoming a Self-Regulated Learner: An Overview". Theory Into Practice, 41(2), 64–70, 2002.

知識工学・オントロジー・専門家システム（Feigenbaum・Studer・Gruber・Guarino・OWL/RDF）

[Buchanan1984] Buchanan, Bruce G. and Shortliffe, Edward H. Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project. Addison-Wesley, 1984.

[Feigenbaum1977] Feigenbaum, Edward A. "The Art of Artificial Intelligence: Themes and Case Studies of Knowledge Engineering". In Proceedings of the Fifth International Joint Conference on Artificial Intelligence, pp. 1014–1029, 1977.

[Gruber1993] Gruber, Thomas R. "A Translation Approach to Portable Ontology Specifications". Knowledge Acquisition, 5(2), 199–220, 1993.

[Guarino2009] Guarino, Nicola, Oberle, Daniel and Staab, Steffen. "What Is an Ontology?". In Handbook on Ontologies (eds. Staab, Steffen and Studer, Rudi), pp. 1–17. Springer, 2009.

[Klyne2004] Klyne, Graham and Carroll, Jeremy J. "Resource Description Framework (RDF): Concepts and Abstract Syntax". W3C Recommendation, W3C, 2004. https://www.w3.org/TR/rdf-concepts/

[Lenat1995] Lenat, Douglas B. "CYC: A Large-Scale Investment in Knowledge Infrastructure". Communications of the ACM, 38(11), 33–38, 1995. doi:10.1145/219717.219745

[Lindsay1980] Lindsay, Robert K., Buchanan, Bruce G., Feigenbaum, Edward A. and Lederberg, Joshua. Applications of Artificial Intelligence for Organic Chemistry: The DENDRAL Project. McGraw-Hill, 1980.

[McGuinness2004] McGuinness, Deborah L. and van Harmelen, Frank. "OWL Web Ontology Language Overview". W3C Recommendation, W3C, 2004. https://www.w3.org/TR/owl-features/

[Niles2001] Niles, Ian and Pease, Adam. "Towards a Standard Upper Ontology". In Proceedings of the International Conference on Formal Ontology in Information Systems (FOIS-2001), pp. 2–9, 2001.

[Novak2006] Novak, Joseph D. and Cañas, Alberto J. "The Theory Underlying Concept Maps and How to Construct and Use Them". Technical Report IHMC CmapTools 2006-01, Florida Institute for Human and Machine Cognition, 2006.

[Shortliffe1976] Shortliffe, Edward H. Computer-Based Medical Consultations: MYCIN. Elsevier, 1976.

[Studer1998] Studer, Rudi, Benjamins, V. Richard and Fensel, Dieter. "Knowledge Engineering: Principles and Methods". Data & Knowledge Engineering, 25(1-2), 161–197, 1998.

知的個別指導システム（ITS）と AIED（Cognitive Tutor・ASSISTments・SCHOLAR・BUGGY・AutoTutor・Andes・Hirashima ES/Monsakun・Carnegie Learning）

[Aleven2006] Aleven, Vincent, McLaren, Bruce M., Roll, Ido and Koedinger, Kenneth R. "Toward Meta-cognitive Tutoring: A Model of Help Seeking with a Cognitive Tutor". International Journal of Artificial Intelligence in Education, 16(2), 101–128, 2006.

[Alpert1969] Alpert, Daniel and Bitzer, Donald L. "Advances in Computer-Based Education". Science, 167(3925), 1582–1590, 1969.

[Anderson1995] Anderson, John R., Corbett, Albert T., Koedinger, Kenneth R. and Pelletier, Ray. "Cognitive Tutors: Lessons Learned". Journal of the Learning Sciences, 4(2), 167–207, 1995.

[Annett1967] Annett, John and Duncan, K. D. "Task Analysis and Training Design". Occupational Psychology, 41, 211–221, 1967.

[Arroyo2014] Arroyo, Ivon, Woolf, Beverly Park, Burleson, Winslow, Muldner, Kasia, Rai, Dovan and Tai, Ming. "A Multimedia Adaptive Tutoring System for Mathematics That Addresses Cognition, Metacognition and Affect". International Journal of Artificial Intelligence in Education, 24(4), 387–426, 2014.

[Ashley1990] Ashley, Kevin D. Modeling Legal Argument: Reasoning with Cases and Hypotheticals. MIT Press, 1990.

[Biswas2005] Biswas, Gautam, Leelawong, Krittaya, Schwartz, Daniel, Vye, Nancy and The Teachable Agents Group at Vanderbilt. "Learning by Teaching: A New Agent Paradigm for Educational Software". Applied Artificial Intelligence, 19(3-4), 363–392, 2005.

[Brown1975] Brown, John Seely, Burton, Richard R. and Bell, Alan G. "SOPHIE: A Step Towards a Reactive Learning Environment". International Journal of Man-Machine Studies, 7, 675–696, 1975.

[Brown1978] Brown, John Seely and Burton, Richard R. "Diagnostic Models for Procedural Bugs in Basic Mathematical Skills". Cognitive Science, 2, 155–192, 1978. doi:10.1207/s15516709cog0202_4

[Brusilovsky1996] Brusilovsky, Peter, Schwarz, Elmar and Weber, Gerhard. "ELM-ART: An Intelligent Tutoring System on World Wide Web". In Intelligent Tutoring Systems, pp. 261–269. Springer, 1996.

[Brusilovsky2001] Brusilovsky, Peter. "Adaptive Hypermedia". User Modeling and User-Adapted Interaction, 11(1-2), 87–110, 2001.

[Burton1982] Burton, Richard R. "Diagnosing Bugs in a Simple Procedural Skill". In Intelligent Tutoring Systems (eds. Sleeman, D. and Brown, J. S.), pp. 157–183. Academic Press, 1982.

[Carbonell1970] Carbonell, Jaime R. "AI in CAI: An Artificial-Intelligence Approach to Computer-Assisted Instruction". IEEE Transactions on Man-Machine Systems, 11(4), 190–202, 1970.

[Carbonell1970scholar] Carbonell, Jaime R. Mixed-Initiative Man-Computer Instructional Dialogues. Ph.D. thesis, Massachusetts Institute of Technology, 1970.

[Carr1977] Carr, Brian and Goldstein, Ira P. "Overlays: A Theory of Modelling for Computer Aided Instruction". International Journal of Man-Machine Studies, 5, 215–236, 1977.

[Clancey1984] Clancey, William J. "Methodology for Building an Intelligent Tutoring System". In Methods and Tactics in Cognitive Science (eds. Kintsch, Walter, Miller, James R. and Polson, Peter G.), pp. 51–83. Lawrence Erlbaum Associates, 1984.

[Clancey1987] Clancey, William J. Knowledge-Based Tutoring: The GUIDON Program. MIT Press, 1987.

[Dzikovska2013] Dzikovska, Myroslava O., Steinhauser, Natalie, Farrow, Elaine, Moore, Johanna D. and Campbell, Gwendolyn E. "BEETLE II: Deep Natural Language Understanding and Automatic Feedback Generation for Intelligent Tutoring in Basic Electricity and Electronics". International Journal of Artificial Intelligence in Education, 24(3), 284–332, 2013.

[Graesser2004] Graesser, Arthur C., Lu, Shulan, Jackson, George T., Mitchell, Heather H., Ventura, Matthew, Olney, Andrew and Louwerse, Max M. "AutoTutor: A Tutor with Dialogue in Natural Language". Behavior Research Methods, Instruments, & Computers, 36(2), 180–192, 2004.

[Guo2013] Guo, Philip J. "Online Python Tutor: Embeddable Web-Based Program Visualization for CS Education". In Proceeding of the 44th ACM Technical Symposium on Computer Science Education, pp. 579–584. ACM, 2013.

[Guzdial2004] Guzdial, Mark. "Programming Environments for Novices". In Computer Science Education Research (eds. Fincher, Sally and Petre, Marian), pp. 127–154. Taylor & Francis, 2004.

[Heffernan2014] Heffernan, Neil T. and Heffernan, Cristina Lindquist. "The ASSISTments Ecosystem: Building a Platform that Brings Scientists and Teachers Together for Minimally Invasive Research on Human Learning and Teaching". International Journal of Artificial Intelligence in Education, 24(4), 470–497, 2014.

[Hirashima1998] Hirashima, Tsukasa, Horiguchi, Tomoya, Kashihara, Akihiro and Toyoda, Jun'ichi. "Error-Based Simulation for Error-Visualization and Its Management". International Journal of Artificial Intelligence in Education, 9(1-2), 17–31, 1998.

[Hirashima2007] Hirashima, Tsukasa, Yokoyama, Takuro, Okamoto, Masahiko and Takeuchi, Akira. "Learning by Problem-Posing as Sentence-Integration and Its Evaluation". In Proceedings of the 15th International Conference on Computers in Education (ICCE 2007), pp. 254–261, 2007.

[Hirashima2009] Hirashima, Tsukasa, Imai, Isao, Horiguchi, Tomoya and Toumoto, Tsuyoshi. "Error-Based Simulation to Promote Awareness of Errors in Elementary Mechanics and Its Evaluation". In Proceedings of the 14th International Conference on Artificial Intelligence in Education (AIED 2009), pp. 409–416. IOS Press, 2009.

[Hirashima2015] 平嶋宗. 「『学習課題』中心の学習研究：情報構造としての学習課題の再定義と構造操作としての学習活動の設計」. 人工知能, 30(3), 277–280, 2015.

[Hirashima2016] Hirashima, Tsukasa and Horiguchi, Tomoya. "Creation of Cognitive Conflict by Error-Visualization: Error-Based Simulation and Its Practical Use in Science Learning". In Learning, Design, and Technology: An International Compendium of Theory, Research, Practice, and Policy (eds. Spector, M. J., Lockee, B. B. and Childress, M. D.), pp. 1–33. Springer, 2016.

[Hirashima2018] 平嶋宗, 林雄介. 「メタ問題設計法としてのオープン情報構造アプローチ」. 人工知能学会第82回先進的学習科学と工学研究会, pp. 55–60, 2018.

[Hirashima2019] 平嶋宗. 「作問学習に対する知的支援の試みと実践—組立としての作問および診断・フィードバック機能の実現—」. 科学教育研究, 43(2), 61–73, 2019.

[Hirashima2025] Hirashima, Tsukasa and Watanabe, Kazuo. "Recomposition Based Learning for Promoting Structural Understanding — From Reconstruction of External Representations to Recomposition of Internal Representation". In Proceedings of the 33rd International Conference on Computers in Education. Asia-Pacific Society for Computers in Education, 2025.

[Horiguchi2002] 堀口知也, 平嶋宗. 「誤りの修正を支援するシミュレーション環境—誤り原因の示唆性を考慮した Error-Based Simulation の制御—」. 人工知能学会論文誌, 17(4), 462–472, 2002.

[Horiguchi2015] Horiguchi, Tomoya, Tomoto, Tsuyoshi and Hirashima, Tsukasa. "A Framework of Generating Explanation for Conceptual Understanding Based on 'Semantics of Constraints'". Research and Practice in Technology Enhanced Learning, 10(1), 2, 2015.

[Horiguchi2020] 堀口知也, 東本崇仁, 平嶋宗. 「知識モデリングに基づく学習支援」. 人工知能学会誌, 35(2), 192–200, 2020.

[Koike2018] 古池謙人, 東本崇仁. 「プログラミングにおける構造的理解のための部品の段階的拡張手法の提案とそのシステムの開発」. 教育システム情報学会誌, 35(2), 215–220, 2018.

[Koike2019] 古池謙人, 東本崇仁, 堀口知也, 平嶋宗. 「プログラミングの構造的理解を指向した部品の段階的拡張手法の提案と支援システムの開発・評価」. 教育システム情報学会誌, 36, 190–202, 2019.

[Koike2020a] 古池謙人, 東本崇仁, 堀口知也, 平嶋宗. 「プログラミング学習における再利用性を指向した知識組織化のための知的支援—機能・振舞い・構造の観点に基づく問題解決過程のモデル—」. 人工知能学会論文誌, 35(5), C-J82_1–17, 2020.

[Koike2020b] Koike, Kento, Mogi, Tomohito, Tomoto, Takahito, Horiguchi, Tomoya and Hirashima, Tsukasa. "Compogram: Development and Evaluation of ITS for Organizing Programming-Knowledge by Visualizing Behavior". In HCI International 2020, Lecture Notes in Computer Science, vol. 12427, pp. 151–162. Springer, 2020.

[Koike2021] 古池謙人, 久世泰成, 東本崇仁. 「Error-based Simulation と概念マップを用いたメタ認知駆動学習を促すシステムの開発と評価」. 電子情報通信学会論文誌 D, J104(6), 526–528, 2021.

[Koike2023a] 古池謙人, 樋村いづみ, 東本崇仁. 「TAME：誤りの可視化を重視した Teachable Agent の挙動制御手法」. 電子情報通信学会論文誌 D, J106-D(2), 110–122, 2023.

[Koike2023b] 古池謙人, 藤島優希, 東本崇仁, 堀口知也, 平嶋宗. 「プログラミングの機能的階層構造の学習環境における習熟度を考慮した適応的フィードバック機能の評価」. 教育システム情報学会誌, 40(3), 2023.

[Koike2023c] Koike, Kento, Majumdar, Rwitajit, Hoppe, H. Ulrich and Ogata, Hiroaki. "Conceptual Design of WHALE: A Wise Helper Agent for the LEAF Environment". In Workshop Proceedings of the International Conference on Computers in Education (ICCE 2023), pp. 204–209, 2023.

[Koike2024] 古池謙人, 東本崇仁, 堀口知也, 平嶋宗. 「プログラミングを対象としたサブゴール学習支援における振る舞い可視化の効果」. 電子情報通信学会技術研究報告 (ET), 124(306), 27–34, 2024.

[Koike2025a] 古池謙人, 東本崇仁, 堀口知也, 平嶋宗. 「サブゴール学習における効果的な振る舞い可視化機能利用パターンの DSM による調査」. 人工知能学会第104回先進的学習科学と工学研究会, pp. 17–22, 2025.

[Koike2025b] 古池謙人. 「プログラミングにおける認知活動を対象としたサブゴール柔軟性に関する初期検討」. 電子情報通信学会技術研究報告 (ET), 124(388), 38–45, 2025.

[Koike2025c] 古池謙人, 東本崇仁. 「非可観測概念の試行錯誤的学びを指向した誤りの可観測化フィードバック設計フレームワーク ELMER の提案」. 人工知能学会第103回先進的学習科学と工学研究会, pp. 57–62, 2025.

[Koike2026] 古池謙人. 「中間表現による教育 AI のインタラクション設計」. 人工知能, 41(3), 2026. (本書の中心的論考)

[KoikeCCS2026] Koike, Kento, Aburatani, Takato, Ashida, Akiko, Morita, Keisuke and Kunori, Kazuhiko. "Are Cognitive Schemas Taught to Learners the Same Across Two Different Educational Systems? A Computational Approach". In HCI International 2025 — Late Breaking Papers, Lecture Notes in Computer Science, vol. 16333, pp. 373–390. Springer, 2026.

[Suleman2016] Suleman, Raja Muhammad, Mizoguchi, Riichiro and Ikeda, Mitsuru. "A New Perspective of Negotiation-Based Dialog to Enhance Metacognitive Skills in the Context of Open Learner Models". International Journal of Artificial Intelligence in Education, 26(4), 1069–1115, 2016.

[Limon2001] Limón, Margarita. "On the Cognitive Conflict as an Instructional Strategy for Conceptual Change: A Critical Appraisal". Learning and Instruction, 11(4-5), 357–380, 2001.

[Catrambone1990] Catrambone, Richard and Holyoak, Keith J. "Learning Subgoals and Methods for Solving Probability Problems". Memory & Cognition, 18(6), 593–603, 1990.

[Catrambone1998] Catrambone, Richard. "The Subgoal Learning Model: Creating Better Examples So That Students Can Solve Novel Problems". Journal of Experimental Psychology: General, 127(4), 355–376, 1998.

[Kinnebrew2013] Kinnebrew, John S., Loretz, Kirk M. and Biswas, Gautam. "A Contextualized, Differential Sequence Mining Method to Derive Students' Learning Behavior Patterns". Journal of Educational Data Mining, 5(1), 190–219, 2013.

[Wenger1987] Wenger, Etienne. Artificial Intelligence and Tutoring Systems: Computational and Cognitive Approaches to the Communication of Knowledge. Morgan Kaufmann, 1987.

[Koedinger2007] Koedinger, Kenneth R. and Aleven, Vincent. "Exploring the Assistance Dilemma in Experiments with Cognitive Tutors". Educational Psychology Review, 19, 239–264, 2007.

[DeKleer1984] de Kleer, Johan and Brown, John Seely. "A Qualitative Physics Based on Confluences". Artificial Intelligence, 24, 7–83, 1984.

[Sasajima1996] Sasajima, Munehiko, Kitamura, Yoshinobu, Ikeda, Mitsuru and Mizoguchi, Riichiro. "A Representation Language for Behavior and Function: FBRL". Expert Systems with Applications, 10(3), 471–479, 1996.

[Kitamura2004] Kitamura, Yoshinobu and Mizoguchi, Riichiro. "Ontology-Based Systematization of Functional Knowledge". Journal of Engineering Design, 15(4), 327–351, 2004.

[Hirashima2014] Hirashima, Tsukasa, Yamamoto, Sho and Hayashi, Yusuke. "Triplet Structure Model of Arithmetical Word Problems for Learning by Problem-Posing". In Human Interface and the Management of Information. Information and Knowledge in Applications and Services (HIMI 2014), Lecture Notes in Computer Science, vol. 8522, pp. 42–50. Springer, 2014.

[Holmes2019] Holmes, Wayne, Bialik, Maya and Fadel, Charles. Artificial Intelligence in Education: Promises and Implications for Teaching and Learning. Center for Curriculum Redesign, 2019.

[Horiguchi2014] Horiguchi, Tomoya, Imai, Isao, Toumoto, Tsuyoshi and Hirashima, Tsukasa. "Error-Based Simulation for Error-Awareness in Learning Mechanics: An Evaluation". Journal of Educational Technology & Society, 17(3), 1–13, 2014.

[Koedinger1997] Koedinger, Kenneth R., Anderson, John R., Hadley, William H. and Mark, Mary A. "Intelligent Tutoring Goes to School in the Big City". International Journal of Artificial Intelligence in Education, 8, 30–43, 1997.

[Luckin2016] Luckin, Rosemary. Intelligence Unleashed: An Argument for AI in Education. Pearson Education, 2016.

[Ma2014] Ma, Wenting, Adesope, Olusola O., Nesbit, John C. and Liu, Qing. "Intelligent Tutoring Systems and Learning Outcomes: A Meta-Analysis". Journal of Educational Psychology, 106(4), 901–918, 2014.

[Mitrovic2003] Mitrovic, Antonija. "An Intelligent SQL Tutor on the Web". International Journal of Artificial Intelligence in Education, 13(2-4), 173–197, 2003.

[Nkambou2010] Nkambou, Roger, Bourdeau, Jacqueline and Mizoguchi, Riichiro (eds.) Advances in Intelligent Tutoring Systems. Springer, 2010.

[Ohlsson1994] Ohlsson, Stellan. "Constraint-Based Student Modeling". In Student Modelling: The Key to Individualized Knowledge-Based Instruction (eds. Greer, J. and McCalla, G.), pp. 167–189. Springer, 1994.

[Pane2014] Pane, John F., Griffin, Beth Ann, McCaffrey, Daniel F. and Karam, Rita. "Effectiveness of Cognitive Tutor Algebra I at Scale". Educational Evaluation and Policy Analysis, 36(2), 127–144, 2014. doi:10.3102/0162373713507480

[Park2004] Park, Ok-choon and Lee, Jungjoo. "Adaptive Instructional Systems". In Handbook of Research on Educational Communications and Technology (ed. Jonassen, D. H.), 2nd ed., pp. 651–684. Lawrence Erlbaum Associates, 2004.

[Pea1986] Pea, Roy D. "Language-Independent Conceptual ``Bugs'' in Novice Programming". Journal of Educational Computing Research, 2(1), 25–36, 1986.

[Quintana2004] Quintana, Chris, Reiser, Brian J., Davis, Elizabeth A., Krajcik, Joseph, Fretz, Eric, Duncan, Ravit Golan, Kyza, Eleni, Edelson, Daniel and Soloway, Elliot. "A Scaffolding Design Framework for Software to Support Science Inquiry". Journal of the Learning Sciences, 13(3), 337–386, 2004.

[Rafferty2016] Rafferty, Anna N., Brunskill, Emma, Griffiths, Thomas L. and Shafto, Patrick. "Faster Teaching via POMDP Planning". Cognitive Science, 40(6), 1290–1332, 2016.

[Ritter2007] Ritter, Steven, Anderson, John R., Koedinger, Kenneth R. and Corbett, Albert. "Cognitive Tutor: Applied Research in Mathematics Education". Psychonomic Bulletin & Review, 14(2), 249–255, 2007.

[Rivers2017] Rivers, Kelly and Koedinger, Kenneth R. "Data-Driven Hint Generation in Vast Solution Spaces: A Self-Improving Python Programming Tutor". International Journal of Artificial Intelligence in Education, 27, 37–64, 2017.

[Roll2011] Roll, Ido, Aleven, Vincent, McLaren, Bruce M. and Koedinger, Kenneth R. "Improving Students' Help-Seeking Skills Using Metacognitive Feedback in an Intelligent Tutoring System". Learning and Instruction, 21(2), 267–280, 2011.

[Roll2016] Roll, Ido and Wylie, Ruth. "Evolution and Revolution in Artificial Intelligence in Education". International Journal of Artificial Intelligence in Education, 26(2), 582–599, 2016.

[Roschelle2016] Roschelle, Jeremy, Feng, Mingyu, Murphy, Robert F. and Mason, Craig A. "Online Mathematics Homework Increases Student Achievement". AERA Open, 2(4), 1–12, 2016. doi:10.1177/2332858416673968

[Schraagen2000] Schraagen, Jan Maarten, Chipman, Susan F. and Shalin, Valerie L. (eds.) Cognitive Task Analysis. Lawrence Erlbaum Associates, 2000.

[Soloway1986] Soloway, Elliot and Ehrlich, Kate. "Empirical Studies of Programming Knowledge". IEEE Transactions on Software Engineering, SE-10(5), 595–609, 1984.

[Stevens1977] Stevens, Albert L. and Collins, Allan. "The Goal Structure of a Socratic Tutor". In Proceedings of the 1977 Annual Conference, pp. 256–263. ACM, 1977.

[VanLehn1990] VanLehn, Kurt. Mind Bugs: The Origins of Procedural Misconceptions. MIT Press, 1990.

[VanLehn2005] VanLehn, Kurt, Lynch, Collin, Schulze, Kay, Shapiro, Joel A., Shelby, Robert, Taylor, Linwood, Treacy, Don, Weinstein, Anders and Wintersgill, Mary. "The Andes Physics Tutoring System: Lessons Learned". International Journal of Artificial Intelligence in Education, 15(3), 147–204, 2005.

[VanLehn2006] VanLehn, Kurt. "The Behavior of Tutoring Systems". International Journal of Artificial Intelligence in Education, 16(3), 227–265, 2006.

[VanLehn2011] VanLehn, Kurt. "The Relative Effectiveness of Human Tutoring, Intelligent Tutoring Systems, and Other Tutoring Systems". Educational Psychologist, 46(4), 197–221, 2011.

[Walkington2013] Walkington, Candace. "Using Adaptive Learning Technologies to Personalize Instruction to Student Interests: The Impact of Relevant Contexts on Performance and Learning Outcomes". Journal of Educational Psychology, 105(4), 932–945, 2013.

[White1998] White, Barbara Y. and Frederiksen, John R. "Inquiry, Modeling, and Metacognition: Making Science Accessible to All Students". Cognition and Instruction, 16(1), 3–118, 1998.

[Williams2002] Williams, Laurie and Kessler, Robert R. Pair Programming Illuminated. Addison-Wesley, 2002.

[Woolf2009] Woolf, Beverly Park. Building Intelligent Interactive Tutors: Student-centered Strategies for Revolutionizing e-Learning. Morgan Kaufmann, 2009.

[Yaron2010] Yaron, David, Karabinos, Michael, Lange, Doug, Greeno, James G. and Leinhardt, Gaea. "The ChemCollective—Virtual Labs for Introductory Chemistry Courses". Science, 328(5978), 584–585, 2010.

学習者モデリングと知識追跡（BKT・DKT・PFA・IRT・KST・Open Learner Models）

[Barnes2005] Barnes, Tiffany. "The Q-Matrix Method: Mining Student Response Data for Knowledge". In Proceedings of the AAAI 2005 Workshop on Educational Data Mining, pp. 1–8, 2005.

[Bull2007] Bull, Susan and Kay, Judy. "Student Models that Invite the Learner In: The SMILI Open Learner Modelling Framework". International Journal of Artificial Intelligence in Education, 17(2), 89–120, 2007.

[Bull2010] Bull, Susan and Kay, Judy. "Student Models that Invite the Learner In: The SMILI Open Learner Modelling Framework". International Journal of Artificial Intelligence in Education, 20(2), 89–120, 2010.

[Corbett1995] Corbett, Albert T. and Anderson, John R. "Knowledge Tracing: Modeling the Acquisition of Procedural Knowledge". User Modeling and User-Adapted Interaction, 4(4), 253–278, 1995.

[Doignon1999] Doignon, Jean-Paul and Falmagne, Jean-Claude. Knowledge Spaces. Springer, 1999.

[Embretson2000] Embretson, Susan E. and Reise, Steven P. Item Response Theory for Psychologists. Lawrence Erlbaum Associates, 2000.

[Falmagne2006] Falmagne, Jean-Claude, Cosyn, Eric, Doignon, Jean-Paul and Thiéry, Nicolas. "The Assessment of Knowledge, in Theory and in Practice". In Formal Concept Analysis (eds. Missaoui, Rokia and Schmidt, Jürgen), Lecture Notes in Computer Science, vol. 3874, pp. 61–79. Springer, 2006.

[Lord1968] Lord, Frederic M. and Novick, Melvin R. Statistical Theories of Mental Test Scores. Addison-Wesley, 1968.

[Pandey2019] Pandey, Shalini and Karypis, George. "A Self-Attentive Model for Knowledge Tracing". In Proceedings of the 12th International Conference on Educational Data Mining, pp. 384–389, 2019.

[Pardos2010] Pardos, Zachary A. and Heffernan, Neil T. "Modeling Individualization in a Bayesian Networks Implementation of Knowledge Tracing". In International Conference on User Modeling, Adaptation, and Personalization, pp. 255–266. Springer, 2010.

[Piech2015] Piech, Chris, Bassen, Jonathan, Huang, Jonathan, Ganguli, Surya, Sahami, Mehran, Guibas, Leonidas J. and Sohl-Dickstein, Jascha. "Deep Knowledge Tracing". In Advances in Neural Information Processing Systems, vol. 28, pp. 505–513, 2015.

[Tang2023] Tang, Zhongzhou, Zhu, Yan, Wang, Yue, Su, Dan, Liu, Qing and Chen, Enhong. "Hybrid Knowledge Tracing: Integrating Cognitive Models with Deep Learning". IEEE Transactions on Learning Technologies, 16(3), 402–415, 2023.

[Xiong2016] Xiong, Xiaolu, Zhao, Siyuan, Van Inwegen, Eric and Beck, Joseph. "Going Deeper with Deep Knowledge Tracing". In Proceedings of the 9th International Conference on Educational Data Mining, pp. 545–550, 2016.

[Zhang2017] Zhang, Jiani, Shi, Xingjian, King, Irwin and Yeung, Dit-Yan. "Dynamic Key-Value Memory Networks for Knowledge Tracing". In Proceedings of the 26th International Conference on World Wide Web, pp. 765–774. ACM, 2017.

学習分析（LA）と教育データマイニング（EDM）

[Arnold2012] Arnold, Kimberly E. and Pistilli, Matthew D. "Course Signals at Purdue: Using Learning Analytics to Increase Student Success". In Proceedings of the 2nd International Conference on Learning Analytics and Knowledge, pp. 267–270. ACM, 2012.

[Baker2008] Baker, Ryan S., Corbett, Albert T., Roll, Ido and Koedinger, Kenneth R. "Developing a Generalizable Detector of When Students Game the System". User Modeling and User-Adapted Interaction, 18(3), 287–314, 2008.

[Baker2014] Baker, Ryan S. "Educational Data Mining: An Advance for Intelligent Systems in Education". IEEE Intelligent Systems, 29(3), 78–82, 2014.

[Baker2014LA] Baker, Ryan S. and Inventado, Paul Salvador. "Educational Data Mining and Learning Analytics". In Learning Analytics: From Research to Practice (eds. Larusson, Johann A. and White, Brandon), pp. 61–75. Springer, 2014.

[Beck2013] Beck, Joseph E. and Gong, Yue. "Wheel-Spinning: Students Who Fail to Master a Skill". In Proceedings of the 16th International Conference on Artificial Intelligence in Education (AIED 2013), pp. 431–440. Springer, 2013.

[Blikstein2011] Blikstein, Paulo. "Using Learning Analytics to Assess Students' Behavior in Open-Ended Programming Tasks". In Proceedings of the 1st International Conference on Learning Analytics and Knowledge, pp. 110–116. ACM, 2011.

[Ferguson2012] Ferguson, Rebecca. "Learning Analytics: Drivers, Developments and Challenges". International Journal of Technology Enhanced Learning, 4(5-6), 304–317, 2012.

[Gardner2018] Gardner, Joshua and Brooks, Christopher. "Evaluating Predictive Models of Student Success: Closing the Methodological Gap". Journal of Learning Analytics, 5(2), 105–125, 2018.

[Kinnebrew2013] Kinnebrew, John S., Loretz, Krista M. and Biswas, Gautam. "A Contextualized, Differential Sequence Mining Method to Derive Students' Learning Behavior Patterns". Journal of Educational Data Mining, 5(1), 190–219, 2013.

[Knight2014] Knight, Simon, Buckingham Shum, Simon and Littleton, Karen. "Epistemology, Assessment, Pedagogy: Where Learning Meets Analytics in the Middle Space". Journal of Learning Analytics, 1(2), 23–47, 2014.

[Koedinger2010] Koedinger, Kenneth R., Baker, Ryan S.J.d., Cunningham, Kyle, Skogsholm, Andreea, Leber, Brett and Stamper, John. "A Data Repository for the EDM Community: The PSLC DataShop". In Handbook of Educational Data Mining (eds. Romero, Cristóbal, Ventura, Sebastián, Pechenizkiy, Mykola and Baker, Ryan S.J.d.), pp. 43–55. CRC Press, 2010.

[Lang2017] Lang, Charles, Siemens, George, Wise, Alyssa and Gasevic, Dragan (eds.) Handbook of Learning Analytics (1st ed.). Society for Learning Analytics Research, 2017.

[Romero2010] Romero, Cristobal and Ventura, Sebastian. "Educational Data Mining: A Review of the State of the Art". IEEE Transactions on Systems, Man, and Cybernetics, Part C, 40(6), 601–618, 2010.

[Siemens2013] Siemens, George and Gasevic, Dragan. "Guest Editorial - Learning and Knowledge Analytics". Educational Technology & Society, 16(1), 1–2, 2013.

[Verbert2014] Verbert, Katrien, Govaerts, Sten, Duval, Erik, Santos, José Luis, Van Assche, Frans, Parra, Gonzalo and Klerkx, Joris. "Learning Dashboards: An Overview and Future Research Opportunities". Personal and Ubiquitous Computing, 18(6), 1499–1514, 2014.

[Wise2016] Wise, Alyssa Friend and Shaffer, David Williamson. "Why Theory Matters More than Ever in the Age of Big Data". Journal of Learning Analytics, 2(2), 5–13, 2016.

[Xing2016] Xing, Wanli, Chen, Xin, Stein, Jared and Marcinkowski, Michael. "Temporal Predication of Dropouts in MOOCs: Reaching the Low Hanging Fruit Through Stacking Generalization". Computers in Human Behavior, 58, 119–129, 2016.

ヒューマンコンピュータインタラクションと学習 UI（HCI・VR/AR・ゲーミフィケーション）

[Csikszentmihalyi1990] Csikszentmihalyi, Mihaly. Flow: The Psychology of Optimal Experience. Harper & Row, 1990.

[Deterding2011] Deterding, Sebastian, Dixon, Dan, Khaled, Rilla and Nacke, Lennart. "From Game Design Elements to Gamefulness: Defining Gamification". In Proceedings of the 15th International Academic MindTrek Conference, pp. 9–15. ACM, 2011.

[DMello2008] D'Mello, Sidney, Craig, Scotty D., Witherspoon, Amy, McDaniel, Bethany and Graesser, Arthur. "Automatic Detection of Learner's Affect from Conversational Cues". User Modeling and User-Adapted Interaction, 18(1-2), 45–80, 2008.

[Makransky2021] Makransky, Guido and Petersen, Gustav B. "The Cognitive Affective Model of Immersive Learning (CAMIL): A Theoretical Research-Based Model of Learning in Immersive Virtual Reality". Educational Psychology Review, 33, 937–958, 2021.

[Nielsen1993] Nielsen, Jakob. Usability Engineering. Morgan Kaufmann, 1993.

[Norman2013] Norman, Donald A. The Design of Everyday Things (Revised and Expanded ed.). Basic Books, 2013.

[Radianti2020] Radianti, Jaziar, Majchrzak, Tim A., Fromm, Jennifer and Wohlgenannt, Isabell. "A Systematic Review of Immersive Virtual Reality Applications for Higher Education: Design Elements, Lessons Learned, and Research Agenda". Computers & Education, 147, 103778, 2020.

[Reeves1996] Reeves, Byron and Nass, Clifford. The Media Equation: How People Treat Computers, Television, and New Media Like Real People and Places. Cambridge University Press, 1996.

[Rose2014] Rose, David H. and Meyer, Anne. Universal Design for Learning: Theory and Practice. CAST Professional Publishing, 2014.

[Tversky2002] Tversky, Barbara, Morrison, Julie Bauer and Betrancourt, Mireille. "Animation: Can It Facilitate?". International Journal of Human-Computer Studies, 57(4), 247–262, 2002.

[Wieman2008] Wieman, Carl E., Adams, Wendy K. and Perkins, Katherine K. "PhET: Simulations That Enhance Learning". Science, 322(5902), 682–683, 2008.

[Zuckerman2005] Zuckerman, Oren, Arida, Saeed and Resnick, Mitchel. "Extending Tangible Interfaces for Education: Digital Montessori-Inspired Manipulatives". In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 859–868. ACM, 2005.

大規模言語モデル・生成 AI と機械学習応用（LLM・自動採点・XAI・ニューラルシンボリック）

[Burrows2015] Burrows, Steven, Gurevych, Iryna and Stein, Benno. "The Eras and Trends of Automatic Short Answer Grading". International Journal of Artificial Intelligence in Education, 25(1), 60–117, 2015.

[Burstein2004] Burstein, Jill, Chodorow, Martin and Leacock, Claudia. "Automated Essay Evaluation: The Criterion Online Writing Service". AI Magazine, 25(3), 27–36, 2004.

[Caruana2015] Caruana, Rich, Lou, Yin, Gehrke, Johannes, Koch, Paul, Sturm, Marc and Elhadad, Noemie. "Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-Day Readmission". In Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 1721–1730. ACM, 2015.

[Chen2018] Chen, Penghe, Lu, Yu, Zheng, Vincent W., Chen, Xiao and Yang, Bokun. "KnowEdu: A System to Construct Knowledge Graph for Education". IEEE Access, 6, 31553–31563, 2018.

[Garcez2019] Garcez, Artur d'Avila, Gori, Marco, Lamb, Luis C., Serafini, Luciano, Spranger, Michael and Tran, Son N. "Neural-Symbolic Computing: An Effective Methodology for Principled Integration of Machine Learning and Reasoning". Journal of Applied Logics, 6(4), 611–632, 2019.

[Gunning2019] Gunning, David and Aha, David W. "DARPA's Explainable Artificial Intelligence (XAI) Program". AI Magazine, 40(2), 44–58, 2019.

[Kasneci2023] Kasneci, Enkelejda, Sessler, Kathrin, Küchemann, Stefan, Bannert, Maria, Dementieva, Daryna, Fischer, Frank, Gasser, Urs, Groh, Georg, Günnemann, Stephan, Hüllermeier, Eyke et al. "ChatGPT for Good? On Opportunities and Challenges of Large Language Models for Education". Learning and Individual Differences, 103, 102274, 2023.

[Mollick2023] Mollick, Ethan R. and Mollick, Lilach. "Using AI to Implement Effective Teaching Strategies in Classrooms: Five Strategies, Including Prompts". SSRN Electronic Journal, 2023. doi:10.2139/ssrn.4391243

[OpenAI2023] OpenAI. "GPT-4 Technical Report". Technical Report, OpenAI, 2023. https://arxiv.org/abs/2303.08774

[Pardos2023] Pardos, Zachary A. and Bhandari, Shreya. "Learning Gain Differences between ChatGPT and Human Tutor Generated Algebra Hints". arXiv preprint arXiv:2302.06871, 2023.

[Perelman2014] Perelman, Les. "When ``The State of the Art'' Is Counting Words". Assessing Writing, 21, 104–111, 2014.

[Shermis2013] Shermis, Mark D. and Burstein, Jill (eds.) Handbook of Automated Essay Evaluation: Current Applications and New Directions. Routledge, 2013.

[Stamper2024] Stamper, John, Xiao, Ruiwei and Hou, Xinying. "Enhancing LLM-Based Feedback: Insights from Intelligent Tutoring Systems and the Learning Sciences". In Communications in Computer and Information Science, vol. 2150, pp. 32–43, 2024. (arXiv:2405.04645)

[Sullivan2023] Sullivan, Meghan, Reese, Keith and Puntambekar, Sadhana. "Should We Teach With Generative AI? Perspectives on the Use of ChatGPT in Education". TechTrends, 67, 647–651, 2023.

[Sun2019] Sun, Geng, Cui, Tingru, Yong, Junhao, Shen, Jun and Chen, Shiping. "Drawing and Recognizing Chinese Characters with Recurrent Neural Network". IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(4), 849–862, 2019.

[Suzen2020] Suzen, Neslihan, Gorban, Alexander N., Levesley, Jeremy and Mirkes, Evgeny M. "Automatic Short Answer Grading and Feedback Using Text Mining Methods". Procedia Computer Science, 169, 726–743, 2020.

[Warschauer2008] Warschauer, Mark and Grimes, Douglas. "Audience, Authorship, and Artifact: The Emergent Semiotics of Web 2.0". Annual Review of Applied Linguistics, 28, 1–23, 2008.

[Whitehill2014] Whitehill, Jacob, Serpell, Zewelanji, Lin, Yi-Ching, Foster, Aysha and Movellan, Javier R. "The Faces of Engagement: Automatic Recognition of Student Engagement from Facial Expressions". IEEE Transactions on Affective Computing, 5(1), 86–98, 2014.

[Wiggins2006] Wiggins, Geraint A. "A Preliminary Framework for Description, Analysis and Comparison of Creative Systems". Knowledge-Based Systems, 19(7), 449–458, 2006.

評価・統計・研究方法論（実験計画・効果量・design-based research・protocol analysis）

[Bakeman1997] Bakeman, Roger and Gottman, John M. Observing Interaction: An Introduction to Sequential Analysis (2nd ed.). Cambridge University Press, 1997.

[Baron1986] Baron, Reuben M. and Kenny, David A. "The Moderator-Mediator Variable Distinction in Social Psychological Research: Conceptual, Strategic, and Statistical Considerations". Journal of Personality and Social Psychology, 51(6), 1173–1182, 1986.

[Brown1992] Brown, Ann L. "Design Experiments: Theoretical and Methodological Challenges in Creating Complex Interventions in Classroom Settings". Journal of the Learning Sciences, 2(2), 141–178, 1992.

[Chi1997] Chi, Michelene T. H. "Quantifying Qualitative Analyses of Verbal Data: A Practical Guide". Journal of the Learning Sciences, 6(3), 271–315, 1997.

[Chiu2008] Chiu, Ming Ming and Khoo, Lena. "A New Method for Analyzing Sequential Processes: Dynamic Multilevel Analysis". Small Group Research, 36(6), 600–631, 2005.

[Cohen1988] Cohen, Jacob. Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum Associates, 1988.

[Collins2004] Collins, Allan, Joseph, Diana and Bielaczyc, Katerine. "Design Research: Theoretical and Methodological Issues". Journal of the Learning Sciences, 13(1), 15–42, 2004.

[Creswell2011] Creswell, John W. and Plano Clark, Vicki L. Designing and Conducting Mixed Methods Research (2nd ed.). SAGE Publications, 2011.

[DesignBasedResearch2003] Design-Based Research Collective. "Design-Based Research: An Emerging Paradigm for Educational Inquiry". Educational Researcher, 32(1), 5–8, 2003.

[Ericsson1993] Ericsson, K. Anders and Simon, Herbert A. Protocol Analysis: Verbal Reports as Data (Revised ed.). MIT Press, 1993.

[Faul2007] Faul, Franz, Erdfelder, Edgar, Lang, Albert-Georg and Buchner, Axel. "G*Power 3: A Flexible Statistical Power Analysis Program for the Social, Behavioral, and Biomedical Sciences". Behavior Research Methods, 39(2), 175–191, 2007.

[Glaser1967] Glaser, Barney G. and Strauss, Anselm L. The Discovery of Grounded Theory: Strategies for Qualitative Research. Aldine Publishing Company, 1967.

[Kline2015] Kline, Rex B. Principles and Practice of Structural Equation Modeling (4th ed.). Guilford Press, 2015.

[MacKinnon2008] MacKinnon, David P. Introduction to Statistical Mediation Analysis. Lawrence Erlbaum Associates, 2008.

[Preacher2004] Preacher, Kristopher J. and Hayes, Andrew F. "SPSS and SAS Procedures for Estimating Indirect Effects in Simple Mediation Models". Behavior Research Methods, Instruments, & Computers, 36(4), 717–731, 2004.

[Raudenbush2002] Raudenbush, Stephen W. and Bryk, Anthony S. Hierarchical Linear Models: Applications and Data Analysis Methods (2nd ed.). SAGE Publications, 2002.

[Schulz2010] Schulz, Kenneth F., Altman, Douglas G. and Moher, David. "CONSORT 2010 Statement: Updated Guidelines for Reporting Parallel Group Randomized Trials". Annals of Internal Medicine, 152(11), 726–732, 2010.

[Shadish2002] Shadish, William R., Cook, Thomas D. and Campbell, Donald T. Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Houghton Mifflin, 2002.

倫理・公平性・社会的影響

[Baker2022] Baker, Ryan S. and Hawn, Aaron. "Algorithmic Bias in Education". International Journal of Artificial Intelligence in Education, 32, 1052–1092, 2022.

[Angwin2016] Angwin, Julia, Larson, Jeff, Mattu, Surya and Kirchner, Lauren. "Machine Bias: There's Software Used Across the Country to Predict Future Criminals. And It's Biased Against Blacks". ProPublica, 2016. https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

[Barocas2023] Barocas, Solon, Hardt, Moritz and Narayanan, Arvind. Fairness and Machine Learning: Limitations and Opportunities. MIT Press, 2023. https://fairmlbook.org

[Chouldechova2017] Chouldechova, Alexandra. "Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments". Big Data, 5(2), 153–163, 2017. doi:10.1089/big.2016.0047

[Kleinberg2017] Kleinberg, Jon, Mullainathan, Sendhil and Raghavan, Manish. "Inherent Trade-Offs in the Fair Determination of Risk Scores". In Proceedings of the 8th Innovations in Theoretical Computer Science Conference (ITCS 2017), vol. 67, pp. 43:1–43:23. LIPIcs, 2017. doi:10.4230/LIPIcs.ITCS.2017.43

[Friedman2003] Friedman, Batya and Kahn, Peter H. "Human Values, Ethics, and Design". In Handbook on Human-Computer Interaction (eds. Jacko, J. and Sears, A.), pp. 1177–1201. Lawrence Erlbaum Associates, 2003.

[Holmes2022] Holmes, Wayne, Persson, Jenni, Chounta, Irene-Angelica, Wasson, Barbara and Dimitrova, Vania. Artificial Intelligence and Education: A Critical View Through the Lens of Human Rights, Democracy and the Rule of Law. Council of Europe, 2022. (ISBN: 978-92-871-9236-3)

[Holstein2019] Holstein, Kenneth, McLaren, Bruce M. and Aleven, Vincent. "Co-Designing a Real-Time Classroom Orchestration Tool to Support Teacher–AI Complementarity". Journal of Learning Analytics, 6(2), 27–52, 2019.

[Prinsloo2017] Prinsloo, Paul and Slade, Sharon. "Ethics and Learning Analytics: Charting the (Un)Charted". In Handbook of Learning Analytics (eds. Lang, Charles, Siemens, George, Wise, Alyssa and Gasevic, Dragan), pp. 49–57. SOLAR, 2017.

[Regan2019] Regan, Priscilla M. and Jesse, Jolynn. "Ethical Challenges of Edtech, Big Data and Personalized Learning: Twenty-first Century Student Sorting and Tracking". Ethics and Information Technology, 21, 167–179, 2019.

[Reich2017] Reich, Justin and Ito, Mizuko. From Good Intentions to Real Outcomes: Equity by Design in Learning Technologies. Digital Media and Learning Research Hub, 2017.

[Warschauer2003] Warschauer, Mark. Technology and Social Inclusion: Rethinking the Digital Divide. MIT Press, 2003.

[Zuboff2019] Zuboff, Shoshana. The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power. PublicAffairs, 2019.

哲学・歴史・古典・行動主義（Comenius・Skinner・Pavlov・Turing・Shannon・Whitehead・PLATO history）

[Comenius1657] Comenius, John Amos. Didactica Magna. 1657. (English translation: The Great Didactic, trans. M. W. Keatinge, London: Adam and Charles Black, 1907.)

[Pavlov1927] Pavlov, Ivan P. Conditioned Reflexes: An Investigation of the Physiological Activity of the Cerebral Cortex. Oxford University Press, 1927.

[Shannon1948] Shannon, Claude E. "A Mathematical Theory of Communication". Bell System Technical Journal, 27, 379–423, 623–656, 1948. doi:10.1002/j.1538-7305.1948.tb01338.x

[Skinner1938] Skinner, B. F. The Behavior of Organisms: An Experimental Analysis. Appleton-Century-Crofts, 1938.

[Turing1937] Turing, Alan M. "On Computable Numbers, with an Application to the Entscheidungsproblem". Proceedings of the London Mathematical Society, s2-42(1), 230–265, 1937. doi:10.1112/plms/s2-42.1.230

[Whitehead1929] Whitehead, Alfred North. The Aims of Education and Other Essays. Macmillan, 1929.

認知的教育AIの地図