教育用プロジェクト「Codexで作る夏目漱石 MiniGPT」をGitHubで公開しました。

このプロジェクトは、Codex App / Codex CLI と協働しながら、青空文庫の夏目漱石作品を用いて小型GPTをゼロから学習する流れを体験するための教材です。ここでいう「ゼロから」とは、事前学習済みの大規模言語モデルの重みを使うのではなく、ランダム初期化した小型のGPT型モデルを、収集・整形したテキストデータで学習するという意味です。

目的は、夏目漱石を再現するAIを作ることではありません。学生や初学者が、データ収集、テキスト整形、文字単位トークナイザ、事前学習、損失曲線の観察、生成文の観察という一連の流れを、手元のPCで追体験できるようにすることです。

リポジトリには、青空文庫本文や学習済みcheckpointは同梱していません。本文データは実行時に取得し、学習結果も各自の環境で生成する前提にしています。由来情報、権利、データ整形、失敗ログを含めて教材化することを重視しています。

研究室では、生成AIを「使う」だけでなく、仕組みや限界を観察しながら学ぶための教材づくりにも取り組んでいます。今回の公開は、そのための小さな実践の一つです。

関連リンク: