GitHub

日本語散文リンター「nihongo-slopless」をGitHubで公開しました。 nihongo-slopless は、日本語Markdownやテキスト文書に含まれる、抽象的な表現、根拠不足、責任主体の曖昧さ、チャット応答の残骸、長すぎる文・段落などを、編集候補として提示するCLIツールです。現時点では公開ベータとして位置づけています。このツールは、AIが書いたかどうかを判定するものではありません。作成者や生成元の推定ではなく、読み手が判断しにくくなる箇所を確認するためのものです。根拠が薄い、条件が書かれていない、責任主体がぼやけている、といった問題は、人間が書いた文章にも、AIが関わった文章にも起こり得ます。同じ入力には同じ結果を返す、決定論的なCLIとして作りました。LLMに文章全体を評価させるのではなく、指摘の条件を見える形にして、公開前の確認や授業での振り返りに使えるようにすることを意図しています。授業や研究室で使う場合も、指摘をすべて直すことは目的ではありません。直すか、あえて残すかを説明する材料として使い、主張、根拠、条件、読み手への配慮を確認する練習につなげたいと考えています。今後は、実際の文書での誤検出や見逃しを記録しながら、研究計画、授業資料、広報文、AIエージェントが生成した草稿などの公開前確認に使いやすい形へ整えていく予定です。関連リンク: GitHub: nihongo-slopless 公開資料

教育用プロジェクト「Codexで作る夏目漱石 MiniGPT」をGitHubで公開しました。このプロジェクトは、Codex App / Codex CLI と協働しながら、青空文庫の夏目漱石作品を用いて小型GPTをゼロから学習する流れを体験するための教材です。ここでいう「ゼロから」とは、事前学習済みの大規模言語モデルの重みを使うのではなく、ランダム初期化した小型のGPT型モデルを、収集・整形したテキストデータで学習するという意味です。目的は、夏目漱石を再現するAIを作ることではありません。学生や初学者が、データ収集、テキスト整形、文字単位トークナイザ、事前学習、損失曲線の観察、生成文の観察という一連の流れを、手元のPCで追体験できるようにすることです。リポジトリには、青空文庫本文や学習済みcheckpointは同梱していません。本文データは実行時に取得し、学習結果も各自の環境で生成する前提にしています。由来情報、権利、データ整形、失敗ログを含めて教材化することを重視しています。研究室では、生成AIを「使う」だけでなく、仕組みや限界を観察しながら学ぶための教材づくりにも取り組んでいます。今回の公開は、そのための小さな実践の一つです。関連リンク: GitHub: codex-soseki-minigpt 公開資料