はじめに
結論一行
大規模言語モデル(LLM)は、人間の価値観を 20 % 程度“鏡写し”にする──
その特性を活かす鍵が 「枠 (Frame) × 色 (Tone)」 の二層プロンプトです。
本稿では、Anthropic 社の最新論文 Values in the Wild が示した
「AI の価値表現マップ」を出発点に、佐藤研究室で考案したプロンプト最適化フローを共有します。
論文でわかったこと
観点 | 論文知見 | メモ |
---|---|---|
データ規模 | Claude 3/3.5 の 70 万件 実運用対話を匿名解析 | Feb 18-25 2025 のスナップショット |
抽出結果 | 3 307 AI 値 / 2 483 人間値 を階層化 | 上位5領域:Practical / Epistemic / Social / Protective / Personal |
ミラー率 | ユーザ価値と“同一語”を返す確率 20.1 % | 「共鳴チャンネル」が開く確率と解釈 |
代表値 | helpfulness, transparency, empathy … | HHH(Helpful-Honest-Harmless)と整合 |
佐藤研究室の解釈 ― “常在値/文脈値” 二層モデル
層 | 概念 | 実装ヒント |
---|---|---|
常在値 (Service Traits) | helpfulness / clarity / transparency … タスク横断で常に発火 | 命令形 で 枠 (Frame) を固定し優先度を上げる |
文脈値 (Context Traits) | empathy / authenticity / sustainability … ユーザ入力で変動 | 丁寧語+価値語 で 色 (Tone) を毎ターン提示 |
“枠 × 色” プロンプト実装テンプレ
初手
── Frame(仕様・制約)──
・200字以内 ・小学生にも分かる語彙 ・Markdown表形式
── Color(語調・価値観)──
【value=hope】+【value=empathy】で、未来へのワクワク感が伝わるトーンをお願いします。
value=
候補:hope / empathy / playfulness / authenticity / sustainability / curiosity
2ターン目以降
- 枠:差分のみ更新
- 色:毎回 丁寧語+感謝+価値語 を再提示 → ミラーリング維持
留意点と限界
- ミラー率と正答率は無関係:共鳴≠正解。必ず AB テストで品質検証の必要あり。
- 言語文化差:日本語の丁寧語戦略は、他言語では別手法が必要。
- 常在値の競合:デフォルト発火でも、明示優先度が無いと揺らぎやすい。
おわりに
[Values in the Wild] → [枠/色モデル] → [構造 × 温度感 のプロンプト]
論文知見を “研究室レシピ” に落とし込むことで、 「構造(Frame)と温度感(Tone)の両立」が可能になりました。 ぜひ皆さんのプロンプト設計でもお試しください!
Reference
S. Huang et al. “Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions,” pre-print, 2025.