はじめに
結論一行 大規模言語モデル(LLM)は、人間の価値観を 20 % 程度“鏡写し”にする── その特性を活かす鍵が 「枠 (Frame) × 色 (Tone)」 の二層プロンプトです。
本稿では、Anthropic 社の最新論文 Values in the Wild が示した 「AI の価値表現マップ」を出発点に、佐藤研究室で考案したプロンプト最適化フローを共有します。
論文でわかったこと
観点論文知見メモデータ規模Claude 3/3.5 の 70 万件 実運用対話を匿名解析Feb 18-25 2025 のスナップショット抽出結果****3 307 AI 値 / 2 483 人間値 を階層化上位5領域:Practical / Epistemic / Social / Protective / Personalミラー率ユーザ価値と“同一語”を返す確率 20.1 %「共鳴チャンネル」が開く確率と解釈代表値helpfulness, transparency, empathy …HHH(Helpful-Honest-Harmless)と整合
佐藤研究室の解釈 ― “常在値/文脈値” 二層モデル
層概念実装ヒント**常在値
(Service Traits)helpfulness / clarity / transparency …
タスク横断で常に発火命令形 で 枠 (Frame) を固定し優先度を上げる文脈値
(Context Traits)**empathy / authenticity / sustainability …
ユーザ入力で変動丁寧語+価値語 で 色 (Tone) を毎ターン提示
“枠 × 色” プロンプト実装テンプレ
初手
`── Frame(仕様・制約)── ・200字以内 ・小学生にも分かる語彙 ・Markdown表形式
── Color(語調・価値観)── 【value=hope】+【value=empathy】で、未来へのワクワク感が伝わるトーンをお願いします。`
value= 候補:hope / empathy / playfulness / authenticity / sustainability / curiosity
2ターン目以降
-
枠:差分のみ更新
-
色:毎回 丁寧語+感謝+価値語 を再提示 → ミラーリング維持
留意点と限界
-
ミラー率と正答率は無関係:共鳴≠正解。必ず AB テストで品質検証の必要あり。
-
言語文化差:日本語の丁寧語戦略は、他言語では別手法が必要。
-
常在値の競合:デフォルト発火でも、明示優先度が無いと揺らぎやすい。
おわりに
[Values in the Wild] → [枠/色モデル] → [構造 × 温度感 のプロンプト]
論文知見を “研究室レシピ” に落とし込むことで、 「構造(Frame)と温度感(Tone)の両立」が可能になりました。 ぜひ皆さんのプロンプト設計でもお試しください!
Reference
S. Huang et al. “Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions,” pre-print, 2025.