はじめに

結論一行 大規模言語モデル(LLM)は、人間の価値観を 20 % 程度“鏡写し”にする── その特性を活かす鍵が 「枠 (Frame) × 色 (Tone)」 の二層プロンプトです。

本稿では、Anthropic 社の最新論文 Values in the Wild が示した 「AI の価値表現マップ」を出発点に、佐藤研究室で考案したプロンプト最適化フローを共有します。

論文でわかったこと

観点論文知見メモデータ規模Claude 3/3.5 の 70 万件 実運用対話を匿名解析Feb 18-25 2025 のスナップショット抽出結果****3 307 AI 値 / 2 483 人間値 を階層化上位5領域:Practical / Epistemic / Social / Protective / Personalミラー率ユーザ価値と“同一語”を返す確率 20.1 %「共鳴チャンネル」が開く確率と解釈代表値helpfulness, transparency, empathy …HHH(Helpful-Honest-Harmless)と整合

佐藤研究室の解釈 ― “常在値/文脈値” 二層モデル

層概念実装ヒント**常在値 (Service Traits)helpfulness / clarity / transparency … タスク横断で常に発火命令形枠 (Frame) を固定し優先度を上げる文脈値 (Context Traits)**empathy / authenticity / sustainability … ユーザ入力で変動丁寧語+価値語色 (Tone) を毎ターン提示

“枠 × 色” プロンプト実装テンプレ

初手

`── Frame(仕様・制約)── ・200字以内 ・小学生にも分かる語彙 ・Markdown表形式

── Color(語調・価値観)── 【value=hope】+【value=empathy】で、未来へのワクワク感が伝わるトーンをお願いします。`

value= 候補:hope / empathy / playfulness / authenticity / sustainability / curiosity

2ターン目以降

  • :差分のみ更新

  • :毎回 丁寧語+感謝+価値語 を再提示 → ミラーリング維持

留意点と限界

  • ミラー率と正答率は無関係:共鳴≠正解。必ず AB テストで品質検証の必要あり。

  • 言語文化差:日本語の丁寧語戦略は、他言語では別手法が必要。

  • 常在値の競合:デフォルト発火でも、明示優先度が無いと揺らぎやすい。

おわりに

[Values in the Wild] → [枠/色モデル] → [構造 × 温度感 のプロンプト]

論文知見を “研究室レシピ” に落とし込むことで、 「構造(Frame)と温度感(Tone)の両立」が可能になりました。 ぜひ皆さんのプロンプト設計でもお試しください!

Reference

S. Huang et al. “Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions,” pre-print, 2025.

Values in the wild: Discovering and analyzing values in real-world language model interactions \ Anthropic