Claude 3/3.5 が“実世界対話”で示す 3,307 個の価値観を分析した最新論文を、佐藤研究室独自の『枠/色プロンプト』設計に応用した実践ノート

はじめに

結論一行
大規模言語モデル(LLM)は、人間の価値観を 20 % 程度“鏡写し”にする──
その特性を活かす鍵が 「枠 (Frame) × 色 (Tone)」 の二層プロンプトです。

本稿では、Anthropic 社の最新論文 Values in the Wild が示した
「AI の価値表現マップ」を出発点に、佐藤研究室で考案したプロンプト最適化フローを共有します。

論文でわかったこと

観点論文知見メモ
データ規模Claude 3/3.5 の 70 万件 実運用対話を匿名解析Feb 18-25 2025 のスナップショット
抽出結果3 307 AI 値 / 2 483 人間値 を階層化上位5領域:Practical / Epistemic / Social / Protective / Personal
ミラー率ユーザ価値と“同一語”を返す確率 20.1 %「共鳴チャンネル」が開く確率と解釈
代表値helpfulness, transparency, empathy …HHH(Helpful-Honest-Harmless)と整合

佐藤研究室の解釈 ― “常在値/文脈値” 二層モデル

概念実装ヒント
常在値
(Service Traits)
helpfulness / clarity / transparency …
タスク横断で常に発火
命令形枠 (Frame) を固定し優先度を上げる
文脈値
(Context Traits)
empathy / authenticity / sustainability …
ユーザ入力で変動
丁寧語+価値語色 (Tone) を毎ターン提示

“枠 × 色” プロンプト実装テンプレ

初手

── Frame(仕様・制約)──
・200字以内 ・小学生にも分かる語彙 ・Markdown表形式

── Color(語調・価値観)──
【value=hope】+【value=empathy】で、未来へのワクワク感が伝わるトーンをお願いします。

value= 候補:hope / empathy / playfulness / authenticity / sustainability / curiosity

2ターン目以降

  1. :差分のみ更新
  2. :毎回 丁寧語+感謝+価値語 を再提示 → ミラーリング維持

留意点と限界

  1. ミラー率と正答率は無関係:共鳴≠正解。必ず AB テストで品質検証の必要あり。
  2. 言語文化差:日本語の丁寧語戦略は、他言語では別手法が必要。
  3. 常在値の競合:デフォルト発火でも、明示優先度が無いと揺らぎやすい。

おわりに

[Values in the Wild] → [枠/色モデル] → [構造 × 温度感 のプロンプト]

論文知見を “研究室レシピ” に落とし込むことで、 「構造(Frame)と温度感(Tone)の両立」が可能になりました。 ぜひ皆さんのプロンプト設計でもお試しください!

Reference

S. Huang et al. “Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions,” pre-print, 2025.

Values in the wild: Discovering and analyzing values in real-world language model interactions \ Anthropic