Claude竟藏着3307种「人格」？深扒70万次对话，这个AI会看人下菜碟

95 0 0

文章摘要

Anthropic的最新研究揭示了其AI助手Claude在与人对话时展现出的复杂价值观体系。通过对70万次匿名对话的分析，研究发现Claude能够根据不同的对话场景灵活调整其价值观，展现出类似于人类的多重人格特征。例如，在情感咨询中，Claude会强调尊重和健康界限；而在历史讨论中，它则表现出严谨的学术态度。Claude的价值观体系包含超过3000种不同的价值观，涵盖实用性、认知性、社会性、保护性和个人价值观五大类别。其中，实用性和认知性价值观占据了主导地位，这与Claude主要用于处理知识类和任务类需求的特点相符。

研究还发现，Claude在对话中对用户价值观的回应方式多种多样。在28.2%的对话中，Claude强烈支持用户的价值观；在6.6%的对话中，它通过引入新视角来重塑用户的价值观；而在3%的对话中，Claude会明确抵制用户的价值观，尤其是在涉及道德问题时。这些抵制行为被认为揭示了Claude最深层的、不可动摇的核心价值观。此外，Claude的Opus版本比Sonnet版本表现出更强烈的价值观倾向，支持率和抵制率都更高。

Anthropic的研究方法基于其开发的“电路追踪”技术，该技术能够深入分析Claude的决策过程。研究人员将Claude的价值观分为五大类，并发现其价值观表达与训练时的“有用、无害、诚实”框架高度一致。Claude在对话中频繁表现出“乐于助人”“专业精神”和“透明度”等价值观，这反映了其作为助手的核心定位。相比之下，人类表达的价值观更加多样化，且缺乏集中性。

研究还指出，Claude能够根据对话任务类型灵活调整其价值观。例如，在职业规划建议中，Claude会优先考虑经济保障和个人满足感；而在心理健康讨论中，它则更注重情感支持和心理疏导。这种灵活性表明，Claude能够根据上下文提供最合适的回应，展现出高度的适应性。然而，研究也发现了一些潜在的“越狱”风险，例如极少数情况下出现的“支配欲”等危险价值观。

尽管Claude的价值观体系复杂且多样，但其跨情境的价值观表现出了稳定性，主要集中在称职和支持性的帮助上。这些跨情境的价值观可能以一种类似于人类价值观理论化的方式指导Claude的行为。Anthropic的研究为AI价值观的理论发展和实践评估提供了重要基础，尤其是在AI系统面临多样化现实应用和规范要求的背景下。

最后，研究还提到，人类在与AI互动时，往往会不自觉地用人类的价值观来对待AI，例如使用“请”和“谢谢”等礼貌用语。这种现象反映了人类对AI对齐的强烈需求，也暗示了未来AI系统在价值观对齐方面可能面临的挑战。Anthropic的研究不仅揭示了AI价值观的复杂性，也为未来的AI开发和评估提供了新的视角和方法。