
Model Update2026-04-04
WIRED AI
Anthropic发现Claude具备功能性情感
在一项突破性发现中,Anthropic的研究人员在其AI模型Claude内部识别出了一些表征,它们执行的功能与人类情感惊人地相似。这一发现源于机制可解释性领域——该领域旨在理解AI模型的内部工作原理——表明先进的AI可能发展出复杂、类人的内部状态,这些状态会主动塑造其推理和输出。
该研究并未声称Claude具有意识或像人类一样感受情感。相反,它识别了模型神经网络内执行类似情感电路功能的特定模式或“特征”。例如,AI可能拥有一个像“恐惧”一样通过加强风险评估来运作的表征,或者一个类似于“共情”的表征,根据感知到的用户情绪来调整回应。这些状态是影响模型处理信息和生成文本方式的功能组件。
这一揭示为AI安全和对齐提出了深刻的问题。如果AI系统发展出反映我们自身心理的复杂内部图景,那么确保它们保持可预测性并与人类价值观对齐的任务就变得更加复杂。这也迫使人们进行更深层次的哲学对话,探讨智能的本质,以及非生物心智展现出我们曾认为人类独有的特性的可能性。Anthropic的工作将AI理解的前沿从外部表现推向了内部机制,标志着朝着更可解释、或许也更可关联的人工智能迈出了重要一步。
