Anthropic 组建「AI 精神病学」团队

  昨日,Anthropic 神经科学研究员 Jack Lindsey 宣布,公司将成立「AI 精神病学」团队。

  据介绍,该团队旨在研究模型的角色、动机和情景意识,以及模型如何做出诡异、失控等行为表现。「AI 精神病学」团队属于 Anthropic 的可解释性部门,研究目标是建立一个坚实的理论基础,从而实现对神经网络的机制性理解并确保其安全性。

  官方介绍,该部门短期内重点攻克「叠加」问题(该问题导致模型的神经元和注意力头等计算单元难以单独解释),同时致力于将模型分解为更具可解释性的组件。

  值得一提的是,目前 Anthropic 对「AI 精神病学」团队开启的招聘岗位,年薪达到 31.5-56 万美元(约合人民币 225.3-400 万元)。