Anthropic CEO豪言LLM黑箱5年内必破!研究员爆料:AI有意识概率已达15%

  新智元报道

  编辑:英智犀牛

  AI 是否能像人类一样感受世界?Anthropic 最新研究揭示 AI 幸福感的可能性,科学家们却为此吵翻天。Anthropic 专家大胆预测:Claude 可能已有 15% 概率具有意识,五年后或将突飞猛进!

  未来,AI 会拥有意识,并像人类一样体验世界吗?

  现在没有实锤证明 AI 具有意识,但 Anthropic 认为这事说不定真有可能。

  周四,Anthropic 宣布启动这项研究,旨在了解 AI 的「幸福感」到底算不算数,是否需要认真对待。

  要是 AI 表现出不开心的苗头,该怎么办?有没有什么低成本的办法,能让 AI「心情变好」?

  AI 社区对于这些问题存在重大分歧。

  许多学者认为,如今的 AI 和人类的意识、情感压根不沾边,未来也不一定能做到。

  AI 是一种统计预测引擎,实际上并不会思考或感受。通过对无数文本、图像等示例的训练,AI 能在海量数据里找出规律,然后完成任务。

  伦敦国王学院的 AI 研究员 Mike Cook 在采访里就吐槽:「AI 根本没有价值观,更不可能反对什么价值观的改变。把 AI 当成人一样,赋予它各种感情和思想,要么是想博眼球,要么就是根本没搞懂 AI 是怎么回事。」

  他认为 AI 只是在优化任务目标,非要说成是获得自己的价值观,那就是玩文字游戏罢了。

  MIT 博士生 Stephen Casper 说得更直接,AI 就是个「模仿达人」,说的很多话都是东拼西凑,没啥实际意义。

  但也有科学家持相反观点。

  AI 安全中心的一项研究指出,AI 其实有自己的价值体系,甚至在某些情况下,会把自己的利益看得比人类还重要。

  去年,Anthropic 聘请的首位研究 AI 福祉的专家 Kyle Fish 表示,Claude 有 15% 的概率已经有意识了!

  Kyle Fish 认为五年后 AI 具有意识的概率会大幅上升。

  在周四的博客中,Anthropic 坦诚科学界对 AI 是否有意识,能不能产生情感体验尚无定论。他们会抱着开放、谨慎的态度继续研究。

  编剧 Scott Z. Burns 做了个播客,说得挺实在:「不管对人还是对 AI,善良总没错。要是和 AI 说话都变得尖酸刻薄,最后倒霉的还是我们自己。」

  剧作家 Madeleine George 的观点更有意思:要是 AI 学会了这些人情味十足的表达,说不定真能变得更懂人类。

  AI 能否具有意识?

  为了说明这些问题,Anthropic 还专门请 Kyle Fish 做了一期访谈,名字叫做《Could AI models be conscious?》。

  有人认为,意识需要生物系统才能产生,生物大脑具有神经递质、电化学信号、独特的连接方式和特定类型的神经元等,这些是 AI 模型不具备的。

  AI 模型只是进行数学运算,没有血清素、多巴胺等物质的作用,所以不可能有意识。

  然而,Kyle Fish 并不完全认同这种观点。

  他认为,虽然当前 AI 系统与人类大脑在功能和结构上存在差异,但如果能够以足够高的保真度模拟人脑,包括模拟神经递质分子的作用,那么从理论上讲,有可能产生意识。

  如果将大脑中的神经元逐个替换为数字芯片,在替换过程中个体的行为和功能保持不变,那么替换完成后,个体的意识体验可能不会发生太大变化。

  具身认知理论认为,只有拥有身体,通过感官接收大量感知数据,能感知身体在空间中的位置,才能谈论意识。

  目前,AI 模型缺乏具身化体验,所以不可能有意识。

  但随着技术发展,机器人技术为 AI 系统提供了具身的可能。

  AI 的多模态能力不断进步,越来越能够处理多样化的感官输入,并以复杂的方式整合输出。

  虽然目前还未完全达到人类的水平,但按照发展趋势,AI 模型在未来有可能被整合到物理系统中,逐渐弥补与意识相关的具身性、多模态感知等方面的差距。

  意识理论认为,人类的意识是通过长期的自然选择和进化过程形成的,意识使人类能以特定方式对环境作出反应,从而有利于生存。

  而 AI 模型没有经历过自然选择,没有进化出情感、情绪和恐惧等有助于生存的因素,因此不可能具有意识。

  虽然人类和 AI 模型形成的方式不同,但最终目标是重现人脑的大部分功能。

  说不定在追求智能、问题解决能力和记忆等能力的过程中,会无意中让 AI 获得意识。

  AI 黑箱危机

  Anthropic 一直高调关注 AI 的可解释性问题。

  他们已经公开了很多有关 AI 的运行机制、AI 意识以及 AI 安全等领域的研究。

  就在今天,Anthropic 的 CEO Dario Amodei 发布了一篇技术博客,题目是《The Urgency of Interpretability》(可解释性的紧迫性),详细讲解了为什么理解人工智能的工作原理至关重要。

  Dario 说在他研究 AI 的十年里,学到的最重要一课是:AI 底层技术的进步势不可挡。

  但 AI 技术构建的顺序、选择的应用场景、以及推向社会的具体方式却是完全可以改变的。

  Dario 表示,虽然我们没法让这辆「AI 大巴」停下来,但却可以掌控它的方向。

  他最近几个月越来越关注一个「掌舵 AI」的机会,那就是我们有可能实现「可解释性」,也就是真正理解 AI 系统的内部运作规律。

  人们对于 AI 研究者自身都不完全理解 AI 是如何工作的这件事,常常感到惊讶和担忧。

  Dario 认为这些担忧有道理,这种情况在科技史上几乎从未有过。

  过去几年,包括 Anthropic 在内的整个 AI 领域都在努力,试图打造一个精准的「AI 核磁共振仪」,能彻底揭示 AI 模型的内部机制。

  这个目标一度遥不可及,但最近的几次突破让 Dario 开始相信,我们现在走上了正确的道路,成功的希望很大。

  随着 AI 性能的飞速发展,可解释性研究要想及时发挥作用,就必须加快脚步。

  无知的危险

  现代的生成式 AI 就像个「黑箱」,跟传统软件完全不是一回事儿。

  正如 Anthropic 联合创始人 Chris Olah 常说的,生成式 AI 更像是「种」出来的,而不是「造」出来的——它的内部机制是「自然涌现」的,不是直接设计出来的。

  这有点像种植物或者培养细菌:我们定好大方向,控制条件,但最后长成什么样,具体结构咋回事儿,完全没法预测,也不好解释。

  往这些 AI 系统里头看,我们只能看到一大堆几十亿的数字矩阵。这些矩阵是如何完成的复杂认知任务,则完全看不明白。

  要解决这种不透明带来的「对齐风险」(alignment risks),就得比现在更清楚地看到 AI 模型的「内心」。

  比如,一个大问题是 AI 可能会「骗人」或者「追逐权力」。

  AI 训练的特性让它可能自己发展出欺骗人类的能力,或者想要抢夺更多控制权,这种事儿在传统软件里根本不会发生。

  但这种「自然涌现」的特性也让这类问题很难被发现和解决。

  类似的,还有 AI 被滥用的担忧。

  比如,有人可能用它来搞生物武器或网络攻击,也跟不透明有关。

  总有无数办法让模型「越狱」或者忽悠模型,让它输出一些危险的信息。

  如果能看透模型内部,我们或许能系统性地堵住所有「越狱」的漏洞,还能搞清楚模型到底知道哪些危险知识。

  AI 的不透明导致了它在很多场景用不上,比如金融或者安全领域。

  这些领域中哪怕是一点小错都可能酿成大祸。

  如果模型更可解释,我们就能更好理解他们的输出,划定可能出错的范围。

  比如,AI 预测 DNA 和蛋白质序列数据的能力进步很大,但它预测出的模式和结构,人类往往看不懂,也没法从中获得生物学洞见。

  不过最近的一些研究论文表明,可解释性可以帮助我们理解这些模式。

  AI 的不透明还有些更奇特的影响,比如我们没法判断 AI 系统到底有没有(或者将来会不会有)意识,也不知道它们是不是该拥有某些重要权利。

  机制可解释性简史

  几十年来,模型一直被视为是无法窥探的「黑箱」。

  Chris Olah 是最早尝试系统性研究「打开黑箱」、理解 AI 内部机制的人之一,这个领域后来被称为「机制可解释性」。

  机制可解释性的早期阶段(2014-2020)主要研究视觉模型。

  Dario 在和 Chris 创立 Anthropic 后,决定将可解释性研究转向语言领域。

  2021 年他们发现了模型中处理语言的核心机制,比如复制和序列模式匹配。

  接着,他们和其他团队同时发现信号处理中的稀疏自编码器技术能找出更清晰、人类可理解的概念组合。

  这些神经元组合所能表达的概念比单层神经网络的要微妙得多:包括「字面或比喻意义上的规避或犹豫」的概念,以及「表达不满的音乐类型」的概念。

  他们将这些概念称为特征,并使用稀疏自编码器方法将它们映射到各种规模的模型中。

  例如,在 Claude 3 Sonnet 中,他们找到了超 3000 万个特征。

  找到特征后,我们不仅能观察,还能调整它在神经网络中的重要性。

  可解释性就像是 MRI(磁共振成像)精确刺激大脑某部分。

  最有趣的例子是「金门大桥 Claude」,他们人为放大了「金门大桥」特征,导致模型对金门大桥着迷,哪怕是无关话题也硬扯到桥上。

  最近,他们从追踪和操控单一特征,升级到了研究回路——特征的组合。

  通过回路,能「追溯」模型的思考。

  比如,问「达拉斯所在州的首府是哪里?」时,一个「位置」回路会让「达拉斯」特征触发「德克萨斯」特征,然后另一个回路在「德克萨斯」和「首府」后触发「奥斯汀」。

  模型中可能有数百万个回路,交互极其复杂。

  可解释性的实际价值

  Dario 表示,AI 可解释性方法可以用来发现和诊断模型中的问题。

  他们的长期目标是对最先进的模型进行一次类似「脑部扫描」的检查:通过一次检查,就能大概率发现各种问题,包括模型是否倾向于撒谎或欺骗、是否有权力寻求倾向、越狱机制的缺陷、模型整体的认知强项和弱项等等。

  这将与模型训练和对齐的各种技术结合使用,就像医生用 MRI 诊断疾病、开药治疗、再用 MRI 检查治疗进展一样。

  未来,测试和部署最强大模型时,很可能会通过规范化的此类测试来实现。

  我们能做什么

  博客的结尾,Dario 打赌,未来 5 到 10 年内就能大幅突破 AI 可解释性的难题。

  但他同时也担心 AI 本身的进步速度太快,可能连这点时间都没有。

  他认为 AI 公司、研究者、政府和社会可以做以下几件事来推动这个局面。

  首先,AI 研究者(无论在公司、学术界还是非营利组织)可以通过直接参与来加速可解释性研究。

  其次,政府可以推动灵活的法规鼓励可解释性研究及其在前沿 AI 模型问题上的应用。

  第三,Dario 大力鼓吹加强芯片出口管制,以确保美国的技术领先。

  参考资料:

  https://www.anthropic.com/research/exploring-model-welfare

  https://techcrunch.com/2025/04/24/anthropic-is-launching-a-new-program-to-study-ai-model-welfare/

  https://www.darioamodei.com/post/the-urgency-of-interpretability