国思软件 - 强化学习之父当头一棒：RL版「苦涩的教训」来了！通往ASI，绝非靠人类数据

　　新智元报道

　　编辑：编辑部 XJZ

　　强化学习之父 Richard Sutton 和 DeepMind 强化学习副总裁 David Silver 对我们发出了当头棒喝：如今，人类已经由数据时代踏入经验时代。通往 ASI 之路要靠 RL，而非人类数据！

　　最近，图灵奖获得者、强化学习之父 Richard Sutton，联同 DeepMind 强化学习副总裁 David Silver 共同发布了一篇文章。

　　论文链接：https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

　　有人称，这篇文章就犹如《The Bitter Lesson》的续章，给了我们当头一棒——AI 范式，正在经历大转折！

　　文中表示，我们经历过模拟时代，享受过人类数据时代，如今正踏入经验时代。

　　以后想要再发展 AI，不靠模仿，不靠学习，而是靠「活过」！

　　太长不看版

　　一位中国网友的总结，得到了 RL 之父本人的转发和赞许。

　　以下是就是这位网友「xingxb」的总结。

　　我们正从「人类数据时代」跨入「经验时代」。这不是模型升级，不是 RL 算法迭代，而是一种更根本的范式转折：

　　· 从模仿人类到超越人类

　　· 从静态数据到动态经验

　　· 从监督学习到主动试错

　　他们喊话整个 AI 界：经验，才是通往真正智能的钥匙！

　　人类数据，正在见顶。今天的 AI（如 LLMs）依赖海量人类数据训练。它能写诗、做题、诊断，几乎无所不能。然而我们必须注意的是：

　　· 高质量数据正在枯竭

　　· AI 的模仿能力已经逼近人类上限

　　· 数学、编程、科研等领域再难靠「喂数据」进步

　　因此，模仿能让 AI 胜任，但不能让 AI 突破。

　　而经验，就是下一个超级数据源。真正能推动 AI 跃升的数据，必须随模型变强而自动增长。唯一的解法，就是经验本身。

　　· 经验是无限的

　　· 经验能突破人类知识边界

　　· 经验流才是智能体的本地语言

　　因此，RL 之父的主张就是：未来 AI 不是「提示词+知识库」，而是「行动+反馈」的循环体。

　　它们有几个关键特征。

　　· 它们生活在持续经验流中（非任务片段）

　　· 它们的行为扎根真实环境，不靠聊天框

　　· 奖励来自环境，而非人类打分

　　· 推理依赖行动轨迹，而非仅模仿文本逻辑

　　这些，都是对 LLM 范式的一次根本性挑战。

　　强化学习并不能解决所有事，如今，我们的经验智能还在早期，但技术条件和算力已经具备。AI 社区是否准备好，拥抱主动智能范式？

　　这，将是一次思想上、技术上和伦理上的深刻转折。

　　通往 ASI：经验时代新阶段

　　最近，DeepMind 强化学习副总裁 David Silver，掀起桌子，大声宣言——

　　大语言模型（LLM）并非 AI 的全部!

　　人类需要的是能自主推理、发现未知事物的 AI。

　　那么，如果剥离人类反馈的要素，最终得到的模型还能保持现实根基吗？

　　David Silver 提出了与主流相反的观点。

　　在近期博客中，他探讨了「经验时代」与当前「人类数据时代」的概念。

　　以 AlphaGo 和 AlphaZero 为例，他强调了强化学习可以超越人类能力，而不需要先前的知识。

　　这种做法与依赖人类数据和反馈的大语言模型形成鲜明对比。

　　Silver 强调探索强化学习对于推动 AI 进步和实现 ASI 的必要性。

　　在当前多模态模型的热议、兴奋和成就之后，David 有一个通往 ASI 的计划，他称之为「经验时代」的新阶段。

　　「经验时代」将与过去几年，完全不同。

　　过去，一直处于「人类数据时代」的阶段，也就是说，所有 AI 方法都有一个共同的想法：

　　提取人类拥有的所有条知识，然后输入到机器中。

　　这固然非常强大。

　　但还有另一种方法，它将引领人类进入「经验时代」，即机器与实际世界本身互动，并产生自己的经验。

　　如果将交互数据视为驱动机器的燃料，那么这将引领下一代 AI 的进入「经验时代」。

　　在某种程度上，David 是拍案而起，大声疾呼：「大语言模型并非唯一的AI。」

　　也就是说，AI 还有其他的选择，可以用不同的方式来实现 AGI。

　　构建大语言模型，AI 的确获益良多——

　　通过利用海量的人类自然语言数据，将所有人类书写过的知识都整合进机器之中。

　　但某种程度上，人类必须跨越这个阶段：突破认知的边界。

　　要实现这一点，就必须采用全新的方法——

　　这种方法要求 AI 能够自主推理，发现人类未知的领域。

　　这将开启一个全新的 AI 时代，它必将为社会带来前所未有的深刻变革与无限可能。

　　AlphaGo：与 LLM 完全不同

　　和 LLM 不同，其他的一些著名的 AI 采用了不同的方法，最值得一提的是 AlphaGo 和 AlphaZero。

　　大约十年前，它们击败了世界上最顶尖的围棋选手。

　　AlphaGo 击败当时围棋国际排名第一的柯洁

　　如何从头开始学习围棋？

　　特别是 AlphaZero，与最近的基于人类数据的方法非常不同，因为它完全不使用人类数据。

　　「Zero」（零）这个词就代表了这一点。所以，系统中预先编程的是字面意义上的零人类知识。

　　那么，LLM 的替代方案是什么呢？如果不复制人类，并且事先并不知道正确的下棋方式，如何学习围棋知识呢？

　　可以采用的方法是一种试错学习的形式。

　　AlphaZero 自我对弈了数百万盘围棋、国际象棋或者它想玩的其他棋类游戏。

　　一点一点地，它发现：「哦，如果在这种情况下下这种棋，那么我最终会赢得更多的比赛。」

　　然后，这成为它用来变得更强大的经验。

　　然后它会稍微多下一些类似的棋，下一次它会发现一些新的东西，它会说：「哦，当使用这种特定的模式时，我最终会赢得更多的比赛或者输掉更多的比赛。」

　　这会反过来促进下一代的学习，以此类推。

　　而这种从经验中学习，从智能体自身产生的经验中学习，就足够了。

　　虽然最初版本的 AlphaGo，确实使用了一些人类数据作为起点。

　　给它输入了一个人类职业棋手的棋谱数据库，它学习并吸收了这些人类的招法，这为它提供了一个起点。

　　然后，从那时起，它通过自己的经验进行学习。

　　然而，一年后发现，人类数据并不是必需的，可以完全抛弃人类的招法。

　　这证明了：程序不仅能够恢复到之前的性能水平，而且实际上表现得更好，并且能够比最初的 AlphaGo 更快地学习，从而达到更高的性能水平。

　　苦涩的教训：人类数据可有可无

　　AlphaZero 非常奇怪：抛弃了人类数据，结果发现人类数据不仅没什么用，而且在某种程度上还限制了性能。

　　这涉及到 AI 领域深刻的「苦涩的教训」。

　　大家都认为：人类积累的知识非常重要。

　　这导致设计的 AI 算法可能更适合人类数据，而不太擅长自主学习。

　　而结果是，如果抛弃了人类数据，实际上会花费更多的精力让系统自主学习。

　　而正是自主学习才能不断地学习和学习，永无止境。

　　这几乎就是承认 AI 可能比人类更擅长下围棋，而且在某种程度上突破了人类的上限。

　　人类数据对于 AI 起步非常有用，但人类所做的一切都有一个上限。

　　在 AlphaZero 中，AI 通过自我对弈进行学习，并且变得越来越好，最终突破了人类上限，并远远超越。

　　在「经验时代」，人类能找到足以在所有领域都突破上限的方法。

　　AI 神来之笔：第 37 手

　　AlphaGo 对阵李世石的第二盘棋中的第 37 手棋，出乎所有人的意料。

　　AlphaGo 下在了第五线上，以某种方式下出了这步棋，让棋盘上的一切都变得合理起来。

　　这对于人类来说是如此的陌生，人类想到下这步棋的概率估计只有万分之一。

　　人类对这步棋感到震惊，然而它却帮助 AlphaGo 赢了那盘棋。

　　在那一刻，人类意识到「看，这里发生了一些开天辟地的事，机器想出了一些与人类传统思维方式不同的下棋方式」。

　　这是历史性巨大的进步，远在人类知识的界限之外。

　　因为一直处于人类数据时代，投入了大量的精力来复制人类能力，而很少关注超越人类能力。

　　除非真正强调系统自主学习，超越人类数据，否则不会在现实世界中看到像第 37 手棋那样的巨大突破。

　　第 37 手棋不仅仅是一个单一的发现，还证明了从经验中不断地学习，涌现出无穷的发现。

　　刚刚完成国际象棋上的 AlphaZero，直接将它应用到将棋（日本象棋）的游戏，结果连世界冠军都认为远超人类的上限。

　　实际上，这是第一次在将棋上运行 AlphaZero。

　　开发者只是按下了「开始」键，一个超人的将棋选手就诞生了。

　　就像魔术一样。

　　强化学习和人类反馈

　　甚至机器可以自己设计强化学习算法，DeepMind 已研究多年。

　　他们构建了一个系统，通过试错，通过它自身的强化学习，找出哪种算法最适合强化学习。

　　它学会了如何构建自己的强化学习系统。

　　令人难以置信的是，它实际上超越了人类提出的强化学习算法。

　　论文链接：https://arxiv.org/abs/1805.09801

　　这又是一个反复出现的故事：投入的人类因素越多，它的表现就越差。把人类因素去掉，它反而表现得更好。

　　现在，强化学习几乎被用于所有 LLM 系统中，主要与人类数据结合使用。

　　与 AlphaZero 的方法不同，这意味着强化学习实际上是根据人类偏好进行训练的。

　　这被称为基于人类反馈的强化学习（RLHF），在 LLM 中非常重要，是巨大的进步。

　　然而，David Silver 认为 RLHF 缺点同样明显：

　　这是把洗澡水和孩子一起倒掉了。

　　基于人类反馈的强化学习系统（RLHF）非常强大，但它们没有超越人类知识的能力。

　　例如，如果人类不知道某种新想法，并且低估了某些行动，那么系统永远无法学会找到最佳行为。

　　这就像人类在预先判断系统的输出。

　　从这个意义上说，它是不可靠的。

　　而只有这种可靠的反馈，才使系统能够迭代并发现新的事物。

　　人类数据是基于人类经验的。

　　所以 LLM 继承了人类从实验中发现的所有信息。

　　但在一些领域，人类数据根本不存在。

　　系统需要通过它自己的实验，它自己的试错，以及它自己的可靠反馈来自己弄清楚，这是好主意还是坏主意。

　　合成数据有助于解决数据匮乏的问题。

　　但与从人类数据中获得的上限类似，无论这些合成数据有多好，它们都会达到阈值，即这些合成数据不能让系统变得更强大。

　　而自我学习系统，将始终生成能够解决它正在遇到的下一个问题的经验。

　　这就是使用自我生成的经验与合成数据之间的区别。

　　而在许多领域，是不可能自我生成大量的数据经验。

　　RLHF 只能让系统学会选择人类更喜欢的招数。

　　如果在 AlphaGo 中使用 RLHF，它最终不会下出第 37 手棋。

　　因为它只会像人类认为的那样下出好棋，而永远不会发现人类未知的下棋方式。

　　在其他领域中，这也有很大的意义，比如在数学领域。

　　AlphaProof：「17 岁的数学家」

　　数学，这个神秘的领域，经过几千年的探索，人类取得了令人难以置信的成就。

　　AI 能否达到人类经过多年努力所达到的相同水平？

　　AlphaProof，一个依靠经验系统，来证明数学问题的系统。

　　有趣的是，AlphaProof 与现在的 LLM 工作方式完全相反！

　　LLM 倾向于大量产生幻觉（hallucinate），它们会编造东西。

　　如果要求 LLM 证明一个数学问题，它们通常会输出一些非形式化的数学内容，然后还要告诉你「相信我，这是对的」。

　　但实际上，有可能是对的，也有可能是错的。

　　AlphaProof 的优势在哪里？

　　DeepMind 想出了一个新的数学语言「Lean」，将数学定理和问题进行形式化。

　　可以想象一下，普通的 LLM 使用的是自然语言，人类文本；但是 AlphaProof 里面说的一种新的数学语言。

　　本质上，AlphaProof 在定理证明正确与否，和 AlphaGo 在棋盘上输赢是一样的。

　　进一步 David Silver 举了一个例子，DeepMind 使用了相同的 AlphaZero 代码来提高围棋、国际象棋和其他游戏的水平。

　　同样，可以把代码用在数学问题上。

　　这也让作为数学教授的女主持人惊呼「你们怎么敢的」！

　　国际奥林匹克数学比赛，每年的挑战者都是全世界各地非常年轻的天才们。

　　AlphaProof 能够取得银牌成绩，全世界只有大约 10% 的人能取得这个成绩。

　　很好奇，如果完全没有人类的数据输入，AlphaProof 的证明看起来是什么样子？是遵循人类风格的论证方式吗？

　　David 承认，他根本无法理解那些证明过程。

　　所以，DeepMind 请来了一位大神，Timothy Gowers，菲尔兹奖得主，前 IMO 选手，IMO 的多枚金牌得主。被称为超级大脑（Mega brain），可以理解为天才中的天才。

　　Timothy Gowers 实际上就是 AlphaProof 的裁判。

　　Timothy Gowers 认为 AlphaProof 在数学上的能力是一个巨大的飞跃。

　　David 将 AlphaProof 称为是一个「非常、非常、非常有才华的 17 岁数学家」，但最终我们想要的是一个「数学之神」。

　　当然，这条路在刚刚开始。

　　克莱数学研究所在 2000 年为七个不同的数学问题提供了百万美元的奖金。

　　人类数学家已经花费了四分之一个世纪的时间来尝试解决它们，目前而有一个被攻克了。

　　David 认为，下一个很有可能就会被 AI 解决。

　　因为如果有一个系统可以不断地学习、学习、学习，那么它的上限将是无限的，你可以想象这些系统在 5 年、10 年、甚至是 20 年后的样子。

　　而数学还有一个特点，数学可以形式化、符号化，是完全可以通过 AI 与 AI 交互而不断前进的领域之一。

　　经验如何泛化到混沌系统？

　　要么赢得一局围棋，要么没有。

　　数学证明要么是正确的，要么不是。

　　但是像 AlphaZero、AlphaGo 和 AlphaProof 这样的系统，经验如何泛化到一个没有明确的「获胜」指标，并且更加混乱的系统？

　　David 说这个问题其实就是为什么强化学习方法或者这类基于经验的方法，尚未打入所有主流 AI 系统中的原因。

　　但 David 也强调了也许人类指定他们想要什么，比如我想更健康，这种很「模糊」的目标转化为更量化的数字。

　　比如我想更健康可以「转化为」静息心率或者 BMI 等，这些指标的集合可以被用作强化学习的某种奖励。

　　并且只需要少量的数据就可以让系统为自己制定目标，因为这个目标可以是一个随着时间推移而自适应的数字组合。

　　指标暴政（tyranny of metrics）

　　将量化指标作为衡量成功的标准——强化学习的「奖励函数」——是否会导致一些无法预料的问题？

　　讨论中用一个词语，指标暴政来形容这种现象。

　　比如学生不断追求更高的考试分数，或者国家追求更高的 GDP，并且由于专注于目标，个体和集体很难再优化这个目标，往往就是为了这个目标而不择手段。

　　在人类世界中盲目追求一个指标时，它往往会导致不希望的后果。

　　奖励就够了吗？

　　在此前的采访中，David 曾经写过一篇文章表达了自己的立场，Rewar is Enough，这和目前的 LLM 技术路线的选择有很大的区别。

　　论文链接：https://www.sciencedirect.com/science/article/pii/S0004370221000862

　　强化学习就是走向 AGI（通用人工智能）所需要的一切，David 仍然是这样想的。

　　他举了个例子，目前依靠人类数据的 LLM 就像是地球上的化石能源，总有一天会被消耗掉的。

　　但是基于强化学习的系统，是可持续的能源——它可以持续生成、使用和学习，再生成更多并从中学习。

　　当然 David 说目前的 LLM 也很棒，目前的 AI 也是令人惊叹，令人难以置信的东西。

　　但是！当你停下来思考时，围绕 AI 讨论的思想多样性确实在收窄。

　　人们不断地讨论 LLM，LLM 也不断地超出人们的期待。

　　关于大模型的讨论已经吸走了我们在讨论 AI 时的过多的「氧气」。

　　而且现在也出现一种声音：我们已经达到了可用人类数据的极限。

　　但就像 David 所说的一样，如果我们想要追求一种可持续的「智能能源」。

　　如果我们真的想要超越人类智能，也许现在是时候摆脱人类（数据）了。

　　参考资料：

　　https://www.youtube.com/watch?v=zzXyPGEtseI&t=2s

　　https://x.com/AnneXingxb/status/1912550071000002828

强化学习之父当头一棒：RL版「苦涩的教训」来了！通往ASI，绝非靠人类数据

我们的产品

相关链接

关于我们

联系我们