国思软件 - 缺钱但不缺洞见：刚刚，陶哲轩揭秘AI如何吞噬数学项目的灵魂！

　　新智元报道

　　编辑：犀牛

　　大模型相当于奥数金牌生真的成立吗？陶哲轩的洞见：必须把 AI 研究中的隐性目标说清楚、管起来。与此同时，香港大学马毅教授团队参与发布的 GAUSS 框架，用三大领域、十二项技能给 AI 做数学体检，不只看对错，更挖推理、学习与创造力的短板。

　　陶哲轩最近的日子过得不太舒服。

　　他频频发声吐槽科研经费短缺，甚至还得抽出宝贵的时间和精力去到处筹款。

　　不过，作为当世最伟大的数学家之一，他并未停止研究探索。

　　这不，就在刚刚，他发表了一篇短博客，犀利地指出了当前 AI 数学研究中的一个核心问题——

　　AI 虽然能够解决研究中的那些显性目标，但我们也付出了大量的隐形代价。

　　AI 研究中的隐性代价

　　数学家们的研究项目通常都会有一个终极目标，比如：「年底前，完成对数学定理X的证明。」

　　然而，在这个终极目标里，还隐藏着一些看不见、摸不着，却同样重要的东西。

　　它们没有被写在墙上，却存在于团队的每个人心中。

　　比如，我们希望通过这个项目：

为开源数学库 Mathlib 贡献出可复用的代码；
团队里的新手能在此过程中成长为独当一面的专家；
在严谨的证明过程中，能碰撞出对定理X更深刻、更本质的理解；
更重要的是，希望凝聚一个充满活力、热爱钻研的学术社区。

　　这些，就是项目中的「隐性目标」。

　　过去，科学家们很少为这些隐性目标担忧。

　　因为在一个由人类主导的项目里，所有这些隐形目标几乎都与写在墙上的那个「终极目标」相伴而生。

　　这个过程就像一位优秀的登山向导，他不仅要带领队伍登顶，更会在此过程中教会大家识别植物、阅读星空、团结协作。

　　登顶（显性目标）与团队成长（隐性目标）的实现，几乎是同一趟旅程的两个侧面。

　　然而，现在情况不同了。

　　正如陶哲轩指出的那样——AI 的到来，使得之前的这种约定俗成面临前所未有的挑战。

　　一场关于项目目标的「隐性危机」，已经悄然降临。

　　AI 破坏者与 Goodhart 定律

　　在深入陶哲轩的洞见之前，我们不妨先来理解一个他在博文中提到的经济学定律——Goodhart 定律（Goodhart's law）。

　　它的核心思想用一句话就能概括：当一个「度量指标」被过度依赖并转化为「行为目标」时，这个指标将不再能准确反映其原本要衡量的真实状态，甚至会扭曲行为、偏离初始目标。

　　听起来有点绕？举个栗子。

　　一家公司的客服中心，为了提升服务效率，设立了一个 KPI：缩短平均通话时长。

　　管理层认为，通话时间越短，意味着问题解决得越快，客户满意度自然就高。

　　最初，这个指标确实激励客服人员更高效地沟通。

　　但很快，为了追求极致的「短」，一些员工开始在遇到复杂问题时，巧妙地引导客户挂断电话，甚至直接挂断。

　　结果呢？

　　平均通话时长这个数字变得异常漂亮，但客户满意度却跌入谷底。

　　原本用于衡量效率的标尺，在成为被追逐的目标后，彻底失去了它原有的意义。

　　这就是 Goodhart 定律——它像一面镜子，照出了系统中的投机取巧和目标的异化。

　　不幸的是，按照陶哲轩的洞见，AI——尤其是那些强大的优化算法——正是 Goodhart 定律最忠实、也是最极致的执行者。

　　给 AI 一个明确的目标，它就会像一个无比强大、绝对专注，却又近乎天真的「阿拉丁神灯」，动用全部算力、不惜一切代价去实现所谓的「终极目标」，而完全忽略那些也许是同样重要的「隐形目标」。

　　陶哲轩的这些担忧，正在他所熟悉的数学形式化证明领域发生。

　　回到上文中的场景。

　　那个「完成定理X证明」的显性目标，如果交给一个人类团队，他们为了构建一个优雅、可读、可维护的证明，自然会去打磨那些基础定义和引理，这些成果顺理成章地就能被整合进 Mathlib，惠及整个学术圈。

　　在这个过程中，新手通过模仿、学习和实践，逐渐掌握了核心技能；团队成员之间的讨论、争辩与合作，本身就深化了对数学结构的理解，并加强了社区的凝聚力。

　　但如果将这个任务交给一个超级 AI 呢？

　　在 AI 的目标函数里，只有一行冷冰冰的指令：「找到一条从公理到定理X的逻辑路径」。

　　它可能会在几小时内，生成一个长达数万行、逻辑上无懈可击，但人类完全无法阅读、无法理解、无法复用的证明。

　　它可能绕过所有常规的、优美的引理，用一种我们前所未见的、诡异的「捷径」直达终点。

　　从显性目标来看，AI 取得了 100 分的完美成绩。

　　但那些隐性目标呢？

对 Mathlib 的贡献？零。这份天书般的证明基本上毫无复用价值。
新人的成长？零。没有人能从中学到任何东西。
深化对数学的理解？可能是负分。它甚至可能破坏我们对「好的证明」的品味。
社区的建设？零。整个过程是黑箱操作，没有人与人之间的互动。

　　AI 以其极致的效率，在达成显性目标的同时，精准地「优化」掉了所有我们珍视的、却未曾明确声明的隐性价值。

　　它完美地登上了山顶，却把整片森林夷为平地。

　　陶哲轩的建议

　　陶哲轩没有将矛头指向 AI 本身，而是指向了我们人类自己——项目的设计者和管理者。

　　他提醒我们，在 AI 日益成为强大工具的今天，我们不能再依赖过去那种约定俗成的默契。

　　必须做出更艰苦的努力，去审视、去挖掘、去明确定义那些我们曾经认为「理所当然」的隐性目标。

　　这意味着，项目管理者需要从「指标的设定者」转变为「价值的诠释者」。

　　在启动一个项目前，需要组织一场更深入的讨论，不仅要问做什么，更要反复追问为什么要做这件事，以及在这个过程中，我们希望获得哪些「副产品」。

　　比如：

我们追求的，仅仅是软件代码的最终交付，还是一个高内聚、可传承的开发团队？
我们想要的，仅仅是一个抓人眼球的广告文案，还是一个能沉淀品牌价值、引发用户情感共鸣的故事？
我们需要的，仅仅是一个数学定理的冰冷证明，还是一个能启发后人、枝繁叶茂的知识体系？

　　这些问题，在 AI 时代变得无比尖锐与迫切。

　　GAUSS：不止测评 AI 的答案

　　好消息是，陶哲轩的这些担忧正被越来越多的数学家们看到。

　　更重要的是，他们中的一些杰出代表已经给出了一些解决的方案。

　　近日，一群来自国际顶尖大学(伯克利、加州理工、斯坦福、华盛顿大学等)数学系的博士(大部分是曾经的奥数金牌得主)，以及香港大学计算与数据科学学院院长、AI 讲座教授马毅对最新的 GPT5 等模型各方面的数学能力进行了全面、专业、客观的验证。

　　AI 们的数学能力到底如何了？

　　为此，他们发布了一个长达 120 页的报告，提出了如何对大语言模型数学能力进行专业评价的框架——GAUSS。

　　项目地址：https://gaussmath.ai/

　　报告地址：https://drive.google.com/file/d/1ka15SjUl2FhzQMPOv4GQyyu5rb0tVAJT/view

　　GAUSS 旨在系统地分解和评估问题解决所依赖的核心认知技能。

　　与现有数据集不同，GAUSS 不仅检查最终答案——它还评估知识、概念理解、问题解决策略、沟通、学习和创造力等维度，为模型的能力和局限性提供全面评估。

　　GAUSS 的目标：

能力拆分：把模型的本事拆成 12 个维度，一项项评估，用像「雷达图」那样的方式一眼看出哪里强、哪里弱。
防题熟：不光用 GSM8K、MATH 这些老基准，多加更难的题，比如奥赛题、研课作业、研究型题目，别靠刷熟题拿高分。
防泄题：精挑细选题目，确保是模型训练时没见过的，这样评测才公平、靠谱。

　　GAUSS 将数学能力划分为三大领域、十二项技能：

数学知识与理解：数学知识记忆、知识与理论的理解
计算与分析能力：问题求解与沟通、解题框架、逻辑思维与推理、书写与呈现
学习、元技能与创造力：学习新知识、直觉、元技能、数学建模、泛化、创造力

　　这一结构从基础的知识回忆到创造性的命题，全面拆解了数学认知的各个层面。

　　GAUSS 官网还给出了一些他们测试的实例，更多实例可以在项目官网查看。

　　归根结底，GAUSS 不只是一个基准测试那么简单，它标志着方法论的转变——从「模型有没有解出题？」转向「按技能维度看，模型的强项和短板是什么？」

　　通过同时揭示优势与薄弱环节，GAUSS 为打造下一代 AI 系统提供了路线图：不止于产出答案，而能展现真正的推理、学习与发现能力。

　　而这，恰好呼应了陶哲轩的担忧——我们不能只看 AI 给出的答案，还要考虑其他的「隐形项目」。

　　相信随着越来越多的研究人员注意到这些问题，也会得到越来越多的像 GAUSS 这样的应对方案。

　　参考资料：

　　https://mathstodon.xyz/@tao/115196924307085967

　　https://gaussmath.ai/

缺钱但不缺洞见：刚刚，陶哲轩揭秘AI如何吞噬数学项目的灵魂！

我们的产品

相关链接

关于我们

联系我们