美版“梁文锋”不信邪

  出品|虎嗅科技组

  作者|SnowyM、陈伊凡

  编辑|苗正卿

  头图|Harmonic 官网

  “AI 原生 100”是虎嗅科技组推出针对 AI 原生创新栏目,这是本系列的第「09」篇文章。

  "别挡在 AI 基础模型厂商进化的路上做创业生意。"

  OpenAI 创始人山姆·奥尔特曼的这句话含金量还在上升。

  其中一个原因是,在模型进化的路上,即使是在一个窄小的领域,实现 AI 的无幻觉性能,都是一项困难的任务,初创公司很难有资源与模型大厂抗衡。

  一家名叫 Harmonic 的初创公司偏不信邪,其正试图解决这个问题——开发完美无缺的零幻觉 AI。

  近日,这家公司推出了面向 IOS 和 Android 的聊天机器人应用程序测试版,普通用户可以通过这款程序,访问其人工智能模型 Aristotle。其首席执行官兼联合创始人 Tudor Achim 表示,Aristotle 是人类可以进行推理并正式验证产出的第一款产品,在 Aristotle 支持的领域——定量推理,可以保证没有幻觉。同时,Harmonic 还表示计划发布一个 API,让企业访问 Aristotle。在 Harmonic 的官网中宣称,其正在 Github 上公开发布 Aristotle 的完整证明,由于其经过正式验证,无需人工检查,这使得 Aristotle 在前沿人工智能模型中,处于高级数学推理性能的最前沿。

  Harmonic 在新产品的宣传攻势中表示,Aristotle 在第 66 届国际数学奥林匹克 IMO2025 中取得了金牌。这场比赛也被视为 AI 数学能力和 AI 推理能力的“成人礼”。

  虽然这一成绩也同样被谷歌和 OpenAI 斩获,但 Harmonic 认为这两家大厂“并非通过形式化验证手段取得结果”。从目前 AI 领域发展的整体来看,形式化(Formal)和非形式化(Informal)两种路径,到底哪种更有优势仍难以说清。

  “如果从数学的角度,Scaling Law 这条路跑到最后,一定会收敛。”一位头部基金合伙人告诉虎嗅,即便已经具备极高的行业地位,他仍然会每天阅读最新的论文,寻找突破 AI 边界的新的理论创新,这将是如今最具潜力和价值的地方。

  也正因如此,Harmonic,这个成立仅两年,专注解决 AI 边界问题的初创企业,吸引了几乎所有顶级投资机构的目光,估值从零飙升到接近 9 亿美元。

  不久之前,它就像一块磁石般吸引了近 2 亿美元的投资——从红杉资本到凯鹏华盈,从 Index Ventures 到 Paradigm。这对于一家初创公司来说,都是一个不小的数字。

  不过,针对基础模型的技术创新和创业,从来是一项烧钱的生意,一位硅谷投资人表示,如今基于基础模型的创业,早已是“富二代”的游戏,要么足够天才,要么足够有钱。

  如果回溯 Harmonic 两位创始人的经历,这两个条件,Harmonic 都具备。

  我们试图拆解这家在数学领域,和 Open AI 同台竞赛的初创公司,其背后的技术路线和厉害之处,回答 Harmonic 这将近 9 亿美金的估值,凭什么?其究竟如何实现数学推理中的 AI 零幻觉?

  美版“梁文锋”的故事

  Harmonic 的两位联合创始人——Vlad Tenev 和 Tudor Achim 背景独特,一位在数学天赋上得天独厚,而另一位则在 AI 领域积累了深厚的经验,还有一个关键因素是,Vlad Tenev 很有钱。

  左为 Vlad Tenev,右为 Tudor Achim

  Vlad Tenev 数学出身,他在斯坦福大学学数学,还曾在加州大学洛杉矶分校读过数学硕士,甚至还师从数学大师陶哲轩。

  后来他投身金融科技创业,创立并担任 Robinhood 首席执行官,如果要更形象地比喻,Robinhood,是一个用手机 App 把股票、期权、加密货币甚至 IPO 打新都变成零佣金、低门槛、游戏化交易的互联网券商平台。2021 年,Robinhood 在纳斯达克上市,这家公司在 Forbes 的实时估值已经达到约 55 亿美元。

  Vlad Tenev 的公司 Robinhood 的 Forbes 实时估值

  这也是为何 Harmonic 和 Vlad Tenev 被称为“美国版 DeepSeek”和“梁文锋”的原因,创始人资金非常雄厚,在最一开始可以以非常纯粹的态度进行技术研究。Harmonic 成立之初,用的一部分,就是 Vlad Tenev 的个人资金。

  Tudor Achim 则是计算机科学的专家,他从卡耐基梅隆大学计算机科学系毕业,后来在斯坦福读博士,后来因为创业中途离开。

  2016 年,他和别人一起创立了自动驾驶公司 Helm.ai 并担任技术总监。在那里,他积累了丰富的 AI 算法开发经验,深知如何把 AI 技术应用到复杂的现实问题中。Helm.ai 至今已经融资 1.02 亿美元,还得到了本田的支持。

  Tudor Achim 创立和自动驾驶公司的产品演示

  两位创始人有个共同理念,就是"让 AI 会思考、讲真话,不撒谎"。他们的想法可以归纳为四点,首先,AI 必须说实话:AI 的输出必须经过严格检验,确保结论准确无误;其次,AI 不能胡说八道,模型不能编造不存在的事实,宁可说"我不知道"也不要乱猜,通过严格的逻辑约束避免无根据的回答;第三,让 AI 像科学家一样思考:把假设-推理-验证的科学方法植入 AI,让它能够自动探索和证明新结论;第四,人机合作而非替代,Harmonic 认为 AI 数学助手应该帮助人类,而不是让用户没事可做。他们希望 AI 负责处理繁琐的证明工作,人类负责提出有创意的想法。

  正如他们在官网中写道,验证问题,是拓展人工智能工具效用的主要瓶颈,他们的使命是,探索人类理解的前沿。

  Harmonic 做了什么?

  通用语言大模型的幻觉率长期居高不下,已成为制约其深入 AI 下半场——“应用”的最大阻碍,也正因为如此,“幻觉”同时也是业界眼中的“最美的一块肥肉”。哪家初创企业在这块阵地将幻觉率限制到一个较低的水平,同时保持 AI 的智能水平,谁就能撬动更加庞大的市场。

  比如,我们看到各类 AI 应用在C端纷纷强调“实用性”与“可交付性”,努力用工具链与插件系统来弥补模型输出不稳定的问题,但在追求极低容错率的B端精密场景——像是金融建模、自动化编程、科学推理、法律合规等“不允许幻觉出现”的领域,通用大模型仍然举步维艰。

  2024 年,Harmonic 的当家产品诞生了,一个叫 Aristotle(亚里士多德)的数学推理 AI 模型。

  Aristotle 的特别之处在于,它是个一站式数学 AI:从理解普通话的数学问题,到生成严格的数学证明,再到用人话解释答案,一个模型全包了。虽然还没有关于 Aristotle 底层技术架构的丰富信息,但 Harmonic 已经通过官网公开了不少信息和成果。

  主要解决了三个问题:

  首先是幻觉问题。通用大模型经常无中生有,编造不存在的内容。Aristotle 通过 Lean 证明这个"硬约束"彻底解决了这个问题:每一步推导都需要得到系统认可,不允许凭空编造。一旦模型想输出错误结论,Lean 立即报错拒绝。

  其次,推理过程不清楚。传统 AI 即使能给出正确结论,推理步骤往往混乱或不完整。Aristotle 通过详细展示每一步推理来解决这个问题。由于有 Lean 检查,整个推理链上的每个环节都必须逻辑清晰,让最终证明既正确又透明。这就像给出了"答案的答案"——不仅告诉使用者结论,还展示如何一步步得到它。

  最后,传统大模型往往不够严谨。普通 AI 对问题的回答可能对错不分、过于自信,而 Aristotle 因为内置了数学逻辑,回答风格更谨慎客观。任何定理未经证明就不能用于下一步推导,这种严谨性确保了 Aristotle 非常适合高风险场景(如金融模型检查、医疗推理),因为它不会"差不多就下结论"。

  2024 年中,Harmonic 宣布 Aristotle 在评估 AI 是否能读懂、建模并证明数学题的一项测试集——MiniF2F 中创下了新纪录,领先了一众大模型,这个测试集包含 488 道形式化数学题目,涵盖数学核心领域(如代数、数论)。

  比如,其官网展示了一道 2001 年国际数学奥林匹克的难题:给出题目和人类证明草稿后,Aristotle 能自动生成完整的严格数学证明。这个例子显示了 Aristotle 如何把人类的自然语言证明翻译成机器能检查的严格代码。

  来源:Harmonic 官网

  在最近,Harmonic 最新推出的 Chatbot 式应用程序的一波宣传攻势中,两位创始人声称 Aristotle 做数学推理问题时给出的答案完全“无幻觉”。 此外,Harmonic 还计划发布一个 to B 的 API 以让企业可以访问,以及一个面向消费者的网络应用程序。

  两年估值接近 9 亿美元

  Harmonic 自成立以来,就受到了投资界的热烈追捧,短短两年内就完成了多轮大额融资。

  从融资时机来看,Harmonic 踩得很准,2024 年,OpenAI 推出了新模型,虽然展现了一定的数学能力,但还是会犯错,幻觉率仍居高不下。

  这让整个行业开始意识到"AI 需要更严谨的推理能力",正好给 Harmonic 这样的公司创造了机会。

  A 轮融资时,投资方大多有学术或技术背景,他们看好 Harmonic 在学术上的突破。

  进入 2025 年,AI 行业竞争越来越激烈,各大公司都在抢着布局更强的多模态和推理 AI。特别是 DeepMind 在 2024 年底推出的 AlphaProof 取得成功,更是引发了市场对"AI 证明"这个领域的关注。

  Harmonic 在此时又适时开始融资B轮,正值整个行业寻求将 AI 从“能用”到“可用”的节点。

  根据公开信息,Harmonic 的种子阶段由联合创始人 Vlad Tenev 个人和天使投资人提供启动资金,主要用来组建团队和开展基础研究。

  A 轮融资在 2024 年 9 月完成,拿到 7500 万美元,公司估值达到 3.25 亿美元。B轮融资于 2025 年 7 月宣布,又融了 1 亿美元,公司估值接近 9 亿美元,离 10 亿美元大关仅差一小步。

  Harmonic 的融资图

  Harmonic 的投资人阵容相当亮眼,既有顶级硅谷投资机构,也有行业基金和学术背景的资本,不仅有传统的顶级风投,还有新兴的科技基金。

  例如其A轮由硅谷知名的红杉资本(Sequoia Capital)领投,欧洲著名的 Index Ventures 紧跟其后。

  同时,多家国际基金和知名个人也参与投资。B轮融资则由老牌投资机构 Kleiner Perkins 领投,专注加密和前沿科技的 Paradigm 大手笔跟投。红杉和 Index 作为老投资者继续投钱,金融科技投资机构 Ribbit Capital 新加入。此外,Quora 联合创始人查理·切沃(Charlie Cheever)也以个人身份参与了B轮。

  一个叫做“Lean”的超级“数学监理”

  Harmonic 究竟做了什么解决 AI 在数学推理上的瓶颈?

  这要从数学界正在发生一些有趣的变化说起。

  越来越多的数学家开始使用一种叫 Lean 的工具来写数学证明,这是一个由微软研究院开发的交互式定理证明系统,它能结合数学证明和编程的系统,能用代码形式精确地表达并验证复杂的数学理论,这成为了 Harmonic 的技术核心。

  在 Lean 之前,大模型写数学证明的时候,幻觉往往表现在,看起来似乎说得头头是道,但往往会出现中间某一步是“AI 觉得对”。

  Lean 则相当于一个数字化的超级监理和 3D 打印机器人

  每写下一行代码,它就立刻像监理一样,用激光尺、钢筋扫描仪(形式化逻辑规则)分毫不差地检查一遍。只要发现缺了一根钉子、少了一块砖,它马上红灯报警,并要求返工。一旦全部绿灯,Lean 会把整个证明自动“3D 打印”出来——生成一个机器可检验、不可篡改的完整证明档案。

  Harmonic 的产品,正是基于 Lean 的工具,以减少 AI 在数学上的幻觉。这条路线,需要大量已被人工标注或是验证好的 Lean 的数据。Harmonic 声称他们可以通过数据自动形式化的方式,解决人工和数据收集方面的问题。当然,这背后有极其复杂的技术建构。

  简单理解就是,在数学里,一句简单的“显然成立”,在 Lean 的代码逻辑下,可能要拆成 50 条逻辑规则,少一条都不行,就像是给乐高城堡补上每一块1*1 的小砖。每一条都要具备极强的准确性、细节性(保证每个逗号都有出处)和一致性,就像在给一篇维基百科做逐条公证

  至于 Harmonic 究竟用了什么技术细节,在可公开的信息中,获取有限。一年前,模型 Aristotle 刚问世时,就有人质疑道:无法在网站上找到任何 ArXiv 预印本论文得以证明他们的方法。

  目前的公开信息几乎只有融资和测试成绩,很难找到技术细节、模型架构或开放 API 信息。官方几乎没公开接口文档、模型 API 或详细的开发指南,技术社区也没见到广泛实测或开源样例。

  虽然他们强调未来将应用于软件验证、数学研究等,但目前没有公众可验证的落地案例。对外能查到创始人背景和投资机构,但在核心算法、工程团队、研究人员、具体解决方案方面完全"闭口不谈"。

  即便在 AI 聊天机器人应用程序发布后,Harmonic 也仍然表示,目前不会发布 Aristotle 的其他基准测试结果,全程观看直播过后的网友们也纷纷提出疑惑。

  看起来,Harmonic 所采取的零幻觉的方法,很难说是否真正突破了现有模型的能力,因为目前似乎并没能证据证明其模型已经完全没有幻觉了,Harmonic 通过直接生产 Lean 代码的方式控制幻觉的产生,因此或许模型本身或许仍然存在幻觉,但因为幻觉错误的代码会被 Lean 代码检查出来,予以排除,故而能够使结果零幻觉。

  Harmonic 的对手都是“业界第一”

  在这个用 Lean 4 技术生成完整数学证明,从根本上杜绝 AI"瞎编乱造"的技术路线上,已经聚集了不少实力强劲的竞争对手。

  从官方数据来看,Aristotle 的成绩确实很亮眼。 在 MiniF2F 这个包含 488 道从高中到竞赛级数学题的测试中,Aristotle 表现相当出色:2024 年 6 月左右,它的成功率达到 83%(可以用计算器等工具辅助);仅仅一个月后,成功率就提升到了 90%,创下了当时的新纪录。

  2024 年 6 月,Harmonic 放出来的信息展现其测试水平

  作为对比,之前那些最 SOTA 的模型(比如 OpenAI 的 GPT-4)在同样条件下的成功率大约只有 20-35%,Aristotle 实现了几倍的跨越。这说明 Aristotle 的数学解题能力已经远超普通的 AI 模型。

  不过话说回来,现在那些 SOTA 模型的文采、想象力很大程度上都依靠"适度的幻觉",拿一个专门做数学的模型和通用 AI 比较,似乎有点"不太公平"。

  并且,在让 AI 零幻觉的领域,有钱有技术还努力的“富二代”并不只有 Harmonic 一家。

  DeepSeek 在两个月前发布了 Prover-V2 模型,在 MiniF2F 测试中达到了 88.9% 的通过率,在其他数学竞赛上也有不错的表现。

  技术架构上,DeepSeek Prover 先用 DeepSeek-V3 把复杂问题拆解成一堆小目标,每解决一个小目标就把这些证明串成"思维链",然后用这些数据来训练模型。

  除了 MiniF2F,PutnamBench 评测集中收集了 640 道 Putnam 数学竞赛题,代表了本科生高难度数学题,对 AI 来说极具挑战性。最终,DeepSeek-Prover-V2 在这 658 道题中成功解决了 49 道,也算是不错的成绩。

  谷歌 DeepMind 也是这个赛道的老手,其走的技术路线和 Harmonic 类似,谷歌 DeepMind 的 Alphaproof,它在 2024 年可谓是数学 AI 领域的超级明星,赚足了眼球。它的成名之战就是 2024 年的国际数学奥林匹克竞赛(IMO)的测试得分。

  DeepMind 团队的 AlphaProof 和 AlphaGeometry 2 在这场比赛中拿到了银牌成绩——六道题解出了四道,这是一个里程碑式的存在。

  《纽约时报》甚至用"数学家们让路,AlphaProof 来了"这样的标题来突出它的重要性。

  AlphaProof 的工作原理是,一个用 Lean 语言来证明数学结论的"自我训练"系统,结合了预训练语言模型和 AlphaZero 强化学习算法。Lean 这种形式化语言的最大优势是能够严格验证数学推理的正确性。在此之前,这种方法在机器学习中用得不多,因为人工编写的数据太少了。相比之下,基于自然语言的方法虽然可以使用更多数据,但经常会产生看起来合理实际上错误的推理步骤。

  DeepMind 当然也意识到这个问题,他们的做法是,通过调整 Gemini 模型,让它自动把自然语言的数学题翻译成形式化语言,在这两个领域之间架起了一座桥梁,从而建立了一个包含各种难度数学题的大型题库。

  就在前几天,OpenAI 研究科学家 Alex Wei 在X上发布推文,称一种全新的神秘推理模型斩获了 IMO2025 年金牌,6 道题解出了 5 道。值得注意的是,该模型是在没有任何工具或网络辅助的状态下,自行阅读题目并撰写自然语言证明的。

  结语

  尽管在解决 AI 幻觉上,技术尚未收敛,但对于刚发布产品和融资后的 Harmonic 来说,这场与时间的赛跑正式开始了。

  与 Harmonic 不同的是,这些基础模型大厂有自己多年的模型和海量数据作为基础,比如 DeepSeek 的 Prover 系列,直接让自家的 DeepSeek-V3 当"教学者",先教它学会怎么把复杂问题拆解成简单步骤,再用这些经验去训练专门的数学推理模型。谷歌的 AlphaProof 背后有 Gemini 模型帮忙把日常语言翻译成数学证明语言。

  相比之下,Harmonic 公司的 Aristotle 并没有像 DeepSeek 和谷歌那样拥有完整的大模型"生态圈"做后盾。

  但这也许是硅谷创新的独特所在——收购的文化以及良好的投资退出环境,Harmonic 的目标可能并非 IPO 一条路走到黑,他们可以在拥有足够技术积累和实力时,选择一条被大厂收购的路线,成为这些基础模型厂商技术生态中的一环,对于 Harmonic 与其投资者来说,也是一个不错的选择。

  本文来自虎嗅,原文链接:https://www.huxiu.com/article/4639590.html?f=wyxwapp