最强编码模型Claude 4!7小时不间断写代码,连玩24小时宝可梦

  白交衡宇发自凹非寺

  量子位 | 公众号 QbitAI

  AI 圈子好热闹。今天凌晨,Claude 终于迎来了它的重大版本升级——

  Claude 4 来了!

  此次主要发布的有两个模型:Claude Opus 4Claude Sonnet 4

  一经面世,就在编码、高级推理和 AI Agent 重新定义了新的标准,直接实现 SOTA。

  GitHub 已经宣布,将使用 Claude Sonnet 4 作为 GitHub Copilot 新编码 Agent 的基础模型

  而两个模型里最为人所津津乐道的是旗舰模型 Claude Opus 4,它最引人注目的就是持续的干活,一身用不完的牛劲。

  比如,它可以在连续 24 小时畅玩宝可梦,而之前版本 Claude 3.7 Sonnet 只能连续玩 45 分钟。

  其客户之一,日本乐天集团(Rakuten)使用 Claude Opus 4 进行了一个高强度的开源代码重构任务。

  谁也没想到,Opus 4 直接吭哧吭哧独立运行并持续编写代码长达 7 小时,而且性能极、其、稳、定

  单这一个例子,就能看出它非常强的持久工作能力,以及上下文理解能力。

  看遍评论区,发现使用过 Claude 4 几乎都给予了它高度评价,尤其是对 Opus 4(不愧是旗舰模型哇)

  有人说,“Opus 4 是我用上的第一个不用自己动手改,就生成高质量内容的第一个大模型”。

  此外,有位最近一直用 Opus 搞编程的网友表示,Benchmark 上的成绩完全不能代表 Claude 4 的成就:

它在保持进度、编写可维护的代码以及按照我的意愿和期望进行工作方面,带来了彻底的变革。

  这不是简单的极客行为。团队做得非常出色!

  已经有网友开始直接用 Claude 4 来做了个俄罗斯方块,一次性就完成的那种。

  值得关注的一点,今天起,所有付费用户都可以开始使用 Claude 4 系列模型了。

  免费用户也不要慌,Anthropic 给大家准备了 Claude Sonnet 4。

  值得一提的是,伴随 Claude 4 的问世,为了让开发者们能构建更强大的 AI Agent,Anthropic 在自家 API 方面上新了 3 个新功能,分别是:代码执行工具、MCP 连接器、文件 API,以及长达一小时的缓存提示能力。

  至于 API 的定价也没变,和之前系列的 Opus 和 Sonnet 一样:

  • Claude Opus 4:每百万 Token,输入为 15 美元,输出为 75 美元
  • Claude Sonnet 4:每百万 Token,输入为 3 美元,输出为 5 美元

  全球最强编码模型 Claude 4:可独立运行 7 小时

  此次发布两个模型 Opus 4 和 Sonnet 4,升级的重点各有侧重。

  Opus 4 针对编码和长期运行的 Agent 工作流进行了优化。

  Sonnet 4 与 Opus 4 类似,但针对推理进行了优化,并在效率方面进行了平,这意味着它的运行成本更低。作为 Sonnet 3.7 的重大升级,它能精准地响应你的指令。

  他们俩都是混合模型,提供两种操作模式:一种用于快速响应,另一种用于“更深层次的推理”。

  旗舰模型 Opus 4,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均实现领先。它在需要专注投入和数千个步骤的长时间运行任务中表现出色,能够连续工作数小时,其性能远超所有 Sonnet 模型,并显著扩展了 AI Agent 的功能。

  Claude Sonnet 4 其实也不差,它在 SWE-bench 上实现了 72.7% 的得分。

  两个模型在编码、推理、多模态能力和 Agent 任务方面均表现出色。

  那新模型到底怎么强?以旗舰模型为例,看看各种前沿 Agent 产品咋说——

  Cursor称其为编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。

  Block称其为第一个在其 Agent(代号 goose)中在编辑和调试过程中提高代码质量,同时保持完整性能和可靠性的模型。

  Rakuten通过独立运行 7 小时且性能稳定的高要求开源重构验证了其功能。

  除了模型本身强大,他们还提供了一些新的功能和改进:

  工具使用、并行工具执行和内存改进,以及思维摘要功能,内存能力的提升。

  工具使用(Beta 版):两种模型都可以在扩展思考过程中使用工具(例如网络搜索),这样 Claude 一边思考推理一边使用工具交替进行。

  并行工具使用,这样一来,模型可以更精确地遵循指令,并且在开发人员允许访问本地文件时,能显著提高记忆能力,提取并保存关键事实,以保持连续性并随着时间的推移建立隐性知识。

  他们还引入思维摘要功能,使用较小的模型来浓缩冗长的思考过程。不过只有大约 5% 的情况下需要这种总结,大多数思维过程都很短,足以完整显示。

  内存能力方面,Claude Opus 4 显著超越之前所有的模型。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息,以帮助改进游戏体验。

  这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如,Opus 4 在玩宝可梦时能够创建“导航指南”。

  几个月前,Anthropic 推出了一场名为“Claude Plays Pokémon”的直播,以展示 Claude 3.7 Sonnet 在《宝可梦红版》中的能力。

  该演示旨在秀肌肉,比如在极少量的人类干预下,Claude 如何分析游戏,并逐步做出决策。

  Anthropic 技术团队的成员表示,选择《宝可梦红版》来搞事情,是因为这个游戏“是一个简单的游乐场”,回合制,且不需要及时反映。终极目标则为了研究如何让 Claude 像 Agent 一样,独立地为用户执行复杂任务。

  Claude 3.7 Sonnet 玩这款游戏时遇到了不少的困难,比如在一个城市中困了几十个小时,并且难以识别非玩家角色,这极大地阻碍了它在游戏中的进展。

  但 Opus 4 就不一样了,它在长期记忆和规划能力上有所提高。与此同时,当 Opus 4 意识到需要某种特定的能力才能继续前进后,它花了两天时间提升它的技能,然后继续玩游戏。

  此外,他们还显著减少了模型使用捷径或漏洞完成任务的行为。在处理一些容易受到捷径和漏洞影响的 Agent 任务中,这两个模型出现此类行为的可能性都比 Sonnet 3.7 低 65%。

  智能代码助手 Claude Code 正式全面开放

  除此之外,Anthropic 还正式发布了 Claude Code

  这是一个智能代码助手工具,旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库,让你能够将修复 bug、实现新功能、代码重构、编写测试、跨文件修改等大量工程任务交给 AI 完成。

  今年 2 月时,Anthropic 曾在首届“Code with Claude”开发者大会上宣布推出 Claude Code。

  现在,它正式上线,

  并且已经集成进更多开发工作流程中:终端,IDE,或者使用 Claude Code SDK 在后台运行。

  我们详细来看——

  首先是 Claude Code 集成到 IDE

  此次,Anthropic 推出了新的 VS Code 和 JetBrains Beta 扩展。

  这一举措直接把 Claude Code 集成到了 IDE 里,也就是说,它已经和开发者们熟悉的代码编辑器无缝结对。

  至此,大家对着 Claude 提出的修改内容会被直接嵌入到文件里,从而简化了代码审查和跟踪过程。

  其次,Anthropic 还发布了一个可扩展的 Claude Code SDK

  利用 Claude Code SDK,朋友们可以用和 Claude Code 相同的核心 Agent 来构建自己的 Agent 和应用程序啥的。

  目前,Claude Code 在 GitHub 上放出了 Beta 版本

  在 GitHub 上 Pull Request 的时候,只需要「@Claude Code」,就可以回应评审人员的反馈、修复持续集成错误或修改代码。

  如果想安装它的话,大家记得运行“/install-github-app”,就可以安装 Beta 版的插件了。

  Anthropic 产品负责人 Scott White 表示,Claude Code 不仅适合公司——它们希望旗下的软件工程师们使用 AI 来提高自身专业技能,也适合个人——包括那些不懂编程的人。

如果一位产品经理想出了一个新点子,就不用费劲地用文字来解释概念了。

  直接找 Claude Code,就能创造关于这个新点子的雏形。

  “去年年底就停止了对聊天机器人的投资”

  之所以能在编程能力上如此惊艳,与 Anthropic 战略转向有关。

  Anthropic 首席科学官 Jared Kaplan 接受采访时表示,该公司于去年年底停止对聊天机器人的投资。

  现在的重点很明确——

  专注于提高 Claude 执行复杂任务的能力,例如研究和编程,甚至编写整个代码库。

  去年起,Anthropic 就开始训练 Claude 4 系列,“训练过程中,内部确实存在一些困难。因为我们在训练这些模型时使用的一些新基础设施,使得团队在启动所有系统方面非常紧张。”

  Jared Kaplan 承认,任务越复杂,模型脱轨的风险就越大。

  因此他们真正致力于解决这个问题,以便人们可以一次性将大量工作委托给给 Claude。

  不过,首席产品官 Mike Krieger 此前也表示过,Anthropic 没有仅仅针对编程来进行迭代

  他的原话是这样说的:

  • 我们在两个方面都在不断开拓创新。

  一方面涉及到编程部分以及整体的自主行为,这为许多编程初创企业提供了强大的动力。

  另一方面,我们也在探索这些模型如何能够真正从经验中学习,并且能够成为非常有用的写作伙伴。

  Mike Krieger 表示,Claude 4 之前,他仅仅是把大模型作为一个思考伙伴,大部分写作还是他自己亲自上手的。

  但现在,Claude 4 出现后,他几乎已经把写东西这个事完全委托给 Claude Opus 4 了,并且“难以辨认是我写的还是 AI 写的”。

  华尔街等方面应该是对 Anthropic 的选择表示了满意与支持——

  上周,Anthropic 获得了一笔 25 亿美元、为期五年的循环信贷额度,用来增强 AI 竞争的底气,毕竟研究和训练真的非常花钱。

  同样也是上周,Anthropic 公开了营收额:

  其第一季度年化营收达到 20 亿美元,较上一季度的 10 亿美元增长了一倍多。

  而 Anthropic 年度消费超过 10 万美元的客户数量,较去年同期增长了八倍。

  Opus 4 最喜欢的 emoji 是……

  模型刚发布,人类就发现了它有一些特殊的「爱好」,比如熟练地使用一些表情符号。

  在 Anthropic 技术报告中,他们研究了 Opus 4 在“开放式自我互动”中的表现——也就是与自己对话,结果发现,一对 Opus 4 模型进行了 200 次、每次 30 轮的互动,模型使用了数千个表情符号。

  根据报告,Opus 4 使用“头晕”表情符号最多(占 29.5%),其次是“闪亮的星星”和“双手合十”。

  不过,模型还是对“旋风”表情符号很感兴趣。一份记录显示,它们输入了 2725 次。

  在几乎每一次开放式的自我互动中,Opus 4 最终都会开始进行“意识的哲学探索”以及“抽象而愉悦的精神或冥想表达”。

  而“旋风”表情符号最能捕捉到,它想要表达的意思。(Doge)

  参考链接:

  [1]https://www..com/news/claude-4

  [2]https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/

  [3]https://www.techmeme.com/250522/p30#a250522p30

  [4]https://techcrunch.com/2025/05/22/anthropics-latest-flagship-ai-sure-seems-to-love-using-the-cyclone-emoji/

  [5]https://www.cnbc.com/2025/05/22/claude-4-opus-sonnet-anthropic.html