开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

  新智元报道

  编辑:KingHZ

  学界杀入主赛道!UCL 校园团队 EuniAI 抛出开源智能体 Prometheus,在 SWE-bench Verified 上 71.2% Pass@1、主榜实锤合并;成本低至 $0.23/issue。

  来自伦敦大学学院(UCL)的初创团队 EuniAI 开源发布了 AI 软件智能体 Prometheus。

  该系统在 SWE-bench Verified 上取得 71. 2% 的 Pass@1 成功率,成绩已被官方确认并合并至主榜单。

  令人瞩目的是,这一成果来自高校科研团队,却已与产业巨头同台竞技,展现出学术研发在 AI 工程领域的产业级突破。

  从学术论文到全球榜单

  高校科研的「产业级突破」

  Prometheus 源自论文:

  论文地址:https://arxiv.org/abs/2507.19942

  开源代码:https://github.com/EuniAI/Prometheus

  官网 Demo:https://euni.ai/

  官方榜单确认:https://github.com/SWE-bench/experiments/pull/339

  它不仅通过开源代码和 Neo4J 知识图谱技术,让 AI「读懂代码」,还能在实际 GitHub 项目中实现自动修复错误、验证补丁,甚至生成可直接提交的修复说明。

  全球榜单:成绩亮眼

  • SWE-bench Verified:71. 2% Pass@1(官方确认 merge)

  • SWE-bench Lite:35. 33% Pass@1(开源模型 SOTA)

  • 平均 API 成本:仅$0.23/issue

  技术亮点:让 AI 真正「理解」代码结构

  Prometheus 的突破在于:它不是提示工程的产物,而是图结构推理的系统性设计。

  统一知识图谱(UnifiedKnowledge Graph将代码结构整合文件结构、AST 抽象语法树和文档信息,将复杂代码库转化为可推理的知识网络,实现多语言语法理解与跨文件依赖分析。

  多智能体协作框架(Multi-Agent System)包含六个专职 Agent,从问题分类、环境重现到补丁生成与验证,实现端到端自动化开发闭环。

  跨语言与可扩展性覆盖 Python、Java、Rust、C/C++、Go、TypeScript、PHP、Ruby 等主流语言,支持真实世界项目自动构建与测试。

  低成本+高可复现性Prometheus 使用 DeepSeek-V3 模型,性能与 GPT-4o 相近,但成本仅为其1/9。支持在笔记本级硬件上运行完整修复流程。

  在线 Demo

  从论文到真实工程的桥梁

  为展示 Prometheus 的工程化能力,EuniAI 团队在官网上线了交互式演示平台:https://euni.ai/

  该平台支持用户直接连接项目,选择待修复任务,系统将自动完成以下全自动流程操作:

  1. 自动环境构建与依赖安装

  2. 问题分析与知识图谱检索

  3. 补丁生成与自动验证

  4. 结果可视化与差异对比(Diff View)

  目前 Demo 版本支持 Python 与多语言项目,提供限量邀请码注册体验,并持续向学术机构与开发者开放内测合作。

  我们希望 AI 不再只是「补代码」,而是理解项目结构、能独立调试和修复的工程伙伴。 ——EuniAI 团队

  EuniAI 团队由UCL 助理教授叶荷(HeYe)领衔,成员来自伦敦大学学院、KTH 皇家理工学院和 CMU 等国际高校。

  他们以「科研与开源并行」的方式,推动 AI 智能体真正落地,让学术创新真正服务于软件开发一线。

  未来展望

  EuniAI 团队对下一代智能代码分析与自动修复系统的展望:

  「Prometheus 的愿景,是让 AI 不仅写代码、修代码,更能理解整个软件生态,并与人类工程师共同进化。

  未来,EuniAI 团队计划让 Prometheus 拥有更强的「工程意识」:

  • 智能修复代理(Issue Resolution Agent):自动检测、修复并提交补丁,实现端到端自动化修复。

  • 知识图谱生成(Codebase → Graph):一键将代码库结构化,提升上下文检索与跨语言理解。

  • 项目记忆与学习(Agent Memory + Post-Train Model):让智能体具备项目经验与长期记忆,不断自我优化。

  • 自动构建与验证(Automated Build Agent):生成补丁后自动测试与验证,保障修复质量。

  • 生态集成(MCP & TerminalAutomation):支持 Model Context Protocol 与终端自动化,构建完整的 AI 工程流水线。

  Prometheus 不止是一款智能体系统,它是下一代代码理解与自动修复平台的起点。

  立即体验 Demo!

  https://euni.ai/

  上传一个项目与待修复任务,见证 AI 从识别问题、生成补丁、到自动验证的全过程。

  (限量邀请码正在开放中)

  参考资料:

  https://arxiv.org/abs/2507.19942