港大90后开源,OpenAI 2万刀博士级AI智能体平替!自主研究媲美顶会论文

  新智元报道

  编辑:好困英智

  AI-Researcher 是一个开源的科研智能体框架,它能从文献搜集一路包办至论文撰写,彻底改变了科研方式,让科研自动化触手可及。

  在 AI 技术迭代的坐标系中,OpenAI 构建的五级演进模型(对话系统→组织协调者)为行业发展提供了战略指引。

  其中,处于第三至四阶段的自主研究智能体(Autonomous Research Agent)正成为技术突破的焦点。

  就在最近,来自香港大学 HKUDS 的 3 位研究团者‍开源了一种全新的 AI-Researcher 系统,正是这一关键领域的重要探索。

  该系统实现了科研流程的全链路重构,覆盖智能文献检索、方法论架构设计、实验优化到论文自动生成的完整闭环。

  值得关注的是,同类功能在 OpenAI 商业化方案中需支付高达 2 万美元/月的服务费用,而 HKUDS 通过开源策略打破了技术壁垒,使前沿 AI 工具真正成为科研共同体的普惠资源。

  项目地址:https://github.com/HKUDS/AI-Researcher

  自主产出学术成果,科研智能化范式革命

  港大开源的 AI-Researcher 构建了突破性的开源科研智能体框架,成功将智能体创建门槛从专业级编程技能降维至直观的自然语言交互范式。

  这一创新框架实现了科研全流程的智能化贯通——从文献综合调研、创新方法设计与实现、严谨实验验证分析,到最终高质量学术论文的完成,一气呵成。

  这种端到端的科研自动化显著提升了研究效率,压缩了从创意到成果的周期,同时降低了认知负担,使研究人员能够将更多精力投入到创造性思考和跨学科探索中。

  该系统以 Claude-3.5-sonnet 为核心智能引擎,并精心设计了兼容 DeepSeek、HuggingFace 等主流大模型生态的灵活架构。

  通过大规模参数优化和任务适配,AI-Researcher 成功探索了大模型智能体的能力边界,展现出从复杂需求解析、多源知识整合到成果输出的全方位能力,能够持续产出符合学术标准的高质量研究结果。

  这一技术突破不仅重新定义了科研辅助工具的标准,更为下一代智能化学术生态提供了探索的方向。

  以下展示了由 AI-Researcher 基于初步研究想法创作的多项科研探索。

  图像生成

  AI-Researcher 在计算机视觉领域中的图像生成技术「Vector Quantization」展现了卓越的科研能力。

  仅凭用户提供的研究方向——改进 VQ-VAE 中非可微量化层的梯度传播问题及相关参考文献,系统便独立完成了从算法理论构建到数学推导再到代码实现的完整研究闭环,展示了深度推理与创造性问题解决能力。

  AI-Researcher 智能体设计的解决方案包含三个互补创新组件:精确的旋转与重缩放变换技术、高效梯度流动优化方法和动态码本管理机制。

  这些技术巧妙配合,共同确保了编码器到解码器间的平滑梯度传递,成功解决了 VQ-VAE 架构中阻碍其性能提升的核心技术挑战。实验结果表明,该方法显著提高了模型收敛速度与生成质量。

  值得注意的是,AI-Researcher 生成的研究成果与已发表的《Restructuring Vector Quantization with the Rotation Trick》论文也具有可比性,证明了其精准理解和实现现有研究方法的能力。该系统不仅能准确把握论文中的核心思想和技术细节,还能独立推导出相应的数学原理和算法框架。

  自动生成的学术论文

  算法实现代码

  图像压缩

  传统的向量量化(VQ)方法虽然有效,但需要大型码本和复杂的编码-解码机制,导致计算负担重,尤其在大规模数据集上应用受限。这些复杂性和资源需求成为 VAE 实际部署的主要障碍,亟需更简单且高效的量化方法。

  · AI-Researcher 自主提出的技术创新点

  对此,AI-Researcher 提出了有限标量量化(FSQ)方法,并通过以下关键技术实现性能突破:

  1. 直通估计器(STE):解决量化不可微问题,确保梯度有效传播

  2. 温度退火与 EMA 更新:提高训练稳定性并实现码本动态适应

  3. 层次化量化结构:多层次设计减少冗余,优化表示学习效率

  · AI-Researcher 自主完成的实验验证与分析

  在 CIFAR-10 数据集上的实验表明,FSQ 方法在多项性能指标上与传统 VQ 方法相当甚至更优:

  1. 性能优势:温度退火降低 FID 分数至 6.284,大幅提升图像质量和多样性

  2. 量化效率:自适应方法将量化损失从 0.3059 降至 0.1552,层次化结构减少重建损失

  3. 架构优化:简化 VAE 结构,降低计算负担,同时保持高质量图像重建能力

  自动生成的学术论文

  算法实现代码

  生成式建模

  虽然连续标准化流(CNF)在图像合成领域有潜力,但在生成稳定性和高维空间精确映射方面存在困难。传统方法无法平衡计算效率与精度,限制了生成质量。

  · AI-Researcher 自主提出的技术创新点

  AI-Researcher 提出了增强型连续标准化流方法,通过四大技术创新改进 CNF 框架:

  1. 高级速度网络:结合增强时间嵌入、动态激活函数和残差连接提高稳定性

  2. 速度一致性损失:确保轨迹对齐,强化生成过程稳定性与准确性

  3. 优化采样:采用 RK4 等先进 ODE 求解器保证数据转换精度

  4. EMA 训练稳定:减少梯度噪声,提升模型收敛性

  · AI-Researcher 自主完成的实验验证与分析

  1. 性能提升:基于 ResNet 的增强型 CNF 模型 FID 分数由 2469.50 降至 2448.96,最佳配置达 2430.89

  2. 架构优化:增加网络深度并采用 Tanh 激活函数显著提高了样本保真度和多样性

  3. 未来方向:实验为进一步优化速度一致性损失、高级采样技术和参数调优提供了明确方向

  自动生成的学术论文

  算法实现代码

  智能体技术架构解析:自动化科研的全流程实现

  AI-Researcher 框架

  智能文献调研

  Automated Literature Review

  AI-Researcher 通过先进的资源收集系统自动从 arXiv、IEEE Xplore 和 ACM 等权威学术数据库获取相关文献,并从 GitHub 和 Hugging Face 等开发平台收集高质量代码实例。

  系统集成了智能评估机制,精确筛选文献质量与代码可用性,确保仅将最具价值的资源纳入深度分析流程。

  这一自动化文献分析框架使研究人员能够快速把握领域前沿动态,精准识别关键技术突破点和研究空白区域,为创新研究提供知识背景。

  创意构思与方向引导

  Creative Ideation and Direction Guidance

  在深入掌握现有研究成果的基础上,AI-Researcher 的创意生成器精确分析技术瓶颈并系统性探索突破路径。根据研究需求,系统提供两种智能工作模式:

  • Level 1 任务:基于用户提供的详细研究方向进行深度开发与创新延伸

  • Level 2 任务:仅依托参考文献自主构建前沿研究思路,实现原创性突破

  系统采用多维度创意生成框架,首先通过启发式算法产生多元化研究方向集合,随后基于创新突破性、技术实现可行性和潜在学术影响力等关键指标进行综合评估,最终锁定最具发展前景的研究路径,为用户提供精准的创新指引。

  算法实现与实验验证

  AI-Researcher 在算法设计与验证阶段采用系统化、循序渐进的方法论框架,包括:

  1. 设计规划:精确制定实现策略和技术路线图,深度评估方案的理论创新性与工程可行性,确保研究方向价值最大化

  2. 代码开发:将抽象算法概念转化为高效可执行代码,构建完整测试环境与评估框架,确保实现的鲁棒性

  3. 严谨验证:执行全面多维度测试,通过定量与定性相结合的方式评估算法性能,收集并分析关键性能指标

  4. 迭代优化:基于实验结果进行数据驱动的算法改进,针对性解决瓶颈问题,持续提升系统性能

  这种自动化的实验验证闭环确保研究成果具备高度可靠性和可重现性,显著提升科研效率并加速从概念到实用技术的转化过程。

  学术论文撰写

  AI-Researcher 的高级写作模块能够自动生成符合严格学术规范的完整研究论文,精确整合研究动机、理论框架和实验结果。

  系统采用精心设计的层次化写作方法,确保论文结构严谨清晰、论证逻辑严密、专业术语准确。

  生成的学术成果远超简单实验报告,而是具备完整学术价值的研究贡献,包含深入的理论分析、精确的算法形式化描述和全面的实验评估。

  每篇论文均配备详实的相关工作讨论、清晰的创新点阐释和深入的结果分析。

  多维度研究评估

  AI-Researcher 构建了精密的综合评估框架,从五个关键维度进行深度质量评估:

  1. 创新突破性:评估原创贡献度、技术突破点和学术影响力

  2. 实验严谨性:分析实验设计科学性、评估指标完整性和结果可重现性

  3. 理论基础深度:考察数学严谨性、推导完整性和与现有知识体系的衔接

  4. 结果分析洞察力:评估数据解读深度、比较分析能力和异常现象解释合理性

  5. 学术写作专业度:审视结构完整性、论证逻辑和专业表达准确性

  这一多维度评估机制为研究人员提供全面质量反馈,同时驱动 AI-Researcher 系统自身持续优化进化。

  标准化评测体系

  AI-Researcher 开发了全面的基准测试套件,用于客观衡量 AI-Reseacher 的研究能力:

  • 采用人类专家论文作为评判标准

  • 当前覆盖计算机视觉、自然语言处理、数据挖掘和信息检索四大领域

  • 完全开源的评测体系,包括数据集和评估代码

  • 分级评估机制,适应不同研究阶段的需求

  这套透明、客观的评测体系不仅确保了系统性能的可信度,还为整个 AI 赋能科学发现的探索提供了重要参考。

  作者介绍

  汤嘉斌

  AI-Researcher 项目的第一作者汤嘉斌 (1999 年生),现为香港大学数据科学研究院的博士二年级学生,师从黄超教授。

  他在 AI 领域表现卓越,已在 KDD、SIGIR 等顶级国际会议发表多篇第一作者论文,其研究工作被评选为 SIGIR 2024 最有影响力论文之一,目前专注于大型语言模型与智能体系统的前沿技术研究。

  他是开源社区的活跃贡献者,开发了多个广受学术界和工业界认可的开源项目,包括 AutoAgent 和 GraphGPT 等工作。

  夏良昊

  AI-Researcher 项目的共同第一作者夏良昊博士(1995 年生),现为香港大学计算与数据科学学院研究助理教授,师从黄超教授。

  他在图学习和大语言模型领域取得了卓越成就,学术影响力显著,其发表论文累计引用量已突破4,800 次,因此被斯坦福大学评选为 2024 年全球前2% 顶尖科学家。

  他以第一作者身份发表的多篇开创性研究成果广受认可,其中包括被评为 WWW 2023、SIGIR 2022 和 SIGIR 2021 最具影响力论文。

  作为开源图学习基础模型领域的探索者,他领衔开发了 OpenGraph 和 AnyGraph 等前沿图大模型项目。

  黄超

  AI-Researcher 项目的导师黄超现任香港大学计算机科学系和数据科学研究所助理教授及博士生导师。

  他的研究兴趣涵盖人工智能的多个关键领域,包括大语言模型(LLM)、智能体、图学习、推荐系统和智慧城市。

  他的学术论文已获得超过9,600 次引用,并在 ACM MM 2024、WWW 2023、WSDM 2022 等主要会议上获得最佳论文奖或提名。

  此外,他的学术贡献还被选为 KDD(2019/2023/2024)、WWW(2023/2024)和 SIGIR(2021/2022/2023/2024)等顶级会议的影响力论文。

  他的实验室还开发了多个广受认可的开源项目,如 LightRAG、AutoAgent、MiniRAG、GraphGPT、VideoRAG 等。这些项目在开源平台上累计获得超过 23,000 颗星标。

  他获得了 2024 年世界人工智能大会(WAIC)的「明日之星奖」,并荣获「2024 年理论计算机科学与信息科学前沿科学奖」。‍

  参考资料:

  https://github.com/HKUDS/AI-Researcher

  https://x.com/huang_chao4969/status/1899505762684346685