SuperCLUE发布大模型测评报告:Baichuan 3通用能力评测国内第一

  4 月 30 日消息,大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》报告选取了国内外 32 个大模型的 4 月份版本进行综合性测评。包括开放主观问题的测评,模拟大模型应用场景,以及多轮对话场景的考察。

  SuperCLUE 基于通用大模型在学术、产业与用户侧的广泛应用,构建了综合性测评标准,其前身是 CLUE。本次测评涵盖了逻辑推理、代码、语言理解等十大基础任务,共 2194 道题,以便更真实反映大模型的通用能力。

  报告中显示,Baichuan 3 在国内大模型中排名第一,总分 73.32 分,超越了文心一言 4.0、通义千问 2.1 等大模型。此外,Baichuan 3 在知识百科能力上以 82 分的成绩超越 GPT-4-Turbo,在 32 个国内外大模型中排名第一。

SuperCLUE 发布大模型测评报告:Baichuan 3 通用能力评测国内第一

  测试结果显示,Baichuan3 的文科、理科能力均衡。在知识百科能力上 Baichuan 3 以 82 分的成绩超越了 GPT-4-Turbo,在 32 个国内外大模型中排名第一。在代表了大模型智力的“逻辑推理”能力上以 68.60 的成绩超越 Claude3-Opus,在国内大模型中也拔得头筹。在计算、代码、工具使用能力上 Baichuan 3 表现同样不俗,均排名国内前三。

SuperCLUE 发布大模型测评报告:Baichuan 3 通用能力评测国内第一