Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品

  GeoSense 团队投稿

  量子位 | 公众号 QbitAI

  多模态大模型几何解题哪家强?

  首个从几何原理视角出发,全面评估多模态大模型几何解题能力的双语综合基准来了!

  GeoSense,系统评测多模态大模型在几何原理识别和应用中的表现,评测基准的数据和评测代码均已开源。

  其背后团队来自淘天集团算法技术-未来生活实验室团队。

  人类在解答几何问题时,首先会识别所需的几何原理并通过灵活应用它们来推导出答案。

  然而,目前的评测方法多集中于最终答案的正确性或简单地对每个推理步骤进行打分,而忽视了推理过程中的关键因素:几何原理的识别和应用

  尽管有研究发现模型的对几何图的感知能力不足限制了其后续推理,但实验发现,几何原理与图像中几何元素的正确对应及应用,是多模态大模型推理的另一大瓶颈。

  为填补这一空白,GeoSense 出现了,为在复杂视觉场景中的推理能力提升提供了新的方向。

  5 层知识架构 +1789 道几何问题

  GeoSense 旨在系统评估多模态大模型识别和应用几何原理来解决几何问题的能力。

  该基准建立了包含定义、定理和公式等几何原理的 5 层知识架构,覆盖平面几何和立体几何,支持中英双语;精心构建并人工详细标注了包括 1789 道问题的数据集;并针对几何原理设计了创新性的评估策略。

  它构建了包含 148 个几何原理的5 层知识架构,覆盖平面几何和立体几何的 65 个定义,47 个定理和 36 个计算公式,多维度细粒度地评估模型面对几何问题时识别和应用知识的能力。

  此外,Geosense 有精细标注的数据集

  它收纳了 1789 道几何问题,并使用中英双语详细标注了解题所必需的 5556 个几何原理及其与几何图中元素的对应与应用,并使用特殊标签()标注了解题中的关键点,确保模型评估的综合性和准确性。

  GeoSense 拥有严格的构建流程,共有 23 位几何领域的研究生同学进行数据标注、审核和质量把控。

  下图展示了一道题目的双语标注示例。

  值得一提的是,GeoSense 采用创新的评估方法,创新性地提出 GPI(几何原理识别)和 GPA(几何原理应用)两个评估指标,重点审视模型在复杂视觉场景中的几何原理识别和应用能力,帮助识别模型推理过程中的潜在不足与提升空间。

  评估系统:GPI+GPA+ACC

  GeoSense 贡献了一种新的评估系统,包括几何原理识别(GPI)评分和几何原理应用(GPA)评分以及答案正确性评分(ACC),以全面评估多模态大模型在 GPS 中类人的推理机制。

  GPI(几何原理识别评分)

  作者使用 GPI 来评估模型能否正确识别解决问题所必需的几何原理。

  如上图所示,对于每个几何问题 ,专家标注了解题所必需的几何原理集合。

  对于每个几何原理,作者借助 GPT-4o 判断其是否在模型的响应中被应用。最终的 GPI 得分是几何原理集合中模型可以正确识别的几何原理的比例。

  然而,仅仅通过此指标仍然无法得知,模型是否在视觉环境中合理地使用这些原理解决问题。这与人类解决几何问题时遇到的困境相似:在某些情况下,人类知道应该运用相似三角形的知识来解决问题,但在实际的几何图形中,往往难以正确对应各个相似元素并将几何原理正确应用。

  GPA(几何原理应用评分)

  为了进一步衡量模型在视觉环境中应用几何原理的能力,作者们提出了 GPA 指标。

  如上图所示,对于模型正确识别的每个几何原理,首先提取模型响应中与该几何原理相关的内容。

  而后将提取到的内容与标注中的关键点进行比对,计算 F1 score 作为该几何原理的 GPA 评分。

  ACC(答案准确性评分)

  作者还评估了答案的准确性,以评估模型正确识别和组合应用多个几何原理以解决问题的能力。

  以下是跟现有流行的多模态几何相关的多个评测基准的对比:

  Gemini-2.0-Pro-Flash 表现最佳

  该团队对多个开源和闭源模型进行了全面评测和分析,并给出了这些模型在 GPI、GPA 和 ACC 三个指标的平均值上的排名情况。

  最佳表现模型

  Gemini-2.0-Pro-Flash 在以几何原理为中心的解题能力评估中表现最佳,其次是 Qwen2.5-VL-72B 和 QvQ-72B-Preview。

  在开源模型中,Qwen-VL 系列表现最为突出。

  推理增强类模型的潜力与挑战

  推理模型如 QVQ-72B-Preview 在几何原理识别和应用上展现了强大的潜力,但在实际问题解决中面临准确率挑战,这是由于过度复杂化思考过程从而无法得到正确答案导致的。

  此外,InternVL2.5-38B-MPO 在几何原理识别率(GPI)和应用准确率(GPA)方面相较于 nternVL2.5-38B 有所提升,显示了优化模型推理思维过程的有效性。

  平面几何理解是共同短板

  多模态大模型在平面几何的理解方面存在明显不足。

  以 Claude3.55-Sonnet 为例,其在平面图形的转换和移动(TMPF)以及平面图形的理解(UPF)中的几何原理识别率(GPI)分别为 65.9 和 45.1,应用准确率(GPA)更低,为 32.5 和 38.7。

  这一现象显示出在处理二维空间问题时,模型的识别和应用能力均较弱,说明多模态大模型在视觉信息处理和空间关系推理方面需要进一步优化,以改善其在平面几何任务中的表现。

  推理能力随模型规模提升

  一般情况下,同一系列的模型规模越大,表现越优。

  例如,Qwen2.5-VL 系列从 7B 增至 72B 后,三种指标的平均分(AVG)从 51.3 提升至 60.1。

  实验都有哪些发现?

  什么限制了多模态大模型的推理能力?

  GPI 和 GPA 的降低都会导致 ACC 的降低。

  在上表中,InternVL-2.5-8B 和 InternVL-2.5-38B 在定义类几何原理上的 GPA 基本相同,但由于 InternVL-2.5-38B 的 GPI 得分比 InternVL-2.5-8B 高了5%,导致其 ACC 比后者高了 7.7%。

  另外,其他一些例子如 Claude37-Sonnet 和 Qwen2.5-VL-72B 在全量评测下的结果体现了 GPA 的降低也会影响模型的表现。

  此外,大部分多模态大模型在 GeoSense 上的 GPI 和 GPA 都较低,这体现了几何原理的识别和应用共同限制了多模态大模型的推理能力。

  为什么多模态大模型在复杂问题中表现更差?

  研究团队观察到,随着所需几何原理数量的增加,GPI 和 ACC 分数都降低,而 GPA 分数则受到的影响较小。这样的趋势在闭源多模态大模型中更加明显。

  这些观察结果表明,多模态大模型在复杂问题上的较差表现主要是由于未能准确识别必需的几何原理所导致的。

  该实验强调了提高多模态大模型识别几何原理能力的重要性,以进一步增强其推理能力。

  更擅长哪种知识,哪方面有所欠缺?

  多模态大模型在计算方面表现出色,但在几何性质理解方面却存在不足。

  从上表的结果来看,多模态大模型在公式类问题上的三个指标表现显著优于定义和定理类问题,特别是在 GPI 指标上。

  这表明,多模态大模型在面对计算问题时能够更清楚地识别所需的几何原理。

  相比之下,定义和定理通常包含几何元素的抽象属性和关系,这是多模态大模型难以理解的。

  为什么在平面几何领域表现不好?

  研究人员发现,GPI 限制了多模态大模型在平面几何中的表现。

  就 GPI 指标而言,大多数模型在 USF 科目上的表现优于 UPF 科目。然而,对于 GPA 指标,两个科目之间的表现差异不显著。尽管如此,就 ACC 指标而言,大多数模型在 USF 上的表现仍然更好。

  这些观察结果表明,限制模型解决平面几何问题能力的关键因素是 GPI,即模型在准确识别必需的几何原理方面遇到的困难。这是由于平面几何中存在许多容易混淆的原理,如判定相似和全等三角形。

  这强调了模型需要准确识别必要原理,以增强其对平面几何的理解。

  论文链接:

  https://arxiv.org/abs/2504.12597

  项目主页:

  https://gfzshiwai.github.io/GeoSense_Project/

  Github:

  https://github.com/GFZShiwai/GeoSense