8个大模型同做高考数学，数学能力差距在哪里？-中泰证券金融研究院

新闻时讯

您当前的位置： 首页 > 新闻时讯 > 正文

8个大模型同做高考数学，数学能力差距在哪里？

发布时间：2026-06-18 来源：点击数：

8个大模型同做高考数学，数学能力差距在哪里？

近日，山东大学陈增敬团队完成了一项关于“大模型高考数学能力”的评测工作，选取由数学大模型团队研发的星光，以及DeepSeek、千问、KIMI、豆包、GPT、星火、智谱等8个主流大模型进行同卷测试，并对模型答案进行人工逐题批阅。评测结果显示，星光和DeepSeek V4均取得146分（满分150分），并列第一。

此次评测采用一套完整高考数学试卷，覆盖基础计算、函数、几何、概率、数列、解析几何和压轴证明题，能够全面考察模型的理解、推理、计算和表达能力。此前，该团队第一版模型在相关测试中已取得143分，本次评测更关注模型与通用大模型之间的能力优势和差距。

评测采用“同卷测试”的方式进行。对于支持视觉能力的模型，团队直接发送题目截图并要求模型求解；对于不支持视觉能力的模型，则将题目转换为Tex后发送。随后，团队保留每个模型的原始回答，并按照高考数学阅卷标准进行人工逐题批阅。在批阅过程中，除最终答案外，解题过程是否完整、推理是否严谨、关键步骤是否有依据，也是重要评判标准。

从总分来看，星光和DeepSeek V4均为146分，获得满分题数均为18题；千问3.7-Plus为141分，KIMI-2.6为140分，豆包2.0-Pro为134分，GPT5.5-Plus为132分，讯飞星火为128分，智谱-5.1为121分。星光和DeepSeek V4前18题全部拿到满分，唯一失分均出现在第19题最后一小问，显示出二者在选择题、填空题、立体几何、概率、解析几何等不同题型中的稳定表现。

评测显示，基础计算已不再是拉开大模型数学能力差距的主要因素。在中位数、平面向量、三角函数、切线方程、抛物线焦点等基础题中，多个模型基本能够完成，解法也较为接近。真正拉开差距的，是模型能否准确理解题目条件、构造反例、在长链推理中保持逻辑一致，以及能否在几何、代数、概率、向量等不同表示方式之间灵活切换。

团队认为，大模型数学能力的竞争正在从“会不会算”转向“能不能选择可靠的方法，并把每一步论证清楚”。同时，不同模型也呈现出差异化特点。例如智谱GLM-5.1在测试中多次出现解题后自动编写HTML页面展示结果的情况，生成网页较为美观，但在解题准确率方面相对较低。

在典型题目表现上，第11题平面几何题体现出星光在几何推理方面的优势。对于“弦长相等”这一条件，模型通常能够转化为“圆心到直线距离相等”，但多数模型随后进入繁琐计算。星光则进一步观察到三个圆心构成等边三角形，并利用这一对称结构直接确定满足条件的三条直线，体现出对几何结构的把握能力。

第14题连续等比数列同样体现出模型差距。该题条件复杂，部分模型只抓住“等比”这一表面特征，容易出现推理错误。星光则先寻找不变量，再分析连续九项在“三项分组”中的位置，最后完成构造，表现出较强的结构化建模能力。第18题椭圆综合题中，星光持续提取“和、积、比例”等可控量，结合韦达定理和基本不等式完成求解；而ChatGPT在该题中将题目明确给出的第三象限点Q误识别为第二象限，导致后续符号判断、比例关系和代数推导偏离正确方向。

从综合表现看，星光的优势主要体现在稳定性、反例意识、表示方式灵活和验证闭环四个方面。它前18题全满分，基础题未出现明显识别、计算或格式性失误；在空间几何这类“是否恒成立”的问题中，能够主动构造反例；在综合题中，能够在几何、坐标、向量、韦达定理、不等式等方法之间切换；在第7题、第15题和第18题中，还体现出排除错误可能、不同方法互相验证以及检查等号条件是否可达等特点。

评测同时表明，表现靠前的模型仍存在短板。以星光为例，其唯一失分出现在第19题第三问的第二小问，即压轴题中的长链证明部分。星光在前两问和第三问前半部分处理较清楚，但在最后证明单调性时，提前使用了题目条件并未保证的大小关系，导致后续推理链条无法闭合。相比之下，GPT在该题中补足了正半轴函数值的关键性质，因此完整做对。

团队指出，大模型在计算和结构化建模方面已经表现出较强能力，但在超长证明链中，仍需进一步提升对前提条件的管理能力。模型不仅要会推理，还要时刻检查每一步用到的条件是否已经被证明。

此次评测也为教育场景中使用大模型提供了参考。团队认为，未来学生使用大模型辅助学习时，不能只看最终答案，还应关注解题过程是否严谨。大模型可以成为思路参考和讨论对象，但不能完全替代人的判断，尤其在证明题和综合题中，学生仍需学会检查逻辑、辨别条件、验证结论。

团队表示，本次评测最值得关注的是，大模型数学能力差距已经不主要体现于简单计算上，而是体现在更深层的数学思维上。真正优秀的模型，不只是能给出答案，而是能理解题目结构、选择可靠方法、必要时构造反例，并让推理过程闭合。大模型数学能力的下一阶段，不只是“做对题”，而是“可靠地做对题”。

上一篇：祝全体师生端午安康！

下一篇：陈增敬教授团队用双臂机实现优化理论与算法的成果在PNAS上发表