新闻时讯

您当前的位置: 首页 > 新闻时讯 > 正文

8个大模型同做高考数学,数学能力差距在哪里?

发布时间:2026-06-18     来源:    点击数:

8个大模型同做高考数学,数学能力差距在哪里?

近日,山东大学陈增敬团队完成了一项关于“大模型高考数学能力”的评测工作,选取由数学大模型团队研发的星光,以及DeepSeek、千问、KIMI、豆包、GPT、星火、智谱等8个主流大模型进行同卷测试,并对模型答案进行人工逐题批阅。评测结果显示,星光和DeepSeek V4均取得146分(满分150分),并列第一。

此次评测采用一套完整高考数学试卷,覆盖基础计算、函数、几何、概率、数列、解析几何和压轴证明题,能够全面考察模型的理解、推理、计算和表达能力。此前,该团队第一版模型在相关测试中已取得143分,本次评测更关注模型与通用大模型之间的能力优势和差距。

评测采用“同卷测试”的方式进行。对于支持视觉能力的模型,团队直接发送题目截图并要求模型求解;对于不支持视觉能力的模型,则将题目转换为Tex后发送。随后,团队保留每个模型的原始回答,并按照高考数学阅卷标准进行人工逐题批阅。在批阅过程中,除最终答案外,解题过程是否完整、推理是否严谨、关键步骤是否有依据,也是重要评判标准。

从总分来看,星光和DeepSeek V4均为146分,获得满分题数均为18题;千问3.7-Plus为141分,KIMI-2.6为140分,豆包2.0-Pro为134分,GPT5.5-Plus为132分,讯飞星火为128分,智谱-5.1为121分。星光和DeepSeek V4前18题全部拿到满分,唯一失分均出现在第19题最后一小问,显示出二者在选择题、填空题、立体几何、概率、解析几何等不同题型中的稳定表现。

评测显示,基础计算已不再是拉开大模型数学能力差距的主要因素。在中位数、平面向量、三角函数、切线方程、抛物线焦点等基础题中,多个模型基本能够完成,解法也较为接近。真正拉开差距的,是模型能否准确理解题目条件、构造反例、在长链推理中保持逻辑一致,以及能否在几何、代数、概率、向量等不同表示方式之间灵活切换。

团队认为,大模型数学能力的竞争正在从“会不会算”转向“能不能选择可靠的方法,并把每一步论证清楚”。同时,不同模型也呈现出差异化特点。例如智谱GLM-5.1在测试中多次出现解题后自动编写HTML页面展示结果的情况,生成网页较为美观,但在解题准确率方面相对较低。

在典型题目表现上,第11题平面几何题体现出星光在几何推理方面的优势。对于“弦长相等”这一条件,模型通常能够转化为“圆心到直线距离相等”,但多数模型随后进入繁琐计算。星光则进一步观察到三个圆心构成等边三角形,并利用这一对称结构直接确定满足条件的三条直线,体现出对几何结构的把握能力。

14题连续等比数列同样体现出模型差距。该题条件复杂,部分模型只抓住“等比”这一表面特征,容易出现推理错误。星光则先寻找不变量,再分析连续九项在“三项分组”中的位置,最后完成构造,表现出较强的结构化建模能力。第18题椭圆综合题中,星光持续提取“和、积、比例”等可控量,结合韦达定理和基本不等式完成求解;而ChatGPT在该题中将题目明确给出的第三象限点Q误识别为第二象限,导致后续符号判断、比例关系和代数推导偏离正确方向。

从综合表现看,星光的优势主要体现在稳定性、反例意识、表示方式灵活和验证闭环四个方面。它前18题全满分,基础题未出现明显识别、计算或格式性失误;在空间几何这类“是否恒成立”的问题中,能够主动构造反例;在综合题中,能够在几何、坐标、向量、韦达定理、不等式等方法之间切换;在第7题、第15题和第18题中,还体现出排除错误可能、不同方法互相验证以及检查等号条件是否可达等特点。

评测同时表明,表现靠前的模型仍存在短板。以星光为例,其唯一失分出现在第19题第三问的第二小问,即压轴题中的长链证明部分。星光在前两问和第三问前半部分处理较清楚,但在最后证明单调性时,提前使用了题目条件并未保证的大小关系,导致后续推理链条无法闭合。相比之下,GPT在该题中补足了正半轴函数值的关键性质,因此完整做对。

团队指出,大模型在计算和结构化建模方面已经表现出较强能力,但在超长证明链中,仍需进一步提升对前提条件的管理能力。模型不仅要会推理,还要时刻检查每一步用到的条件是否已经被证明。

此次评测也为教育场景中使用大模型提供了参考。团队认为,未来学生使用大模型辅助学习时,不能只看最终答案,还应关注解题过程是否严谨。大模型可以成为思路参考和讨论对象,但不能完全替代人的判断,尤其在证明题和综合题中,学生仍需学会检查逻辑、辨别条件、验证结论。

团队表示,本次评测最值得关注的是,大模型数学能力差距已经不主要体现简单计算上,而是体现在更深层的数学思维上。真正优秀的模型,不只是能给出答案,而是能理解题目结构、选择可靠方法、必要时构造反例,并让推理过程闭合。大模型数学能力的下一阶段,不只是“做对题”,而是“可靠地做对题”。


版权所有:山东大学中泰证券金融研究院
   地址:中国山东省济南市山大南路27号   邮编:250100    电话:0531-88364100   院长信箱: sxyuanzhang@sdu.edu.cn