2025年高考期间,网络上关于试卷难度的讨论热度不减。与此同时,一场别开生面的 “深度推理大模型高考” 也引发了广泛关注。在七家主流大模型的激烈角逐中,讯飞星火X1表现惊艳,以141 分的优异成绩稳居国内大模型第一梯队,成为深度推理大模型在数学能力领域的标杆。
本次参与“考试”的大模型包括讯飞星火X1-0420、DeepSeek R1 0528、GPT o3、豆包 Seed-Thingking-v1.5、文心X1 Turbo、腾讯混元Hunyuan T1 latest、通义千问Qwen3-235B-A22B。其中,讯飞星火X1成为唯二突破140分的大模型。
在此次高考数学卷的挑战中,讯飞星火X1无论是面对各种题型和难度均展现出卓越性能,特别是在解答题板块,表现尤为突出。
由于高考解答题通常要求多步骤的逻辑推导,大模型在处理这类问题时,难以对应评分细则中的 “得分点”。而讯飞星火X1则凭借对高考数学试卷的深度理解,展现出强大的解题能力。
以解答题16题为例,这是一道偏中等难度的题目,涉及数列和函数相关的知识点,讯飞星火X1在回答中不仅得出了正确的结果,还给出了清晰明了的解题过程。



而在面对有着更高难度和挑战的第18题时,讯飞星火X1依旧拿到了17分满分,表现出对复杂问题的超强把控力。


值得一提的是,本次参评的讯飞星火X1,是在4月20日升级的版本。尽管版本较早,同时模型量级更小(70b),但依然在各家大模型激烈的比拼中取得了亮眼成绩,显著领先于GPT o3和多家国内主流大模型。据悉,在今年7月,讯飞星火X1将再次迎来升级。
此外,讯飞星火X1的训练是完全基于国产算力平台,充分彰显了科大讯飞强大的自主技术研发实力,同时体现出其在教育领域长达20多年的深厚积累。
此次国内外大模型纷纷参考“2025高考数学”,无疑是对深度推理模型能力的一次全面检阅。与去年相比,今年AI在数学领域的表现已经有了非常明显的提升。而讯飞星火X1的出色发挥,更是为这场大考增添了一抹亮色。它让我们看到,即便是在模型量级并不占优的情况下,凭借深厚的技术积累和对应用场景精准理解,AI依然能够实现“弯道超车”,展现出令人瞩目的性能。
展望2025年下半场,AI应用落地的爆发期或许即将到来。如何让AI更好地融入我们的日常生活,成为我们得力的助手;如何进一步拓展AI在垂直领域的深度应用,挖掘出更多的可能性,或许正是我们用AI来作答高考试卷背后所蕴含的价值所在。讯飞星火X1的成功,无疑为我们指明了一条值得探索的道路。
|