国产AI高考708分,这款模型靠什么成为「屏蔽生」?
这两天,各地高考陆续放榜,大模型「陪考」成绩单也新鲜出炉。
高考结束后,多家媒体对国内外主流大模型进行横向测试,有全科综合,有单科专项,多维度交叉比拼。
先看综合成绩。羊城晚报教育发展研究院拉来 8 位 AI 考生全科作答,由 2 名资深教师独立盲评,总分按历史类和物理类分科方式统计。
结果显示,物理类总分上,Claude Opus 4.8 与讯飞星火X2 以 708 分并列第一;历史类总分突破 700 分的,则只有讯飞星火X2,两类均达到广东屏蔽生水平。

从总分维度看,头部模型之间的得分差距并不悬殊,最终排名更多取决于全科表现的稳定性。
ChatGPT 5.5 Pro 和 Claude Opus 4.8 在长文本输出和议论文论述上均无明显短板,但在历史类总分上未能跻身前两位,说明均衡表现本身也有层级差异。
讯飞星火X2 在两类总分中均取得领先,评测报告给出的解释是,其优势来自语言理解、数理推理和综合分析等不同任务之间的相对均衡,没有单一科目形成明显拉动。
再看单科专项。
新京报选取 2026 年新高考 I 卷数学题,对 6 款推理型大模型进行专项测试,讯飞星火以 148 分居首,Kimi 145 分、DeepSeek144 分、智谱 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。

澎湃新闻则是组织 9 款大模型写上海卷高考作文,经两位教师独立盲评取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分紧随其后。

英文作文这边,《观察者网》测了 12 款大模型,讯飞星火和 ChatGPT 5.5 Pro 并列进入第一梯队。
[加西网正招聘多名全职sales 待遇优]
好新闻没人评论怎么行,我来说几句
高考结束后,多家媒体对国内外主流大模型进行横向测试,有全科综合,有单科专项,多维度交叉比拼。
先看综合成绩。羊城晚报教育发展研究院拉来 8 位 AI 考生全科作答,由 2 名资深教师独立盲评,总分按历史类和物理类分科方式统计。
结果显示,物理类总分上,Claude Opus 4.8 与讯飞星火X2 以 708 分并列第一;历史类总分突破 700 分的,则只有讯飞星火X2,两类均达到广东屏蔽生水平。

从总分维度看,头部模型之间的得分差距并不悬殊,最终排名更多取决于全科表现的稳定性。
ChatGPT 5.5 Pro 和 Claude Opus 4.8 在长文本输出和议论文论述上均无明显短板,但在历史类总分上未能跻身前两位,说明均衡表现本身也有层级差异。
讯飞星火X2 在两类总分中均取得领先,评测报告给出的解释是,其优势来自语言理解、数理推理和综合分析等不同任务之间的相对均衡,没有单一科目形成明显拉动。
再看单科专项。
新京报选取 2026 年新高考 I 卷数学题,对 6 款推理型大模型进行专项测试,讯飞星火以 148 分居首,Kimi 145 分、DeepSeek144 分、智谱 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。

澎湃新闻则是组织 9 款大模型写上海卷高考作文,经两位教师独立盲评取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分紧随其后。

英文作文这边,《观察者网》测了 12 款大模型,讯飞星火和 ChatGPT 5.5 Pro 并列进入第一梯队。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:



