国产AI高考708分,这款模型靠什么成为「屏蔽生」?

2026-06-27 | 来源: 机器之心 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

这两天，各地高考陆续放榜，大模型「陪考」成绩单也新鲜出炉。

高考结束后，多家媒体对国内外主流大模型进行横向测试，有全科综合，有单科专项，多维度交叉比拼。

先看综合成绩。羊城晚报教育发展研究院拉来 8 位 AI 考生全科作答，由 2 名资深教师独立盲评，总分按历史类和物理类分科方式统计。

结果显示，物理类总分上，Claude Opus 4.8 与讯飞星火X2 以 708 分并列第一；历史类总分突破 700 分的，则只有讯飞星火X2，两类均达到广东屏蔽生水平。

从总分维度看，头部模型之间的得分差距并不悬殊，最终排名更多取决于全科表现的稳定性。

ChatGPT 5.5 Pro 和 Claude Opus 4.8 在长文本输出和议论文论述上均无明显短板，但在历史类总分上未能跻身前两位，说明均衡表现本身也有层级差异。

讯飞星火X2 在两类总分中均取得领先，评测报告给出的解释是，其优势来自语言理解、数理推理和综合分析等不同任务之间的相对均衡，没有单一科目形成明显拉动。

再看单科专项。

新京报选取 2026 年新高考 I 卷数学题，对 6 款推理型大模型进行专项测试，讯飞星火以 148 分居首，Kimi 145 分、DeepSeek144 分、智谱 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。

澎湃新闻则是组织 9 款大模型写上海卷高考作文，经两位教师独立盲评取平均分。星火 65.5 分居首，Gemini 64.5 分、豆包 64 分紧随其后。

英文作文这边，《观察者网》测了 12 款大模型，讯飞星火和 ChatGPT 5.5 Pro 并列进入第一梯队。

[加西网正招聘多名全职sales 待遇优] 好新闻没人评论怎么行，我来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

延伸阅读

美伊再次连环交火原因:川普不知道自已签了什么?	被中方列入管控清单的日本实体+20,什么来头?
私生子成为接班人为何金正恩从不谈及他的母亲	他们审判《父母爱情》的样子,和打骂爹娘有什么区别?
没有张雪峰的第一个高考家长们快被坑惨了	"十年九总统"的秘鲁她会成为第10个吗?
普京和卢卡申科到底在密谋什么?	美国放宽管制 Anthropic尖端模型重新上线
大模型推理最高提速85%!deepseek发表重磅论文	华盛顿许Anthropic向受信任美机构发Mythos 5模型

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

国产AI高考708分,这款模型靠什么成为「屏蔽生」?

意见