國產AI高考708分,這款模型靠什麼成為「屏蔽生」?
這兩天,各地高考陸續放榜,大模型「陪考」成績單也新鮮出爐。
高考結束後,多家媒體對國內外主流大模型進行橫向測試,有全科綜合,有單科專項,多維度交叉比拼。
先看綜合成績。羊城晚報教育發展研究院拉來 8 位 AI 考生全科作答,由 2 名資深教師獨立盲評,總分按歷史類和物理類分科方式統計。
結果顯示,物理類總分上,Claude Opus 4.8 與訊飛星火X2 以 708 分並列第壹;歷史類總分突破 700 分的,則只有訊飛星火X2,兩類均達到廣東屏蔽生水平。

從總分維度看,頭部模型之間的得分差距並不懸殊,最終排名更多取決於全科表現的穩定性。
ChatGPT 5.5 Pro 和 Claude Opus 4.8 在長文本輸出和議論文論述上均無明顯短板,但在歷史類總分上未能躋身前兩位,說明均衡表現本身也有層級差異。
訊飛星火X2 在兩類總分中均取得領先,評測報告給出的解釋是,其優勢來自語言理解、數理推理和綜合分析等不同任務之間的相對均衡,沒有單壹科目形成明顯拉動。
再看單科專項。
新京報選取 2026 年新高考 I 卷數學題,對 6 款推理型大模型進行專項測試,訊飛星火以 148 分居首,Kimi 145 分、DeepSeek144 分、智譜 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。

澎湃新聞則是組織 9 款大模型寫上海卷高考作文,經兩位教師獨立盲評取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分緊隨其後。

英文作文這邊,《觀察者網》測了 12 款大模型,訊飛星火和 ChatGPT 5.5 Pro 並列進入第壹梯隊。
[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
高考結束後,多家媒體對國內外主流大模型進行橫向測試,有全科綜合,有單科專項,多維度交叉比拼。
先看綜合成績。羊城晚報教育發展研究院拉來 8 位 AI 考生全科作答,由 2 名資深教師獨立盲評,總分按歷史類和物理類分科方式統計。
結果顯示,物理類總分上,Claude Opus 4.8 與訊飛星火X2 以 708 分並列第壹;歷史類總分突破 700 分的,則只有訊飛星火X2,兩類均達到廣東屏蔽生水平。

從總分維度看,頭部模型之間的得分差距並不懸殊,最終排名更多取決於全科表現的穩定性。
ChatGPT 5.5 Pro 和 Claude Opus 4.8 在長文本輸出和議論文論述上均無明顯短板,但在歷史類總分上未能躋身前兩位,說明均衡表現本身也有層級差異。
訊飛星火X2 在兩類總分中均取得領先,評測報告給出的解釋是,其優勢來自語言理解、數理推理和綜合分析等不同任務之間的相對均衡,沒有單壹科目形成明顯拉動。
再看單科專項。
新京報選取 2026 年新高考 I 卷數學題,對 6 款推理型大模型進行專項測試,訊飛星火以 148 分居首,Kimi 145 分、DeepSeek144 分、智譜 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。

澎湃新聞則是組織 9 款大模型寫上海卷高考作文,經兩位教師獨立盲評取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分緊隨其後。

英文作文這邊,《觀察者網》測了 12 款大模型,訊飛星火和 ChatGPT 5.5 Pro 並列進入第壹梯隊。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



