Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_0ba34c9d6c4b4ce37f4bd0a59c8d30f6, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
國產AI高考708分,這款模型靠什麼成為「屏蔽生」? | 溫哥華地產中心
   

國產AI高考708分,這款模型靠什麼成為「屏蔽生」?

這兩天,各地高考陸續放榜,大模型「陪考」成績單也新鮮出爐。


高考結束後,多家媒體對國內外主流大模型進行橫向測試,有全科綜合,有單科專項,多維度交叉比拼。

先看綜合成績。羊城晚報教育發展研究院拉來 8 位 AI 考生全科作答,由 2 名資深教師獨立盲評,總分按歷史類和物理類分科方式統計。

結果顯示,物理類總分上,Claude Opus 4.8 與訊飛星火X2 以 708 分並列第壹;歷史類總分突破 700 分的,則只有訊飛星火X2,兩類均達到廣東屏蔽生水平。



從總分維度看,頭部模型之間的得分差距並不懸殊,最終排名更多取決於全科表現的穩定性。

ChatGPT 5.5 Pro 和 Claude Opus 4.8 在長文本輸出和議論文論述上均無明顯短板,但在歷史類總分上未能躋身前兩位,說明均衡表現本身也有層級差異。

訊飛星火X2 在兩類總分中均取得領先,評測報告給出的解釋是,其優勢來自語言理解、數理推理和綜合分析等不同任務之間的相對均衡,沒有單壹科目形成明顯拉動。

再看單科專項。

新京報選取 2026 年新高考 I 卷數學題,對 6 款推理型大模型進行專項測試,訊飛星火以 148 分居首,Kimi 145 分、DeepSeek144 分、智譜 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。




澎湃新聞則是組織 9 款大模型寫上海卷高考作文,經兩位教師獨立盲評取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分緊隨其後。



英文作文這邊,《觀察者網》測了 12 款大模型,訊飛星火和 ChatGPT 5.5 Pro 並列進入第壹梯隊。

[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
上壹頁123下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    華盛頓許Anthropic向受信任美機構發Mythos 5模型 激進幹預日本皇室"宮斗",高市早苗在盤算什麼?
    多家大銀行被點名,審計報告有什麼警示? 白玉蘭視後換賽道了,國產劇終於不再只拍"家裡的女人"
    網文:在中國"抓特務"叁個字意味著什麼 加拿大成為史上首支必須跨國參加淘汰賽的地主隊
    壹問題極其嚴重!法財政部緊急停用阿裡AI模型 錢再多有什麼用?前央視主持金龜子退休生活曝光
    壹周內叁起重大事件! 美國國慶,飛安成為最大考驗 中國AI模型與Anthropic、OpenAI性能差距縮小
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站