174名北大學生能否考過AI?結果很意外

當最強大腦遇上“北大難度”


考試成績揭曉。

在這場精心設計的考試中,人類展現出了復雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均准確率。這個數字本身,就足以說明這套題目的硬核程度。

而AI的表現如何?

即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。





讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形,分子結構、反應機理圖蘊含著關鍵信息。然而對於部分模型而言,當引入圖像信息時,其准確率不升反降。這說明,當前的AI在將視覺信息轉化為化學語義時,仍存在明顯的感知瓶頸。




然而,即使選對了答案,解題步驟也可能經不起推敲。因此,團隊為每壹道題目都標注了詳細的評分規則。在SUPERChem這台“顯微鏡”下,AI是真懂還是裝懂,壹目了然。

團隊發現,AI的推理鏈條往往斷裂於產物結構預測、反應機理識別以及構效關系分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。



[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    前男友殺害女大學生被判死刑:想要重新做人的機會 香港女大學生為還10萬港元卡債,赴內地"假結婚"
    6名大學生現場參觀全被淹死 建議追責42人 6名大學生墜落事故調查結果公布:建議對42人追責
    曝中國大學生國家級獎項"明碼標價公開售賣" 大學生校內溺水身亡,疑參加游戲時不慎墜湖
    為給大學生拍登頂照片 向導從5300米雪山墜亡 0抬頭率 中國大學被迫把大學生當高中生管
    德7新聞系大學生揭露俄"影子艦隊"異常航線原因 中國男人靠譜?越南女大學生非他不嫁
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站