174名北大學生能否考過AI?結果很意外
當最強大腦遇上“北大難度”
考試成績揭曉。
在這場精心設計的考試中,人類展現出了復雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均准確率。這個數字本身,就足以說明這套題目的硬核程度。
而AI的表現如何?
即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。


讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形,分子結構、反應機理圖蘊含著關鍵信息。然而對於部分模型而言,當引入圖像信息時,其准確率不升反降。這說明,當前的AI在將視覺信息轉化為化學語義時,仍存在明顯的感知瓶頸。

然而,即使選對了答案,解題步驟也可能經不起推敲。因此,團隊為每壹道題目都標注了詳細的評分規則。在SUPERChem這台“顯微鏡”下,AI是真懂還是裝懂,壹目了然。
團隊發現,AI的推理鏈條往往斷裂於產物結構預測、反應機理識別以及構效關系分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。

[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢
考試成績揭曉。
在這場精心設計的考試中,人類展現出了復雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均准確率。這個數字本身,就足以說明這套題目的硬核程度。
而AI的表現如何?
即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。


讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形,分子結構、反應機理圖蘊含著關鍵信息。然而對於部分模型而言,當引入圖像信息時,其准確率不升反降。這說明,當前的AI在將視覺信息轉化為化學語義時,仍存在明顯的感知瓶頸。

然而,即使選對了答案,解題步驟也可能經不起推敲。因此,團隊為每壹道題目都標注了詳細的評分規則。在SUPERChem這台“顯微鏡”下,AI是真懂還是裝懂,壹目了然。
團隊發現,AI的推理鏈條往往斷裂於產物結構預測、反應機理識別以及構效關系分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。

[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



