174名北大學生能否考過AI?結果很意外

北京大學化學與分子工程學院,有機化學考試是許多同學痛並快樂著的挑戰。然而,期中考前突如其來的壹條通知,卻讓這場考試的氣氛變得不同尋常:


“請注意,本次考試范圍不僅限於有機化學。”

但比起考試范圍的變化,考場裡迎來的壹批“特殊考生”,更讓人意想不到。

它們不需要落座,也無需紙筆。它們是GPT、Gemini、DeepSeek……這些當下世界上最聰明的AI,正在雲端與174位北大化學與分子工程學院的大贰學生同場競技。

這是壹場精心設計的“圖靈測試”,也是北大科研團隊為大語言模型投下的壹塊“試金石”。

近日,北京大學化學與分子工程學院聯合北大計算中心、計算機學院、元培學院團隊,發布了最新成果SUPERChem。近期,他們以壹套“北大試卷”為標尺,冷靜丈量著AI在科學推理上的真實邊界。



壹場特殊的期中考

打開SUPERChem的題庫,壹種“壓迫感”撲面而來。

晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目並非來自網絡上隨手可得的公開題庫,而是源於對高難度試題和前沿專業文獻的深度改編。

為什麼要費盡周折重新出題?

“因為大模型太會‘背書’了。”團隊成員解釋道。互聯網可及的測試題大多已被博聞強識的AI在訓練階段熟讀。而化學,恰恰是壹門不能只靠死記硬背的學科。它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。“我們非常好奇,大語言模型的壹維next token prediction,能否解決贰維、甚至叁維空間中的復雜推理問題。”

要設計壹套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。然而,這正是北大化院的獨特優勢所在。近百名師生——其中不乏奧賽金牌得主——集結起來,決定給AI出壹套高門檻、重推理、防作弊的試卷。


他們要考的,是AI是否真的“懂”化學。

壹場游戲中的學術共創

設計題目往往是枯燥的,但這群年輕的北大人卻把它變成了壹場“游戲”。

為了構建這套高質量評估集,團隊搭建了壹個專屬協作平台。在這裡,出題、審題、修題從單調的任務,變成了壹套循序漸進的“通關”流程。成員們在平台上協作,互相審閱、彼此“找茬”,讓嚴謹的科學探討與活躍的思維碰撞交織共融。

團隊還引入了積分激勵系統,讓出題過程就像在游戲中打怪升級。壹道題目需歷經編寫初稿、撰寫解析,再通過初審與終審的嚴格審核,每個環節均由不同的同學把關,並發放相應的積分。終審通過的題目,甚至最多迭代過15個版本。



[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
上壹頁123下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    前男友殺害女大學生被判死刑:想要重新做人的機會 香港女大學生為還10萬港元卡債,赴內地"假結婚"
    6名大學生現場參觀全被淹死 建議追責42人 6名大學生墜落事故調查結果公布:建議對42人追責
    曝中國大學生國家級獎項"明碼標價公開售賣" 大學生校內溺水身亡,疑參加游戲時不慎墜湖
    為給大學生拍登頂照片 向導從5300米雪山墜亡 0抬頭率 中國大學被迫把大學生當高中生管
    德7新聞系大學生揭露俄"影子艦隊"異常航線原因 中國男人靠譜?越南女大學生非他不嫁
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站