174名北大学生能否考过AI?结果很意外

北京大学化学与分子工程学院,有机化学考试是许多同学痛并快乐着的挑战。然而,期中考前突如其来的一条通知,却让这场考试的气氛变得不同寻常:


“请注意,本次考试范围不仅限于有机化学。”

但比起考试范围的变化,考场里迎来的一批“特殊考生”,更让人意想不到。

它们不需要落座,也无需纸笔。它们是GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI,正在云端与174位北大化学与分子工程学院的大二学生同场竞技。

这是一场精心设计的“图灵测试”,也是北大科研团队为大语言模型投下的一块“试金石”。

近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem。近期,他们以一套“北大试卷”为标尺,冷静丈量着AI在科学推理上的真实边界。



一场特殊的期中考

打开SUPERChem的题库,一种“压迫感”扑面而来。

晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。

为什么要费尽周折重新出题?

“因为大模型太会‘背书’了。”团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读。而化学,恰恰是一门不能只靠死记硬背的学科。它既有严密的逻辑推演,又充满了对微观世界的空间想象。“我们非常好奇,大语言模型的一维next token prediction,能否解决二维、甚至三维空间中的复杂推理问题。”

要设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。然而,这正是北大化院的独特优势所在。近百名师生——其中不乏奥赛金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。


他们要考的,是AI是否真的“懂”化学。

一场游戏中的学术共创

设计题目往往是枯燥的,但这群年轻的北大人却把它变成了一场“游戏”。

为了构建这套高质量评估集,团队搭建了一个专属协作平台。在这里,出题、审题、修题从单调的任务,变成了一套循序渐进的“通关”流程。成员们在平台上协作,互相审阅、彼此“找茬”,让严谨的科学探讨与活跃的思维碰撞交织共融。

团队还引入了积分激励系统,让出题过程就像在游戏中打怪升级。一道题目需历经编写初稿、撰写解析,再通过初审与终审的严格审核,每个环节均由不同的同学把关,并发放相应的积分。终审通过的题目,甚至最多迭代过15个版本。



[加西网正招聘多名全职sales 待遇优]
好新闻没人评论怎么行,我来说几句
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     延伸阅读
    6名大学生现场参观全被淹死 建议追责42人 6名大学生坠落事故调查结果公布:建议对42人追责
    曝中国大学生国家级奖项"明码标价公开售卖" 大学生校内溺水身亡,疑参加游戏时不慎坠湖
    为给大学生拍登顶照片 向导从5300米雪山坠亡 0抬头率 中国大学被迫把大学生当高中生管
    德7新闻系大学生揭露俄"影子舰队"异常航线原因 中国男人靠谱?越南女大学生非他不嫁
    Z世代最神秘的 CP,是大学生x消食片 "芬太尼毒王"曾是北大学生 被引渡至美国
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)



    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站