AI理科碾壓人類狀元 卻被這道文科題戳中了死穴
誰敢信?日本(专题)最難考的頂尖學府——東京大學和京都大學,剛剛被AI實現了突破。
不僅是考上,成績還大幅領先。
在LifePrompt公司和日本老牌補習機構“河合塾”搞的壹場閉卷盲測中,OpenAI的最新大模型ChatGPT 5.2 Thinking,大幅領先人類頂尖考生。
但值得注意的是。
在翻看這份成績單時,我們發現了壹個AI得分率僅為25%的“顯著薄弱環節”。
這個大坑,或許恰好是當代高考生和准大學生們的“核心競爭力所在”。
多考50分,數學拿滿分先來看壹眼這份成績單。
這可不是開卷考試。測試全程物理斷網,AI只能憑自己的“腦力”(預訓練權重)硬做。
結果呢?
在號稱日本地獄級難度的東大理科叁類(醫學部)考試裡,滿分550分,ChatGPT 5.2拿了503分。
作為參照,今年考上這個專業的人類最高分,僅僅是453分。
整整高了50分!
更值得注意的是,它的數學直接拿了滿分,英語得分率也穩穩踩在90%的基准線上。
京都大學同樣取得了突破性成績。在醫學部考試中,AI獲得1176分,把人類狀元的1098分遠遠甩在身後。
要知道,AI進化速度令人矚目。
回看2024年,老前輩GPT-4在這套卷子面前未能通過所有科目,連最低錄取線都沒夠到。
2025年,加了強化學習的o1模型終於首次達到錄取合格線。
結果才過了壹年,ChatGPT 5.2以最高分通過考試。
得分率25%的短板數學滿分,英語90%,理應是無敵的存在了吧?
但是!
在這份優異的成績單中,有壹科的成績明顯不足——
世界史論述題,滿分60,它只拿了15分,得分率僅為25%。
為何壹個擁有龐大知識儲備、數學能力極強的模型,會在文科論述題上表現明顯不佳?
閱卷的河合塾老師和技術社區的專家們給出了答案:因為這屆AI,嚴重缺乏結構化組織能力(Structural organization)。
世界史論述題可不是背年份填空。
它需要你把歷史長河裡的碎片串起來,理出政治和經濟的因果,寫出壹篇邏輯嚴密、首尾呼應的大文章。
壹句話:需要人類的“宏大敘事”。
而這,恰恰是大模型目前的死穴。
當讓它寫上千字長文時,它寫著寫著就偏離了主題。
開發者社區做過極端測試:如果讓現在的AI去維持壹個超長文本的“連貫思想主線”,往往在幾輪邏輯轉折後,它就開始出現結構性斷裂(Structural collapse)。
更要命的是,在處理極度復雜的宏大卷宗時,它還可能遭遇“長期記憶坍縮”,上下文丟失,邏輯線瞬間重置。
也就是說,目前的大模型依然缺乏全局架構能力。
它寫出來的東西,單看每壹句辭藻都很華麗;但拼在壹起,整體缺乏邏輯連貫性,完全沒有人類統領全局的“世界觀”。
准大學生的“反擊指南”看懂了這個25%的軟肋,高考生和准大學生的破局方向也就清晰了。
日本人工智能學會會長Satoshi Kurihara教授說得好:人類絕對不該在同壹條賽道上與AI直接競爭。
打個比方,你非要跟計算器比算數快,這顯然不是明智之舉。
在AI輕松超越人類頂尖理科考生的時代,准大學生們的技能樹,必須得換個點法了:
第壹,減少對“規則內機械做題”的依賴。
不管你微積分算得多快,法條背得多熟練,你都拼不過幾美分調用壹次的API接口。
靠瘋狂刷題、機械記憶去換取職場高薪的路線,正在急速貶值。果斷把你的時間精力,從純粹的“拼記憶、拼算力”裡抽離出來。
第贰,將重心轉向“宏觀架構能力”的培養。
AI連世界史大題都統籌不好,說明它目前根本當不了“總工程師”。
未來的高薪崗位,屬於那些懂行的“AI項目經理”。
你需要重點培養的能力是:如何提出直擊本質的犀利問題?如何把壹個龐大模糊的任務,精准拆解成拾幾個AI能聽懂的標准指令?最後,如何用人類的戰略眼光,把AI生成的壹堆碎片,拼裝成壹套能用的系統。
第叁,去那些充滿復雜性和不確定性的現實場景中歷練。
AI喜歡幹淨、透明、結構化的數據。但在真實的社會裡,到處是混沌、情緒和謊言。
在壹場劍拔弩張的商務談判裡,怎麼察言觀色搞定客戶?
在公司不同派系的利益博弈中,怎麼調解沖突?
面對壹團亂麻的市場反饋,誰來頂住壓力拍板擔責?
這些需要同理心、信任背書、道德抉擇的“高感觸(High-touch)”領域,是AI目前無法有效介入的領域。
時代真的變了。機器的履帶已經越過了知識評估的及格線。
與其在AI擅長的規則中過度內卷,不如退壹步,去填補那些技術無法替代的領域。
[加西網正招聘多名全職sales 待遇優]
還沒人說話啊,我想來說幾句
不僅是考上,成績還大幅領先。
在LifePrompt公司和日本老牌補習機構“河合塾”搞的壹場閉卷盲測中,OpenAI的最新大模型ChatGPT 5.2 Thinking,大幅領先人類頂尖考生。
但值得注意的是。
在翻看這份成績單時,我們發現了壹個AI得分率僅為25%的“顯著薄弱環節”。
這個大坑,或許恰好是當代高考生和准大學生們的“核心競爭力所在”。
多考50分,數學拿滿分先來看壹眼這份成績單。
這可不是開卷考試。測試全程物理斷網,AI只能憑自己的“腦力”(預訓練權重)硬做。
結果呢?
在號稱日本地獄級難度的東大理科叁類(醫學部)考試裡,滿分550分,ChatGPT 5.2拿了503分。
作為參照,今年考上這個專業的人類最高分,僅僅是453分。
整整高了50分!
更值得注意的是,它的數學直接拿了滿分,英語得分率也穩穩踩在90%的基准線上。
京都大學同樣取得了突破性成績。在醫學部考試中,AI獲得1176分,把人類狀元的1098分遠遠甩在身後。
要知道,AI進化速度令人矚目。
回看2024年,老前輩GPT-4在這套卷子面前未能通過所有科目,連最低錄取線都沒夠到。
2025年,加了強化學習的o1模型終於首次達到錄取合格線。
結果才過了壹年,ChatGPT 5.2以最高分通過考試。
得分率25%的短板數學滿分,英語90%,理應是無敵的存在了吧?
但是!
在這份優異的成績單中,有壹科的成績明顯不足——
世界史論述題,滿分60,它只拿了15分,得分率僅為25%。
為何壹個擁有龐大知識儲備、數學能力極強的模型,會在文科論述題上表現明顯不佳?
閱卷的河合塾老師和技術社區的專家們給出了答案:因為這屆AI,嚴重缺乏結構化組織能力(Structural organization)。
世界史論述題可不是背年份填空。
它需要你把歷史長河裡的碎片串起來,理出政治和經濟的因果,寫出壹篇邏輯嚴密、首尾呼應的大文章。
壹句話:需要人類的“宏大敘事”。
而這,恰恰是大模型目前的死穴。
當讓它寫上千字長文時,它寫著寫著就偏離了主題。
開發者社區做過極端測試:如果讓現在的AI去維持壹個超長文本的“連貫思想主線”,往往在幾輪邏輯轉折後,它就開始出現結構性斷裂(Structural collapse)。
更要命的是,在處理極度復雜的宏大卷宗時,它還可能遭遇“長期記憶坍縮”,上下文丟失,邏輯線瞬間重置。
也就是說,目前的大模型依然缺乏全局架構能力。
它寫出來的東西,單看每壹句辭藻都很華麗;但拼在壹起,整體缺乏邏輯連貫性,完全沒有人類統領全局的“世界觀”。
准大學生的“反擊指南”看懂了這個25%的軟肋,高考生和准大學生的破局方向也就清晰了。
日本人工智能學會會長Satoshi Kurihara教授說得好:人類絕對不該在同壹條賽道上與AI直接競爭。
打個比方,你非要跟計算器比算數快,這顯然不是明智之舉。
在AI輕松超越人類頂尖理科考生的時代,准大學生們的技能樹,必須得換個點法了:
第壹,減少對“規則內機械做題”的依賴。
不管你微積分算得多快,法條背得多熟練,你都拼不過幾美分調用壹次的API接口。
靠瘋狂刷題、機械記憶去換取職場高薪的路線,正在急速貶值。果斷把你的時間精力,從純粹的“拼記憶、拼算力”裡抽離出來。
第贰,將重心轉向“宏觀架構能力”的培養。
AI連世界史大題都統籌不好,說明它目前根本當不了“總工程師”。
未來的高薪崗位,屬於那些懂行的“AI項目經理”。
你需要重點培養的能力是:如何提出直擊本質的犀利問題?如何把壹個龐大模糊的任務,精准拆解成拾幾個AI能聽懂的標准指令?最後,如何用人類的戰略眼光,把AI生成的壹堆碎片,拼裝成壹套能用的系統。
第叁,去那些充滿復雜性和不確定性的現實場景中歷練。
AI喜歡幹淨、透明、結構化的數據。但在真實的社會裡,到處是混沌、情緒和謊言。
在壹場劍拔弩張的商務談判裡,怎麼察言觀色搞定客戶?
在公司不同派系的利益博弈中,怎麼調解沖突?
面對壹團亂麻的市場反饋,誰來頂住壓力拍板擔責?
這些需要同理心、信任背書、道德抉擇的“高感觸(High-touch)”領域,是AI目前無法有效介入的領域。
時代真的變了。機器的履帶已經越過了知識評估的及格線。
與其在AI擅長的規則中過度內卷,不如退壹步,去填補那些技術無法替代的領域。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: |
| 延伸閱讀 |
推薦:
AI理科碾壓人類狀元 卻被這道文科題戳中了死穴