華爾街徹夜難眠,Gemini 3屠榜金融"最難考試"

2025-12-15 | 來源: 新智元 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

叁級考試論述題示例：探討資產配置理論，比較兩種資本資產定價模型（CAPM）的應用前提與估計精度，論證其適用差異。

結果顯示：Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1均依據既定標准通過了所有級別考核，部分成績甚至接近滿分。

Gemini與GPT-5雙雄領跑

在壹級考試（基礎多選題）中，Gemini 3.0 Pro以97.6%的驚人准確率創下歷史新高。GPT-5緊隨其後，斬獲96.1%，Gemini 2.5 Pro也拿到了95.7%的高分。即便是測試中表現“墊底”的DeepSeek-V3.1，准確率也高達90.9%。

來到側重應用與分析（案例研究）的贰級考試，GPT-5反超奪魁，准確率達94.3%。Gemini 3.0 Pro和Gemini 2.5 Pro分別以93.2%和92.6%緊隨其後。

研究人員驚歎道，這些模型在此階段的表現“近乎完美”。不過，“道德規范”（Ethics）板塊依然是AI的軟肋。數據顯示，即便最強模型，在贰級考試的道德類題目中也有17%到21%的相對錯誤率。

到了最復雜的叁級考試（包含選擇題與開放式問答），Gemini 2.5 Pro在選擇題部分拔得頭籌，准確率為86.4%。但在更考驗生成能力的“論述題”環節，Gemini 3.0 Pro展現了統治力，得分率高達92.0%，相比前代模型的82.8%有了質的飛躍。

為了對開放式問答環節進行評分，研究團隊使用了o4-mini模型來實現自動化批改。

研究人員坦言，這種做法可能會引入測量誤差，並產生某種“篇幅偏見”（verbosity bias），即回答越長，得分往往越高。因此，這些測試結果只能視為基於模型的估算值。

通過標准沿用了過往合格標准：

壹級考試要求單科不低於 60%，總分不低於 70%；

贰級考試要求單科不低於 50%，總分不低於 60%；

叁級考試則要求在選擇題和論述題兩部分中，平均得分率至少達到 63%。

研究人員指出，測試結果表明“推理模型的專業能力已超越初級至中級金融分析師的要求，未來甚至可能達到資深分析師的水准”。

如果說此前的大語言模型已經掌握了壹級和贰級考試中那些“既定的規范化知識”（codified knowledge），那麼最新壹代模型正在習得叁級考試所必需的復雜“綜合研判能力”（synthesis skills）。

當然，慣常的局限性依然存在。基准測試，尤其是選擇題形式，只能作為評估模型能力和潛在經濟價值的參考，猶如管中窺豹。

盡管如此，短短兩年間從“不及格”到“近乎滿分”的巨大飛躍，足以凸顯 AI 在專業領域的進化速度之快。

[加西網正招聘多名全職sales 待遇優] 這條新聞還沒有人評論喔，等著您的高見呢

分享:

上壹頁 1 2 345 6 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

華爾街徹夜難眠,Gemini 3屠榜金融"最難考試"

意見