華爾街徹夜難眠,Gemini 3屠榜金融"最難考試"

叁級考試論述題示例:探討資產配置理論,比較兩種資本資產定價模型(CAPM)的應用前提與估計精度,論證其適用差異。


結果顯示:Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1均依據既定標准通過了所有級別考核,部分成績甚至接近滿分。



Gemini與GPT-5雙雄領跑

在壹級考試(基礎多選題)中,Gemini 3.0 Pro以97.6%的驚人准確率創下歷史新高。GPT-5緊隨其後,斬獲96.1%,Gemini 2.5 Pro也拿到了95.7%的高分。即便是測試中表現“墊底”的DeepSeek-V3.1,准確率也高達90.9%。

來到側重應用與分析(案例研究)的贰級考試,GPT-5反超奪魁,准確率達94.3%。Gemini 3.0 Pro和Gemini 2.5 Pro分別以93.2%和92.6%緊隨其後。

研究人員驚歎道,這些模型在此階段的表現“近乎完美”。不過,“道德規范”(Ethics)板塊依然是AI的軟肋。數據顯示,即便最強模型,在贰級考試的道德類題目中也有17%到21%的相對錯誤率。

到了最復雜的叁級考試(包含選擇題與開放式問答),Gemini 2.5 Pro在選擇題部分拔得頭籌,准確率為86.4%。但在更考驗生成能力的“論述題”環節,Gemini 3.0 Pro展現了統治力,得分率高達92.0%,相比前代模型的82.8%有了質的飛躍。



為了對開放式問答環節進行評分,研究團隊使用了o4-mini模型來實現自動化批改。

研究人員坦言,這種做法可能會引入測量誤差,並產生某種“篇幅偏見”(verbosity bias),即回答越長,得分往往越高。因此,這些測試結果只能視為基於模型的估算值。

通過標准沿用了過往合格標准:

壹級考試要求單科不低於 60%,總分不低於 70%;


贰級考試要求單科不低於 50%,總分不低於 60%;

叁級考試則要求在選擇題和論述題兩部分中,平均得分率至少達到 63%。

研究人員指出,測試結果表明“推理模型的專業能力已超越初級至中級金融分析師的要求,未來甚至可能達到資深分析師的水准”。

如果說此前的大語言模型已經掌握了壹級和贰級考試中那些“既定的規范化知識”(codified knowledge),那麼最新壹代模型正在習得叁級考試所必需的復雜“綜合研判能力”(synthesis skills)。

當然,慣常的局限性依然存在。基准測試,尤其是選擇題形式,只能作為評估模型能力和潛在經濟價值的參考,猶如管中窺豹。

盡管如此,短短兩年間從“不及格”到“近乎滿分”的巨大飛躍,足以凸顯 AI 在專業領域的進化速度之快。

[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    華爾街罕見示警:2026年最大風險 震蕩華爾街!川普點名Fed下任主席"2位凱文"
    川普不想看到 華爾街正狠狠打臉"中國崩潰論" 華爾街警告:真正的"黑天鵝"不是降息
    華爾街老兵預言:到2029年底 金價和標普500過萬 資金大遷徙 這類資產成華爾街資金避風港
    華爾街日報社論:中國霸凌日本給世界上了壹課  (3條評論) 華爾街警告:美國經濟過度捆綁AI 壹旦投資熄火將…
    跌瘋的幣圈陰謀論滿天飛:政府搶錢 華爾街做空 甚至是… AI泡沫要爆? 華爾街 科技巨頭 齊喊危險
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站