最新頂級模型GPT-5.2已上線24小時:差評如潮!

X 上充斥著對 GPT-5.2 的惡評。


昨天,OpenAI 拾周年之際,拿出了最新的頂級模型 GPT-5.2 系列,官方號稱是「迄今為止在專業知識工作上最強大的模型系列」,在眾多基准測試中,GPT-5.2 也都刷新了最新的 SOTA 水平。



但是壹夜之間口碑反轉,大批網友給 GPT-5.2 打差評。

風投公司 Menlo Ventures 合伙人 @deedydas 發帖稱,GPT 5.2 比以往任何時候都更聰明,但 OpenAI 的核心消費者群體仍然懷念 4o。

Reddit 上的 ChatGPT 用戶壹致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」,而且「不像是升級,反而像是倒退」。

這是 OpenAI 的困境:他們想打造更好的模型來贏得企業市場,但更廣泛的用戶群體其實並不太在意模型的智能水平。



https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 測試結果拉胯


有網友曬出 GPT-5.2 在 SimpleBench 上的「成績單」,GPT-5.2 的得分低於 Claude Sonnet 3.7,後者是壹個差不多壹年前的模型;GPT-5.2 Pro 的表現也沒好多少,勉強超過 GPT-5。



https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是壹個 2024 年由 AI Explained(YouTube 頻道)推出的基准測試,專門測 AI 的「常識推理」能力,包括時空推理、社會常識、語言陷阱題等,總共 200 多道多選題。它設計得「簡單」,高中生水平就能輕松答對(人類基准:83.7%),但 AI 模型常栽跟頭,因為它們靠記憶和近似推理,容易忽略現實邏輯或上當。

[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
上壹頁1234...8下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站