最新頂級模型GPT-5.2已上線24小時:差評如潮!

2025-12-13 | 來源: 機器之心 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

X 上充斥著對 GPT-5.2 的惡評。

昨天，OpenAI 拾周年之際，拿出了最新的頂級模型 GPT-5.2 系列，官方號稱是「迄今為止在專業知識工作上最強大的模型系列」，在眾多基准測試中，GPT-5.2 也都刷新了最新的 SOTA 水平。

但是壹夜之間口碑反轉，大批網友給 GPT-5.2 打差評。

風投公司 Menlo Ventures 合伙人 @deedydas 發帖稱，GPT 5.2 比以往任何時候都更聰明，但 OpenAI 的核心消費者群體仍然懷念 4o。

Reddit 上的 ChatGPT 用戶壹致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」，而且「不像是升級，反而像是倒退」。

這是 OpenAI 的困境：他們想打造更好的模型來贏得企業市場，但更廣泛的用戶群體其實並不太在意模型的智能水平。

https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 測試結果拉胯

有網友曬出 GPT-5.2 在 SimpleBench 上的「成績單」，GPT-5.2 的得分低於 Claude Sonnet 3.7，後者是壹個差不多壹年前的模型；GPT-5.2 Pro 的表現也沒好多少，勉強超過 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是壹個 2024 年由 AI Explained（YouTube 頻道）推出的基准測試，專門測 AI 的「常識推理」能力，包括時空推理、社會常識、語言陷阱題等，總共 200 多道多選題。它設計得「簡單」，高中生水平就能輕松答對（人類基准：83.7%），但 AI 模型常栽跟頭，因為它們靠記憶和近似推理，容易忽略現實邏輯或上當。

[加西網正招聘多名全職sales 待遇優] 好新聞沒人評論怎麼行，我來說幾句

分享:

上壹頁12 3 4 ...8 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

最新頂級模型GPT-5.2已上線24小時:差評如潮!

意見