最新頂級模型GPT-5.2已上線24小時:差評如潮!
X 上充斥著對 GPT-5.2 的惡評。
昨天,OpenAI 拾周年之際,拿出了最新的頂級模型 GPT-5.2 系列,官方號稱是「迄今為止在專業知識工作上最強大的模型系列」,在眾多基准測試中,GPT-5.2 也都刷新了最新的 SOTA 水平。

但是壹夜之間口碑反轉,大批網友給 GPT-5.2 打差評。
風投公司 Menlo Ventures 合伙人 @deedydas 發帖稱,GPT 5.2 比以往任何時候都更聰明,但 OpenAI 的核心消費者群體仍然懷念 4o。
Reddit 上的 ChatGPT 用戶壹致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」,而且「不像是升級,反而像是倒退」。
這是 OpenAI 的困境:他們想打造更好的模型來贏得企業市場,但更廣泛的用戶群體其實並不太在意模型的智能水平。

https://x.com/deedydas/status/1999512868195303725?s=20
SimpleBench 測試結果拉胯
有網友曬出 GPT-5.2 在 SimpleBench 上的「成績單」,GPT-5.2 的得分低於 Claude Sonnet 3.7,後者是壹個差不多壹年前的模型;GPT-5.2 Pro 的表現也沒好多少,勉強超過 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20
SimpleBench 是壹個 2024 年由 AI Explained(YouTube 頻道)推出的基准測試,專門測 AI 的「常識推理」能力,包括時空推理、社會常識、語言陷阱題等,總共 200 多道多選題。它設計得「簡單」,高中生水平就能輕松答對(人類基准:83.7%),但 AI 模型常栽跟頭,因為它們靠記憶和近似推理,容易忽略現實邏輯或上當。
[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
昨天,OpenAI 拾周年之際,拿出了最新的頂級模型 GPT-5.2 系列,官方號稱是「迄今為止在專業知識工作上最強大的模型系列」,在眾多基准測試中,GPT-5.2 也都刷新了最新的 SOTA 水平。
但是壹夜之間口碑反轉,大批網友給 GPT-5.2 打差評。
風投公司 Menlo Ventures 合伙人 @deedydas 發帖稱,GPT 5.2 比以往任何時候都更聰明,但 OpenAI 的核心消費者群體仍然懷念 4o。
Reddit 上的 ChatGPT 用戶壹致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」,而且「不像是升級,反而像是倒退」。
這是 OpenAI 的困境:他們想打造更好的模型來贏得企業市場,但更廣泛的用戶群體其實並不太在意模型的智能水平。
https://x.com/deedydas/status/1999512868195303725?s=20
SimpleBench 測試結果拉胯
有網友曬出 GPT-5.2 在 SimpleBench 上的「成績單」,GPT-5.2 的得分低於 Claude Sonnet 3.7,後者是壹個差不多壹年前的模型;GPT-5.2 Pro 的表現也沒好多少,勉強超過 GPT-5。
https://x.com/scaling01/status/1999466846563762290?s=20
SimpleBench 是壹個 2024 年由 AI Explained(YouTube 頻道)推出的基准測試,專門測 AI 的「常識推理」能力,包括時空推理、社會常識、語言陷阱題等,總共 200 多道多選題。它設計得「簡單」,高中生水平就能輕松答對(人類基准:83.7%),但 AI 模型常栽跟頭,因為它們靠記憶和近似推理,容易忽略現實邏輯或上當。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:



