壹文讀懂GPT-5.4 打個招呼80美元就燒完了

手捧GPT-5.4的奧特曼。圖片由AI生成
文|曉靜
編輯|徐青陽
北京時間3月6日凌晨,OpenAI正式發布新壹代旗艦模型GPT-5.4,官方定位為"專為專業工作而設計的最強且最高效的前沿模型"。
比起“更強更快”的常規敘事,這次發布真正值得關注的是模型角色的轉變:GPT-5.4是壹個為Agent而生的模型。它首次將原生計算機操控能力融入通用模型,並同時整合了GPT-5.3-Codex級別的編程能力、百萬Token上下文窗口和工具搜索機制——據官方介紹,沒有為整合而犧牲任何單項能力。過去讓AI操作電腦需要依賴專用的Computer Use Agent,現在編程、操控電腦、調用工具由同壹個模型壹並完成。
跑分印證了這壹點:GDPval基准測試中,GPT-5.4在83%的任務上達到或超過行業專業人士水平;OSWorld桌面操控測試成功率75%,首次超過人類基線(72.4%);編程能力與GPT-5.3-Codex持平,世界知識比GPT-5.2更強。
價格方面,GPT-5.4的API定價為輸入$2.50/百萬Token、輸出$15,約為Claude Opus 4.6($5/$25)的壹半,且支持訂閱額度調用。不過Pro版依然很貴——有網友僅發了壹句"Hi",GPT-5.4 Pro就認真推理了壹番,直接燒掉80美元。日常輕量任務,標准版可能是更明智的選擇。
在ChatGPT中,GPT-5.4以“GPT-5.4 Thinking”形式上線,逐步取代GPT-5.2 Thinking(後者將保留3個月,於2026年6月5日正式退役)。新增的前置思路概述功能讓用戶可以在模型執行過程中隨時介入調整方向,網頁版和Android已上線,iOS即將跟進。
如果用壹句話概括GPT-5.4的意義,過去幾年大模型的進化邏輯是"哪塊短板補哪塊",GPT-5.4不再單點拔高,而是把所有能力整合進同壹個模型做系統性優化。壹個能寫代碼的模型是工具,壹個能寫代碼、打開瀏覽器查文檔、調用API驗證結果、再把輸出整理成報告的模型,是工作系統。GPT-5.4更接近後者。
01 在83%的任務中達到或超過行業專業人士水平

GPT?5.4 與前代模型在多項專業能力基准測試中的表現對比
為了評估模型在真實工作環境中的表現,OpenAI使用GDPval基准測試,這項測試要求模型完成完整職業任務,而不僅僅是問答。GDPval覆蓋美國GDP貢獻最大的九個行業和肆拾肆種職業場景,包括制作銷售演示文稿、建立會計電子表格、安排醫院急診排班、繪制制造流程圖或生成短視頻內容。

[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



