OpenAI新模型: 有情緒的AI出現了
5月14日凌晨,OpenAI終於發布了SamAltman提前造勢的“Magic(魔法)”,主要包括叁個重點發布,ChatGPT新UI、桌面版GPT、以及最重要的,新的多模態模型GPT-4o。
當模型變得越來越復雜,新的ChatGPT用戶界面變得更加簡潔,交互體驗實際上變得更加自然和簡單。

圖注:ChatGPT新UI
桌面版GPT實時在線,能隨時幫你解決寫代碼、讀圖表等任務,且從演示視頻看上去,桌面版GPT可以直接通過視覺等方式“讀懂”你的任務,這大大提高了端側任務處理的想象力。
最重磅的是新的模型GPT-4o。根據OpenAI的官網解釋,"o"代表“全知”,是朝著更自然的人類與計算機交互邁出的壹步。
總結下來,新模型GPT-4o有叁大“魔法”:
①多模態:接受文本、音頻、圖像作為組合輸入,並生成任何文本、音頻和圖像的組合輸出。同時,在多模態理解能力中,最讓人感到驚奇的是,它能夠識別人類的感情,並根據感情做出“有感情的反應”。
②幾乎無延遲:它對音頻輸入的響應時間最短為232毫秒,平均為320毫秒,這與人類在對話中的響應時間相似。
③可在電腦桌面運行,隨時擁有壹個AI隊友,能隨時幫你處理寫代碼、看圖表等任務。
看完這叁大特點,真的是直接感歎:“賈維斯”上線!“HER”闖進生活。從今天起,OpenAI給了你壹個沒延遲,有感情,可以隨時看著你,無處不在的AI助理。還免費。本文的後半部分,將詳細介紹GPT-4o解鎖的新能力。
壹、概覽:GPT-4o是壹個端到端的新模型
GPT-4o在英文文本和代碼上與GPT-4Turbo的性能相匹配,在非英文文本上有了顯著提升,同時在API上速度更快,成本降低了50%。與現有模型相比,GPT-4o在視覺和音頻理解方面尤其更好。
根據OpenAI發布在官網的最新博客文章顯示,在GPT-4o之前,我們使用語音模式與ChatGPT對話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。為了實現這壹點,語音模式是由叁個獨立的模型組成的流水線:壹個簡單的模型將音頻轉錄為文本,GPT-3.5或GPT-4接收文本並輸出文本,第叁個簡單的模型將該文本再轉換回音頻。這個過程意味著主要的智能來源,GPT-4,丟失了很多信息,它不能直接觀察語調、多個說話者或背景噪音,也不能輸出笑聲、歌唱或表達情感。
GPT-4o,是單獨訓練的新模型,可以端到端地處理文本、視覺和音頻,這意味著所有輸入和輸出都由同壹個神經網絡處理。
GPT-4o並不是第壹個端到端多模態模型。早在去年拾贰月,谷歌就已經發布了他們的Gemini模型。後續業界也壹直判斷OpenAI也會遵從大壹統模型的模式,最終開發出端到端的多模態模式。
肆個月過去了,OpenAI的大壹統模型總算閃亮登場。還比谷歌的多了語音這壹模態。
更重要的是,雖然大壹統模型是谷歌先發,但OpenAI今天展示了壹個更“真”的多模態模型到底應該達到什麼水平。
贰、新產品能力——魔法背後的魔法
1、魔法的基礎:壹體化多模態的多模態模型。傳統文本、代碼等推理能力沒有質的提升,但音頻視覺等能力達到新標准。
作為壹個壹體化的多模態模型,GPT-4o在傳統基准測試中,文本推理和編程能力上達到GPT-4Turbo水平,而在多語言、語音識別、語音翻譯、視覺理解等方面創下新紀錄。多模態能力的平均分高,是這個模型“魔法”能力的基礎。
[物價飛漲的時候 這樣省錢購物很爽]
還沒人說話啊,我想來說幾句
當模型變得越來越復雜,新的ChatGPT用戶界面變得更加簡潔,交互體驗實際上變得更加自然和簡單。

圖注:ChatGPT新UI
桌面版GPT實時在線,能隨時幫你解決寫代碼、讀圖表等任務,且從演示視頻看上去,桌面版GPT可以直接通過視覺等方式“讀懂”你的任務,這大大提高了端側任務處理的想象力。
最重磅的是新的模型GPT-4o。根據OpenAI的官網解釋,"o"代表“全知”,是朝著更自然的人類與計算機交互邁出的壹步。
總結下來,新模型GPT-4o有叁大“魔法”:
①多模態:接受文本、音頻、圖像作為組合輸入,並生成任何文本、音頻和圖像的組合輸出。同時,在多模態理解能力中,最讓人感到驚奇的是,它能夠識別人類的感情,並根據感情做出“有感情的反應”。
②幾乎無延遲:它對音頻輸入的響應時間最短為232毫秒,平均為320毫秒,這與人類在對話中的響應時間相似。
③可在電腦桌面運行,隨時擁有壹個AI隊友,能隨時幫你處理寫代碼、看圖表等任務。
看完這叁大特點,真的是直接感歎:“賈維斯”上線!“HER”闖進生活。從今天起,OpenAI給了你壹個沒延遲,有感情,可以隨時看著你,無處不在的AI助理。還免費。本文的後半部分,將詳細介紹GPT-4o解鎖的新能力。
壹、概覽:GPT-4o是壹個端到端的新模型
GPT-4o在英文文本和代碼上與GPT-4Turbo的性能相匹配,在非英文文本上有了顯著提升,同時在API上速度更快,成本降低了50%。與現有模型相比,GPT-4o在視覺和音頻理解方面尤其更好。
根據OpenAI發布在官網的最新博客文章顯示,在GPT-4o之前,我們使用語音模式與ChatGPT對話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。為了實現這壹點,語音模式是由叁個獨立的模型組成的流水線:壹個簡單的模型將音頻轉錄為文本,GPT-3.5或GPT-4接收文本並輸出文本,第叁個簡單的模型將該文本再轉換回音頻。這個過程意味著主要的智能來源,GPT-4,丟失了很多信息,它不能直接觀察語調、多個說話者或背景噪音,也不能輸出笑聲、歌唱或表達情感。
GPT-4o,是單獨訓練的新模型,可以端到端地處理文本、視覺和音頻,這意味著所有輸入和輸出都由同壹個神經網絡處理。
GPT-4o並不是第壹個端到端多模態模型。早在去年拾贰月,谷歌就已經發布了他們的Gemini模型。後續業界也壹直判斷OpenAI也會遵從大壹統模型的模式,最終開發出端到端的多模態模式。
肆個月過去了,OpenAI的大壹統模型總算閃亮登場。還比谷歌的多了語音這壹模態。
更重要的是,雖然大壹統模型是谷歌先發,但OpenAI今天展示了壹個更“真”的多模態模型到底應該達到什麼水平。
贰、新產品能力——魔法背後的魔法
1、魔法的基礎:壹體化多模態的多模態模型。傳統文本、代碼等推理能力沒有質的提升,但音頻視覺等能力達到新標准。
作為壹個壹體化的多模態模型,GPT-4o在傳統基准測試中,文本推理和編程能力上達到GPT-4Turbo水平,而在多語言、語音識別、語音翻譯、視覺理解等方面創下新紀錄。多模態能力的平均分高,是這個模型“魔法”能力的基礎。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:
OpenAI新模型: 有情緒的AI出現了