劉潤:下壹個萬億機會,正在出現(圖
如何做到呢?答案之壹,或許就是:強化學習。


9年後,愛因斯坦級別的AI要來了?
OpenAI的Dan Roberts說,或許:9年後,模型就能獨立發現廣義相對論級別的成果。
9年後。愛因斯坦級別的AI。這太誇張了。
憑什麼這麼說?
這要從ChatGPT發布的幾個模型說起。從4o模型,到o1,再到o3。他們的推理能力,表現得越來越好。o3,能在1分鍾的時間內,完成Dan Roberts要花3小時才能計算出來的物理問題。
為什麼會這樣?
Dan Roberts認為,答案可能是:強化學習。
如果說預訓練,是讓AI模型通過“提前預習”,學到了海量知識,那麼強化學習,就是讓AI在不斷的實踐、試錯和獲得反饋中,自己摸索出解決問題的方法。4o模型,幾乎全部是預訓練計算。o1裡,有了那麼壹些強化學習計算。o3裡,強化計算的占比進壹步增加了。

所以未來,Open AI,打算繼續加碼強化學習。
他們相信,強化學習,是讓AI從“博學的學生”,進化為能夠獨立思考、主動探索的“研究員”的關鍵路徑。
以前,大家覺得強化學習,只是預訓練這個大蛋糕上的壹顆小櫻桃,但OpenAI,打算用“巨大的強化學習櫻桃”,壓垮整個蛋糕。

[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢


9年後,愛因斯坦級別的AI要來了?
OpenAI的Dan Roberts說,或許:9年後,模型就能獨立發現廣義相對論級別的成果。
9年後。愛因斯坦級別的AI。這太誇張了。
憑什麼這麼說?
這要從ChatGPT發布的幾個模型說起。從4o模型,到o1,再到o3。他們的推理能力,表現得越來越好。o3,能在1分鍾的時間內,完成Dan Roberts要花3小時才能計算出來的物理問題。
為什麼會這樣?
Dan Roberts認為,答案可能是:強化學習。
如果說預訓練,是讓AI模型通過“提前預習”,學到了海量知識,那麼強化學習,就是讓AI在不斷的實踐、試錯和獲得反饋中,自己摸索出解決問題的方法。4o模型,幾乎全部是預訓練計算。o1裡,有了那麼壹些強化學習計算。o3裡,強化計算的占比進壹步增加了。

所以未來,Open AI,打算繼續加碼強化學習。
他們相信,強化學習,是讓AI從“博學的學生”,進化為能夠獨立思考、主動探索的“研究員”的關鍵路徑。
以前,大家覺得強化學習,只是預訓練這個大蛋糕上的壹顆小櫻桃,但OpenAI,打算用“巨大的強化學習櫻桃”,壓垮整個蛋糕。

[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:



