[馬斯克] 馬斯克 OpenAI Anthropic全盯上同壹件事 AI巨頭集體轉向
所以是什麼數據?如果你也去看 Theo 這條視頻,他會講得非常清楚。但為了節約時間,我們在這裡簡單概括壹下:
我們和 AI 的對話是壹來壹回的,你提出問題/需求,它給你解答;coding agent 同理,只不過返回的是代碼。

壹次高質量的對話,整個過程,包括用戶提示、模型思考、agent 規劃、輸出代碼、驗證——所有這些東西合起來,可以稱為壹個完整的 Agentic Loop——就成為了高價值的訓練數據,再喂給模型去進行強化學習,就能進壹步提高模型在實戰場景下的表現水准。

Cursor 有的,SpaceX 想要的,就是這些數據。
可這些數據從哪裡來呢?
答案很簡單:作為模型廠商,這種高質量數據的最直接來源,只能是你自己開發的 coding agent 產品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
現在你應該明白了,為什麼被 Anthropic「封號」之後,吳宇懷會在全員信裡提出開發 xAI 自己的 coding 產品和模型這件事了。這件事 xAI 在當時已經看清楚了:
沒有自己的編碼產品,就沒有高質量的強化學習數據;沒有高質量的數據,就訓練不出真正實戰能力強的 coding 模型。
雖然有點暴論,但現在我們可以點題了:模型廠商想做出來真正能打的編程模型,做自己的 coding agent 產品是唯壹的路徑。
3.
大語言模型像個水晶球,用全網的語料訓練出來,似乎能夠解答萬物,但並不代表它在所有問題上都能給出高質量的答案。
用 GitHub 上數以億計的代碼條目訓練,當然也能訓練出 coding 模型。這是「學習結果」的邏輯,也是沒問題的。畢竟編碼任務的結果是可以驗證的:代碼能不能運行,測試能否通過,結果擺在那裡。
但是,通往結果的過程,是壹個涉及多步驟決策、錯誤糾正、意圖對齊的復雜鏈條。每壹次用戶的接受、拒絕、補全、撤銷、追問、甚至當模型好幾次都搞不定或者完全搞錯時的辱罵——都是這壹鏈條上的過程信號。

[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
我們和 AI 的對話是壹來壹回的,你提出問題/需求,它給你解答;coding agent 同理,只不過返回的是代碼。
壹次高質量的對話,整個過程,包括用戶提示、模型思考、agent 規劃、輸出代碼、驗證——所有這些東西合起來,可以稱為壹個完整的 Agentic Loop——就成為了高價值的訓練數據,再喂給模型去進行強化學習,就能進壹步提高模型在實戰場景下的表現水准。
Cursor 有的,SpaceX 想要的,就是這些數據。
可這些數據從哪裡來呢?
答案很簡單:作為模型廠商,這種高質量數據的最直接來源,只能是你自己開發的 coding agent 產品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
現在你應該明白了,為什麼被 Anthropic「封號」之後,吳宇懷會在全員信裡提出開發 xAI 自己的 coding 產品和模型這件事了。這件事 xAI 在當時已經看清楚了:
沒有自己的編碼產品,就沒有高質量的強化學習數據;沒有高質量的數據,就訓練不出真正實戰能力強的 coding 模型。
雖然有點暴論,但現在我們可以點題了:模型廠商想做出來真正能打的編程模型,做自己的 coding agent 產品是唯壹的路徑。
3.
大語言模型像個水晶球,用全網的語料訓練出來,似乎能夠解答萬物,但並不代表它在所有問題上都能給出高質量的答案。
用 GitHub 上數以億計的代碼條目訓練,當然也能訓練出 coding 模型。這是「學習結果」的邏輯,也是沒問題的。畢竟編碼任務的結果是可以驗證的:代碼能不能運行,測試能否通過,結果擺在那裡。
但是,通往結果的過程,是壹個涉及多步驟決策、錯誤糾正、意圖對齊的復雜鏈條。每壹次用戶的接受、拒絕、補全、撤銷、追問、甚至當模型好幾次都搞不定或者完全搞錯時的辱罵——都是這壹鏈條上的過程信號。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦:



