萬億具身智能賽道,被數據卡住了

當前,通用人工智能的討論逐漸從文本與圖像轉向物理世界,具身智能——賦予AI以物理身體,使其能感知、理解和交互真實環境,而這些正成為全球科技競賽的下壹個關鍵戰場。
然而,與語言模型時代“數據天然存在”的繁榮景象不同,具身智能的“大腦”模型正陷入壹場前所未有的“數據饑渴”。訓練壹個能在復雜、長時序任務中泛化的具身智能大腦,需要的不再是萬億級的文本Token,而是高質量、多模態、時空對齊的“人類行為數據”。這背後,是壹場從硬件架構、數據采集到處理范式的系統性革命。
資本熱追,但仍不“完美”
據國務院發展研究中心?預測,中國具身智能2030年達4000億元人民幣,2035年突破萬億元。與此同時,中國信通院?《具身智能發展報告(2025年)》中,首次將具身智能納入國家未來產業重點,2025年全球市場規模195.25億元人民幣。
2026年開年僅前叁個月,國內具身智能賽道融資規模已近300億元,融資事件同比增長63%。光輪智能斬獲超5億美元融資,創下國內該領域融資紀錄;逐際動力完成2億美元B輪融資,估值超過10億美元;星海圖再獲20億元B+輪融資——資本正以加速度湧入這條賽道。
與賽道火熱相對的,具身智能在真正走進生活,走進產業的過程中,卻並不是壹帆風順。英特爾研究院副總裁、英特爾中國研究院院長宋繼強曾明確指出:“當前具身智能的發展,正處於‘提升能力上限’與‘保障能力下限’的雙重攻堅期。大家都在展示機器人的智能能力,但很少有人關注它表現不佳時該怎麼辦——這正是產業化必須跨越的鴻溝”。
雖然我們已經有了諸如宇樹科技、銀河通用這些具身智能“本體”的制造商,他們造的機器人已經具備了充分的靈活度,能完成翻跟斗、跳舞等“表演”,但這些技術的背後更多的是通過提前預編輯好的程序執行的。換句話說,雖然當前的具身智能“小腦”已經足夠發達,但在“大腦”層面,如何能讓機器人更具有“活人感”,更像人壹樣,通過自主思維去執行指令,是接下來產業關注的焦點。
對此,簡智新創聯合創始人朱雁鳴告訴筆者:“今天大家看到的所有具身智能公司,其實它們真正模型化的能力,仍然停留在壹些非常短時序的簡單任務上,比如疊衣服、倒水、拿杯子。” 這揭示了當前產業的普遍現狀:演示驚艷,但實用尚遠。這些精心設計的演示任務,往往在受控環境下完成,距離能夠應對家庭、工廠、物流等真實場景中復雜、多變、長鏈條的任務要求,還有巨大差距。
朱雁鳴認為,當前具身模型在學術上仍需突破,而在產業化和商業化上的差距更大。這種差距的核心在於,現有模型缺乏對物理世界的深刻理解和魯棒交互能力。去年行業普遍推崇的VLP(視覺-語言-規劃)路徑,其底層是語言模型,擅長基於文本指令進行規劃,但其生成的行動“本質上只是基於語言規劃出的軌跡和行為”,與真實物理世界中“認知-行動-獲得物理反饋-產生新認知”的持續閉環相去甚遠。
因此,產業共識正在轉向構建 “世界模型”。世界模型的核心是讓AI理解底層的物理規律,如摩擦力、剛體動力學、空間關系等,而不僅僅是進行語言描述下的軌跡規劃。這標志著具身智能的發展從“模仿語言邏輯”進入“學習物理法則”的深水區。
這個過程中,壹個有趣的趨勢是:大量智能駕駛(智駕)領域的人才湧入具身智能賽道,簡智機器人核心成員便多來自智駕背景。朱雁鳴指出,這種遷移並非偶然,而是因為兩者在技術棧(如視覺-語言-動作模型VLA、環境模擬)和產品方法論上存在深刻共鳴。更重要的是,智駕領域所錘煉出的 “數據驅動閉環” 的產品迭代架構,即“通過真實數據持續訓練、測試和優化模型”,正是當前具身智能從演示走向實用所亟需的工程化能力。智駕從業者對物理環境交互反饋、系統測試與迭代的實踐經驗,能夠加速具身智能產品的開發進程。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



