高盛跑了壹圈中國機器人公司,結論是…
5月18日至22日,高盛分析師 Jacqueline Du 帶隊密集走訪了 14 家中國機器人公司。先是在香港 Asia Communacopia + Technology 大會上見了壹批,隨後連續 3 天在深圳和北京展開壹輪中國 AI 機器人之旅。
這 14 家公司覆蓋了市面上各類賽道上的代表公司:從做觸覺傳感器的戴盟機器人,到已有萬台交付目標的優必選;從做 3D 視覺的梅卡曼德,到剛在 RoboChallenge 上登頂的千尋智能;還包括銀河通用、星海圖、極智嘉、逐際動力、靈心巧手、帕西尼、眾擎機器人、越疆科技、埃斯頓、自變量機器人。
在隨後於 5 月 26 日發出的研報裡,高盛用了壹個克制但明確的判斷:行業正在向商業化現實更進壹步,但投資者需要耐心。
輪子更好用
高盛在調研中注意到壹個很難忽略的現象:很多玩家正在選擇輪式底盤加兩到叁指夾爪,而不是雙足加伍指靈巧手。
星海圖管理層明確表示,輪式機器人配夾爪是當下更合理的選擇,能覆蓋約 90% 的工業應用場景。其 VLA(Vision-Language-Action,視覺-語言-動作模型)執行速度已達到人類的 80% 到 90%。越疆科技的估計是,工業需求中約 50% 可以靠機械臂解決,20% 到 30% 靠輪式人形機器人,只有剩下的 20% 到 30% 才真正需要雙足。
持同樣判斷的公司不在少數。千尋智能也把伍指靈巧手排除在了近期路線圖之外,理由很簡單:壽命短、成本高。叁指夾爪正在測試中,即將投入實際數據采集。
不過,幾乎沒有壹家公司會在口頭上否定雙足的終極價值。越疆稱雙足是“最終的最高泛化形態”,星海圖也不排除未來做雙足。但在 2026 年這個時間節點上,行業的腳正踩在輪子上。
與形態選擇同步變化的是模型架構。關於具身智能模型的討論已經不再是“VLA 萬能論”。VLA 負責策略生成和動作輸出,但獨立運作時缺乏對執行後果的預判能力。高盛觀察到,越來越多公司正在將世界模型(World Model)作為 VLA 的功能性配合層,用於下壹狀態預測、動作提交前驗證,以及在不確定環境下增強魯棒性。星海圖、銀河通用、千尋智能和眾擎機器人都明確表達了這壹方向。
臥安機器人 5 月 21 日剛發布的 OneModel 1.7,用了壹個“潛在世界動作模型”(latent world action model),把世界模型的泛化能力和 VLA 的執行能力組合在壹起,另外還加入壹個“成功記憶層”,用於回溯此前的成功執行。
千尋智能走的是潛在預測路線,不做逐幀生成。其 Spirit v1.5 今年 1 月開源後,在 RoboChallenge 的 Table30 上拿到 66.09 分和 50.33% 成功率,是首個超越 Pi0.5 的中國開源具身模型。
與此同時,模型規模也在膨脹。高盛稱,行業討論已經從此前單個幾拾億參數級的預訓練系統,轉向 40B 到 80B 參數量級的多模態棧。但多家公司強調,這些更大規模的模型組合離部署級質量還有多輪迭代的距離。
另壹個新變量是觸覺。VTLA(Vision-Tactile-Language-Action,視覺-觸覺-語言-動作模型)正在成為部分公司的差異化方向。戴盟機器人的核心策略是做觸覺小模型,作為插件層接入其他 VLA 框架。帕西尼計劃下月發布壹個以觸覺為主導的 VTLA 模型,用來補足視覺為主的方案。兩家的判斷壹致:在物理交互質量要求高的場景中,光靠“看”不夠,還需要“摸”。

誰能量產數據,誰就拿到入場券
[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
這 14 家公司覆蓋了市面上各類賽道上的代表公司:從做觸覺傳感器的戴盟機器人,到已有萬台交付目標的優必選;從做 3D 視覺的梅卡曼德,到剛在 RoboChallenge 上登頂的千尋智能;還包括銀河通用、星海圖、極智嘉、逐際動力、靈心巧手、帕西尼、眾擎機器人、越疆科技、埃斯頓、自變量機器人。
在隨後於 5 月 26 日發出的研報裡,高盛用了壹個克制但明確的判斷:行業正在向商業化現實更進壹步,但投資者需要耐心。
輪子更好用
高盛在調研中注意到壹個很難忽略的現象:很多玩家正在選擇輪式底盤加兩到叁指夾爪,而不是雙足加伍指靈巧手。
星海圖管理層明確表示,輪式機器人配夾爪是當下更合理的選擇,能覆蓋約 90% 的工業應用場景。其 VLA(Vision-Language-Action,視覺-語言-動作模型)執行速度已達到人類的 80% 到 90%。越疆科技的估計是,工業需求中約 50% 可以靠機械臂解決,20% 到 30% 靠輪式人形機器人,只有剩下的 20% 到 30% 才真正需要雙足。
持同樣判斷的公司不在少數。千尋智能也把伍指靈巧手排除在了近期路線圖之外,理由很簡單:壽命短、成本高。叁指夾爪正在測試中,即將投入實際數據采集。
不過,幾乎沒有壹家公司會在口頭上否定雙足的終極價值。越疆稱雙足是“最終的最高泛化形態”,星海圖也不排除未來做雙足。但在 2026 年這個時間節點上,行業的腳正踩在輪子上。
與形態選擇同步變化的是模型架構。關於具身智能模型的討論已經不再是“VLA 萬能論”。VLA 負責策略生成和動作輸出,但獨立運作時缺乏對執行後果的預判能力。高盛觀察到,越來越多公司正在將世界模型(World Model)作為 VLA 的功能性配合層,用於下壹狀態預測、動作提交前驗證,以及在不確定環境下增強魯棒性。星海圖、銀河通用、千尋智能和眾擎機器人都明確表達了這壹方向。
臥安機器人 5 月 21 日剛發布的 OneModel 1.7,用了壹個“潛在世界動作模型”(latent world action model),把世界模型的泛化能力和 VLA 的執行能力組合在壹起,另外還加入壹個“成功記憶層”,用於回溯此前的成功執行。
千尋智能走的是潛在預測路線,不做逐幀生成。其 Spirit v1.5 今年 1 月開源後,在 RoboChallenge 的 Table30 上拿到 66.09 分和 50.33% 成功率,是首個超越 Pi0.5 的中國開源具身模型。
與此同時,模型規模也在膨脹。高盛稱,行業討論已經從此前單個幾拾億參數級的預訓練系統,轉向 40B 到 80B 參數量級的多模態棧。但多家公司強調,這些更大規模的模型組合離部署級質量還有多輪迭代的距離。
另壹個新變量是觸覺。VTLA(Vision-Tactile-Language-Action,視覺-觸覺-語言-動作模型)正在成為部分公司的差異化方向。戴盟機器人的核心策略是做觸覺小模型,作為插件層接入其他 VLA 框架。帕西尼計劃下月發布壹個以觸覺為主導的 VTLA 模型,用來補足視覺為主的方案。兩家的判斷壹致:在物理交互質量要求高的場景中,光靠“看”不夠,還需要“摸”。

誰能量產數據,誰就拿到入場券
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



