高盛跑了一圈中国机器人公司,结论是…

2026-06-04 | 来源: MIT科技评论 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

5月18日至22日，高盛分析师 Jacqueline Du 带队密集走访了 14 家中国机器人公司。先是在香港 Asia Communacopia + Technology 大会上见了一批，随后连续 3 天在深圳和北京展开一轮中国 AI 机器人之旅。

这 14 家公司覆盖了市面上各类赛道上的代表公司：从做触觉传感器的戴盟机器人，到已有万台交付目标的优必选；从做 3D 视觉的梅卡曼德，到刚在 RoboChallenge 上登顶的千寻智能；还包括银河通用、星海图、极智嘉、逐际动力、灵心巧手、帕西尼、众擎机器人、越疆科技、埃斯顿、自变量机器人。

在随后于 5 月 26 日发出的研报里，高盛用了一个克制但明确的判断：行业正在向商业化现实更进一步，但投资者需要耐心。

轮子更好用

高盛在调研中注意到一个很难忽略的现象：很多玩家正在选择轮式底盘加两到三指夹爪，而不是双足加五指灵巧手。

星海图管理层明确表示，轮式机器人配夹爪是当下更合理的选择，能覆盖约 90% 的工业应用场景。其 VLA（Vision-Language-Action，视觉-语言-动作模型）执行速度已达到人类的 80% 到 90%。越疆科技的估计是，工业需求中约 50% 可以靠机械臂解决，20% 到 30% 靠轮式人形机器人，只有剩下的 20% 到 30% 才真正需要双足。

持同样判断的公司不在少数。千寻智能也把五指灵巧手排除在了近期路线图之外，理由很简单：寿命短、成本高。三指夹爪正在测试中，即将投入实际数据采集。

不过，几乎没有一家公司会在口头上否定双足的终极价值。越疆称双足是“最终的最高泛化形态”，星海图也不排除未来做双足。但在 2026 年这个时间节点上，行业的脚正踩在轮子上。

与形态选择同步变化的是模型架构。关于具身智能模型的讨论已经不再是“VLA 万能论”。VLA 负责策略生成和动作输出，但独立运作时缺乏对执行后果的预判能力。高盛观察到，越来越多公司正在将世界模型（World Model）作为 VLA 的功能性配合层，用于下一状态预测、动作提交前验证，以及在不确定环境下增强鲁棒性。星海图、银河通用、千寻智能和众擎机器人都明确表达了这一方向。

卧安机器人 5 月 21 日刚发布的 OneModel 1.7，用了一个“潜在世界动作模型”（latent world action model），把世界模型的泛化能力和 VLA 的执行能力组合在一起，另外还加入一个“成功记忆层”，用于回溯此前的成功执行。

千寻智能走的是潜在预测路线，不做逐帧生成。其 Spirit v1.5 今年 1 月开源后，在 RoboChallenge 的 Table30 上拿到 66.09 分和 50.33% 成功率，是首个超越 Pi0.5 的中国开源具身模型。

与此同时，模型规模也在膨胀。高盛称，行业讨论已经从此前单个几十亿参数级的预训练系统，转向 40B 到 80B 参数量级的多模态栈。但多家公司强调，这些更大规模的模型组合离部署级质量还有多轮迭代的距离。

另一个新变量是触觉。VTLA（Vision-Tactile-Language-Action，视觉-触觉-语言-动作模型）正在成为部分公司的差异化方向。戴盟机器人的核心策略是做触觉小模型，作为插件层接入其他 VLA 框架。帕西尼计划下月发布一个以触觉为主导的 VTLA 模型，用来补足视觉为主的方案。两家的判断一致：在物理交互质量要求高的场景中，光靠“看”不够，还需要“摸”。

谁能量产数据，谁就拿到入场券

[加西网正招聘多名全职sales 待遇优] 无评论不新闻，发表一下您的意见吧

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

专家专栏

工具

当前会员

高盛跑了一圈中国机器人公司,结论是…

意见