高盛跑了一圈中国机器人公司,结论是…
5月18日至22日,高盛分析师 Jacqueline Du 带队密集走访了 14 家中国机器人公司。先是在香港 Asia Communacopia + Technology 大会上见了一批,随后连续 3 天在深圳和北京展开一轮中国 AI 机器人之旅。
这 14 家公司覆盖了市面上各类赛道上的代表公司:从做触觉传感器的戴盟机器人,到已有万台交付目标的优必选;从做 3D 视觉的梅卡曼德,到刚在 RoboChallenge 上登顶的千寻智能;还包括银河通用、星海图、极智嘉、逐际动力、灵心巧手、帕西尼、众擎机器人、越疆科技、埃斯顿、自变量机器人。
在随后于 5 月 26 日发出的研报里,高盛用了一个克制但明确的判断:行业正在向商业化现实更进一步,但投资者需要耐心。
轮子更好用
高盛在调研中注意到一个很难忽略的现象:很多玩家正在选择轮式底盘加两到三指夹爪,而不是双足加五指灵巧手。
星海图管理层明确表示,轮式机器人配夹爪是当下更合理的选择,能覆盖约 90% 的工业应用场景。其 VLA(Vision-Language-Action,视觉-语言-动作模型)执行速度已达到人类的 80% 到 90%。越疆科技的估计是,工业需求中约 50% 可以靠机械臂解决,20% 到 30% 靠轮式人形机器人,只有剩下的 20% 到 30% 才真正需要双足。
持同样判断的公司不在少数。千寻智能也把五指灵巧手排除在了近期路线图之外,理由很简单:寿命短、成本高。三指夹爪正在测试中,即将投入实际数据采集。
不过,几乎没有一家公司会在口头上否定双足的终极价值。越疆称双足是“最终的最高泛化形态”,星海图也不排除未来做双足。但在 2026 年这个时间节点上,行业的脚正踩在轮子上。
与形态选择同步变化的是模型架构。关于具身智能模型的讨论已经不再是“VLA 万能论”。VLA 负责策略生成和动作输出,但独立运作时缺乏对执行后果的预判能力。高盛观察到,越来越多公司正在将世界模型(World Model)作为 VLA 的功能性配合层,用于下一状态预测、动作提交前验证,以及在不确定环境下增强鲁棒性。星海图、银河通用、千寻智能和众擎机器人都明确表达了这一方向。
卧安机器人 5 月 21 日刚发布的 OneModel 1.7,用了一个“潜在世界动作模型”(latent world action model),把世界模型的泛化能力和 VLA 的执行能力组合在一起,另外还加入一个“成功记忆层”,用于回溯此前的成功执行。
千寻智能走的是潜在预测路线,不做逐帧生成。其 Spirit v1.5 今年 1 月开源后,在 RoboChallenge 的 Table30 上拿到 66.09 分和 50.33% 成功率,是首个超越 Pi0.5 的中国开源具身模型。
与此同时,模型规模也在膨胀。高盛称,行业讨论已经从此前单个几十亿参数级的预训练系统,转向 40B 到 80B 参数量级的多模态栈。但多家公司强调,这些更大规模的模型组合离部署级质量还有多轮迭代的距离。
另一个新变量是触觉。VTLA(Vision-Tactile-Language-Action,视觉-触觉-语言-动作模型)正在成为部分公司的差异化方向。戴盟机器人的核心策略是做触觉小模型,作为插件层接入其他 VLA 框架。帕西尼计划下月发布一个以触觉为主导的 VTLA 模型,用来补足视觉为主的方案。两家的判断一致:在物理交互质量要求高的场景中,光靠“看”不够,还需要“摸”。

谁能量产数据,谁就拿到入场券
[加西网正招聘多名全职sales 待遇优]
无评论不新闻,发表一下您的意见吧
这 14 家公司覆盖了市面上各类赛道上的代表公司:从做触觉传感器的戴盟机器人,到已有万台交付目标的优必选;从做 3D 视觉的梅卡曼德,到刚在 RoboChallenge 上登顶的千寻智能;还包括银河通用、星海图、极智嘉、逐际动力、灵心巧手、帕西尼、众擎机器人、越疆科技、埃斯顿、自变量机器人。
在随后于 5 月 26 日发出的研报里,高盛用了一个克制但明确的判断:行业正在向商业化现实更进一步,但投资者需要耐心。
轮子更好用
高盛在调研中注意到一个很难忽略的现象:很多玩家正在选择轮式底盘加两到三指夹爪,而不是双足加五指灵巧手。
星海图管理层明确表示,轮式机器人配夹爪是当下更合理的选择,能覆盖约 90% 的工业应用场景。其 VLA(Vision-Language-Action,视觉-语言-动作模型)执行速度已达到人类的 80% 到 90%。越疆科技的估计是,工业需求中约 50% 可以靠机械臂解决,20% 到 30% 靠轮式人形机器人,只有剩下的 20% 到 30% 才真正需要双足。
持同样判断的公司不在少数。千寻智能也把五指灵巧手排除在了近期路线图之外,理由很简单:寿命短、成本高。三指夹爪正在测试中,即将投入实际数据采集。
不过,几乎没有一家公司会在口头上否定双足的终极价值。越疆称双足是“最终的最高泛化形态”,星海图也不排除未来做双足。但在 2026 年这个时间节点上,行业的脚正踩在轮子上。
与形态选择同步变化的是模型架构。关于具身智能模型的讨论已经不再是“VLA 万能论”。VLA 负责策略生成和动作输出,但独立运作时缺乏对执行后果的预判能力。高盛观察到,越来越多公司正在将世界模型(World Model)作为 VLA 的功能性配合层,用于下一状态预测、动作提交前验证,以及在不确定环境下增强鲁棒性。星海图、银河通用、千寻智能和众擎机器人都明确表达了这一方向。
卧安机器人 5 月 21 日刚发布的 OneModel 1.7,用了一个“潜在世界动作模型”(latent world action model),把世界模型的泛化能力和 VLA 的执行能力组合在一起,另外还加入一个“成功记忆层”,用于回溯此前的成功执行。
千寻智能走的是潜在预测路线,不做逐帧生成。其 Spirit v1.5 今年 1 月开源后,在 RoboChallenge 的 Table30 上拿到 66.09 分和 50.33% 成功率,是首个超越 Pi0.5 的中国开源具身模型。
与此同时,模型规模也在膨胀。高盛称,行业讨论已经从此前单个几十亿参数级的预训练系统,转向 40B 到 80B 参数量级的多模态栈。但多家公司强调,这些更大规模的模型组合离部署级质量还有多轮迭代的距离。
另一个新变量是触觉。VTLA(Vision-Tactile-Language-Action,视觉-触觉-语言-动作模型)正在成为部分公司的差异化方向。戴盟机器人的核心策略是做触觉小模型,作为插件层接入其他 VLA 框架。帕西尼计划下月发布一个以触觉为主导的 VTLA 模型,用来补足视觉为主的方案。两家的判断一致:在物理交互质量要求高的场景中,光靠“看”不够,还需要“摸”。

谁能量产数据,谁就拿到入场券
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
高盛跑了一圈中国机器人公司,结论是…