昊梵体育网

在英伟达 GTC 2026论坛上,理想团队讲得很直接,VLA不仅可以用来控制车辆

在英伟达 GTC 2026论坛上,理想团队讲得很直接,VLA不仅可以用来控制车辆,也能够扩展到机器人。

这相当于是对自动驾驶的重新定位,智驾不再是终点,而是整个物理世界AI体系里的一个起点。

以前大家做自动驾驶更像是在做一道专项题,现在开始有人想做一套通用能力。

如果换个角度看,车本身就是一个标准化程度最高的大号机器人,

有传感器、有执行系统、环境相对可控,很像一个训练场。

先把能力在这里练出来,再往更复杂的世界扩展。

理想最近在讲的具身智能,其实核心就是这件事,

不再是单独只做一辆会开车的司机,而是在搭一个可以迁移到不同「身体」上的大脑,具备物理世界的通用能力。

从车,到人形机器人,再到更多物理载体,本质是同一套能力的延伸。

这一代 MindVLA-o1 的核心变化,就在补这块基础能力,而不是只追求某个场景下的性能提升。

重点放在3D世界理解上,让模型从看2D图像,走向真正理解空间结构。

可以理解为,从看平面视频,变成脑子里有一个立体世界。

通过3D ViT去还原空间、语义和动态信息,再叠加多模态思考和隐空间里的世界模型,

系统开始具备一种更接近人的能力,在脑子里预演未来。

就像人走路时,会下意识判断地面高低、障碍物位置,而不是每一步都临时计算。

这一步的意义在于,一旦模型建立的是统一的三维认知,

而不是为驾驶特化的一套表达,它就具备了天然的迁移能力。

开车和做人形机器人的动作,本质差别只是一个在控制方向盘,一个在控制四肢,但背后的判断逻辑是共通的。

这也是为什么理想会把VLA往人形机器人延展。

模型不只是为「开车」服务,而是为「在物理世界行动」服务。

当数据引擎、模型结构、仿真体系和强化学习框架被打通之后,这套系统就不再局限在车上。

车上积累的数据可以训练机器人,机器人在复杂环境中的经验也可以反过来优化自动驾驶。

从工程角度看,这条路线更重,但一旦跑通,将会形成自动驾驶和具身智能的垂直整合的局面。

最终用一套基础模型,来驱动不同形态的具身智能。

所以从长期来看自动驾驶只是理想的第一站,而具身智能将会是理想的下一站。

真正的目标,是一个可以在不同物理载体之间迁移的通用智能体。

因此看待各家的技术范式路线时,更要看到背后的战略发展方向。

李想称机器人也用VLA李想称机器人也用VLA理想全能辅助驾驶来了理想发布下一代自动驾驶基础模型