昊梵体育网

你们有没有想过这个问题,为什么机器人在真实环境里这么容易出问题?其实不是它不够聪

你们有没有想过这个问题,为什么机器人在真实环境里这么容易出问题?

其实不是它不够聪明。现在的VLA模型,看图、理解指令、规划动作,这些能力已经相当不错了。

但你让它在工厂里真正跑起来,或者在旁边有人的情况下作业,就会发现各种状况,比如动作抖、反应慢、碰到意外就卡死。

直到最近,我看到智平方发布了NeuroVLA,才算想清楚了一部分。

1先说一个你可能没认真想过的问题:人在拧瓶盖的时候,大脑在做什么?

答案是:大脑其实什么都没做。

它只是发出了一个高层指令——"拧开那个瓶盖"。具体手指怎么用力、拧的过程中遇到阻力怎么调整、手滑了怎么应对,这些都不是大脑皮层管的事。

它们由小脑和脊髓层面的神经回路自动完成,快、准、低延迟,不占用"高层计算资源"。

这套分层机制是亿万年进化出来的,把需要快速响应的任务下沉到低层级处理,让高层级专心做复杂推理。

但传统VLA架构完全没有这个概念。现在主流的做法,是用一个统一的大模型同时处理所有事情:视觉理解、语言推理、运动控制、碰撞响应,全都塞进同一个模型。

但问题是,这些任务的时间尺度根本不在一个量级上。视觉语言推理通常需要几百毫秒,而运动控制和碰撞响应要求的响应时间是几十毫秒以内。

把这两类任务混在一起,结果是两头都不满意:高频控制任务抢占了推理资源,推理质量下降;而运动控制又因为等待推理而延迟增大,导致抖动、卡顿。

这个矛盾不是靠更大的模型能解决的,它是架构层面的根本性问题。

2智平方的解法,是把人的神经系统架构搬进来。

NeuroVLA将整个计算流程分成了三层:皮质模块(仿大脑皮层)、小脑模块(仿小脑)、脊髓模块(仿脊髓)。

最上层运行在GPU上,专门处理视觉和语言输入,生成抽象的"意图向量",告诉下层"要做什么",但不参与具体怎么执行。

中间层是一个高频自适应控制器,以每秒数百次的频率读取机器人的关节角度、速度和力传感器数据。

它做两件事:一是过滤掉上层指令里可能引起抖动的噪声,二是根据力传感器的实时反馈调整运动轨迹。

如果手腕传感器感知到"碰到东西了",它能立刻局部修正路径,不需要等待视觉系统重新感知和规划。

最底层运行在专用的神经形态芯片上,用的是脉冲神经网络(SNN)。脉冲神经网络是事件驱动的,只有输入发生变化时神经元才"放电"消耗能量,静止时几乎不耗能。

整个脊髓层在运行时平均功耗只有0.4瓦,大概是手机播放视频时功耗的五分之一。

而且,这里内置了一条硬连线的安全反射通路。一旦力传感器检测到突发冲击,信号可以在20毫秒内直接触发预设的保护动作,完全绕过需要语义理解的上层回路。

这条通路不经过"思考",就是反射。

3NeuroVLA不是凭空出现的,要理解它,需要把时间线拉长一点看。

2025年11月,智平方联合北大发布了Video2Act。这是一个将世界模型深度融合进VLA的具身大模型,让机器人在执行动作之前,先在内部预演一遍未来状态的变化,再基于这种预演做决策。

当时行业里关于"VLA和世界模型谁更重要"争论很多,各种观点都有。

智平方的判断是:世界模型不是VLA的替代,而是它的增强。两者可以融合,而且应该在模型内部深度融合,而不是外挂。

这个技术判断随后得到了学界的验证。2026年4月30日,由南洋理工大学、加州大学伯克利分校、斯坦福大学、牛津大学联合完成的《World Model for Robot Learning: A Comprehensive Survey》正式上线。

这是目前全球首篇系统梳理"世界模型+VLA+机器人学习"技术路线的综述性工作,它不只是一篇论文,它的存在本身就在定义这个领域的技术坐标。

在这份综述里,Video2Act被列入"世界模型+VLA融合路线"的代表性方法序列,在"World Model for Policy"章节被单独分析。

论文的评价是,它构建了"预测与控制之间更紧凑、更稳定的桥梁",代表了一个关键的范式转变:

从生成完整未来帧的笨重方式,进化为从潜在空间提取控制特征、注入动作头的轻量化新范式。

4很多人都说,智平方是最像特斯拉的公司。

智平方从创立就选择了端到端VLA的技术路线。那是2023年初,具身智能概念刚刚开始热起来,全球创业团队里选这条路的,只有特斯拉机器人和智平方两家。

这种选择在当时看来并不是显而易见的正确,更像是一种判断和押注。

而如今,端到端VLA已经成为行业共识,当初的判断被时间证明是对的。

另一个相似点在量产能力。这个不常被提到,但对机器人公司来说其实是很关键的能力。

AI能力再强,如果产品做不出来、做出来交不了货、交货了质量不稳定,还是白搭。智平方的创始团队经历过多轮智能终端的大规模量产,这种工程基因在机器人领域的创业公司里非常少见。

智平方在VLA这条线上的路径非常清晰:端到端VLA,融合世界模型,引入类脑架构。

每一步都是在上一步的基础上往前推,没有横跳,没有突然转向。

不过,这套机制从生物系统借鉴来,但生物系统的鲁棒性是亿万年自然选择的结果,工程实现的鲁棒性要达到同等水平,还需要更多真实场景的验证。

机器人要进入真实的人机协作场景,快速安全响应不能依赖"模型刚好想到了",必须是架构层面保证的能力。这个区别,比功能点多一两个要重要得多。