你们有没有想过这个问题，为什么机器人在真实环境里这么容易出问题？其实不是它不够聪

你们有没有想过这个问题，为什么机器人在真实环境里这么容易出问题？

其实不是它不够聪明。现在的VLA模型，看图、理解指令、规划动作，这些能力已经相当不错了。

但你让它在工厂里真正跑起来，或者在旁边有人的情况下作业，就会发现各种状况，比如动作抖、反应慢、碰到意外就卡死。

直到最近，我看到智平方发布了NeuroVLA，才算想清楚了一部分。

1先说一个你可能没认真想过的问题：人在拧瓶盖的时候，大脑在做什么？

答案是：大脑其实什么都没做。

它只是发出了一个高层指令——"拧开那个瓶盖"。具体手指怎么用力、拧的过程中遇到阻力怎么调整、手滑了怎么应对，这些都不是大脑皮层管的事。

它们由小脑和脊髓层面的神经回路自动完成，快、准、低延迟，不占用"高层计算资源"。

这套分层机制是亿万年进化出来的，把需要快速响应的任务下沉到低层级处理，让高层级专心做复杂推理。

但传统VLA架构完全没有这个概念。现在主流的做法，是用一个统一的大模型同时处理所有事情：视觉理解、语言推理、运动控制、碰撞响应，全都塞进同一个模型。

但问题是，这些任务的时间尺度根本不在一个量级上。视觉语言推理通常需要几百毫秒，而运动控制和碰撞响应要求的响应时间是几十毫秒以内。

把这两类任务混在一起，结果是两头都不满意：高频控制任务抢占了推理资源，推理质量下降；而运动控制又因为等待推理而延迟增大，导致抖动、卡顿。

这个矛盾不是靠更大的模型能解决的，它是架构层面的根本性问题。

2智平方的解法，是把人的神经系统架构搬进来。

NeuroVLA将整个计算流程分成了三层：皮质模块（仿大脑皮层）、小脑模块（仿小脑）、脊髓模块（仿脊髓）。

最上层运行在GPU上，专门处理视觉和语言输入，生成抽象的"意图向量"，告诉下层"要做什么"，但不参与具体怎么执行。

中间层是一个高频自适应控制器，以每秒数百次的频率读取机器人的关节角度、速度和力传感器数据。

它做两件事：一是过滤掉上层指令里可能引起抖动的噪声，二是根据力传感器的实时反馈调整运动轨迹。

如果手腕传感器感知到"碰到东西了"，它能立刻局部修正路径，不需要等待视觉系统重新感知和规划。

最底层运行在专用的神经形态芯片上，用的是脉冲神经网络（SNN）。脉冲神经网络是事件驱动的，只有输入发生变化时神经元才"放电"消耗能量，静止时几乎不耗能。

整个脊髓层在运行时平均功耗只有0.4瓦，大概是手机播放视频时功耗的五分之一。

而且，这里内置了一条硬连线的安全反射通路。一旦力传感器检测到突发冲击，信号可以在20毫秒内直接触发预设的保护动作，完全绕过需要语义理解的上层回路。

这条通路不经过"思考"，就是反射。

3NeuroVLA不是凭空出现的，要理解它，需要把时间线拉长一点看。

2025年11月，智平方联合北大发布了Video2Act。这是一个将世界模型深度融合进VLA的具身大模型，让机器人在执行动作之前，先在内部预演一遍未来状态的变化，再基于这种预演做决策。

当时行业里关于"VLA和世界模型谁更重要"争论很多，各种观点都有。

智平方的判断是：世界模型不是VLA的替代，而是它的增强。两者可以融合，而且应该在模型内部深度融合，而不是外挂。

这个技术判断随后得到了学界的验证。2026年4月30日，由南洋理工大学、加州大学伯克利分校、斯坦福大学、牛津大学联合完成的《World Model for Robot Learning: A Comprehensive Survey》正式上线。

这是目前全球首篇系统梳理"世界模型+VLA+机器人学习"技术路线的综述性工作，它不只是一篇论文，它的存在本身就在定义这个领域的技术坐标。

在这份综述里，Video2Act被列入"世界模型+VLA融合路线"的代表性方法序列，在"World Model for Policy"章节被单独分析。

论文的评价是，它构建了"预测与控制之间更紧凑、更稳定的桥梁"，代表了一个关键的范式转变：

从生成完整未来帧的笨重方式，进化为从潜在空间提取控制特征、注入动作头的轻量化新范式。

4很多人都说，智平方是最像特斯拉的公司。

智平方从创立就选择了端到端VLA的技术路线。那是2023年初，具身智能概念刚刚开始热起来，全球创业团队里选这条路的，只有特斯拉机器人和智平方两家。

这种选择在当时看来并不是显而易见的正确，更像是一种判断和押注。

而如今，端到端VLA已经成为行业共识，当初的判断被时间证明是对的。

另一个相似点在量产能力。这个不常被提到，但对机器人公司来说其实是很关键的能力。

AI能力再强，如果产品做不出来、做出来交不了货、交货了质量不稳定，还是白搭。智平方的创始团队经历过多轮智能终端的大规模量产，这种工程基因在机器人领域的创业公司里非常少见。

智平方在VLA这条线上的路径非常清晰：端到端VLA，融合世界模型，引入类脑架构。

每一步都是在上一步的基础上往前推，没有横跳，没有突然转向。

不过，这套机制从生物系统借鉴来，但生物系统的鲁棒性是亿万年自然选择的结果，工程实现的鲁棒性要达到同等水平，还需要更多真实场景的验证。

机器人要进入真实的人机协作场景，快速安全响应不能依赖"模型刚好想到了"，必须是架构层面保证的能力。这个区别，比功能点多一两个要重要得多。

昊梵体育网