陆续在骑行时候把张小珺采访谢赛宁的7小时访谈听完了，马拉松式访谈，天亮到天黑，最

陆续在骑行时候把张小珺采访谢赛宁的7小时访谈听完了，马拉松式访谈，天亮到天黑，最后晚上到补光都有点过曝了，哈哈。

我让Notebook LLM给输出了个全文总结，他对VLA和世界模型的看法，说得真好。大佬能把你的一些感觉，抽象总结，就很棒。

谢赛宁非常担心VLA的“语言”对视觉的“污染”，因为语言本质上只是一种带有目的性的交流工具，它高度抽象且缺乏对真实物理世界连续动态规律。仅仅基于语言模型去构建VLA系统，无法处理真实物理世界中连续、高维、有噪音的信号。

真正的世界模型旨在打造一个“预测性大脑”（predictive brain），需要具备几个核心能力：理解物理世界、拥有海量联想记忆、能够进行推理与规划（reason and plan）、能够做反事实与因果推断，并且系统需要足够安全可控。

在未来，语言模型将退化为一个简单的交流接口，而世界模型的基座可以轻易地被解码为语言L，被解码为V，也可以被轻易解码为某种A。

因此，未来的智能体虽然可能表现为某种“VLA的类似物”，但它的底层将是一个基于更强表征的世界模型架构，而不是现在的语言模型。机器人（Robotics）以及相关的动作控制，都将只是通用世界模型之下的一个极其重要的下游垂直应用。

昊梵体育网