昊梵体育网

陆续在骑行时候把张小珺采访谢赛宁的7小时访谈听完了,马拉松式访谈,天亮到天黑,最

陆续在骑行时候把张小珺采访谢赛宁的7小时访谈听完了,马拉松式访谈,天亮到天黑,最后晚上到补光都有点过曝了,哈哈。

我让Notebook LLM给输出了个全文总结,他对VLA和世界模型的看法,说得真好。大佬能把你的一些感觉,抽象总结,就很棒。

谢赛宁非常担心VLA的“语言”对视觉的“污染”,因为语言本质上只是一种带有目的性的交流工具,它高度抽象且缺乏对真实物理世界连续动态规律。仅仅基于语言模型去构建VLA系统,无法处理真实物理世界中连续、高维、有噪音的信号。

真正的世界模型旨在打造一个“预测性大脑”(predictive brain),需要具备几个核心能力:理解物理世界、拥有海量联想记忆、能够进行推理与规划(reason and plan)、能够做反事实与因果推断,并且系统需要足够安全可控。

在未来,语言模型将退化为一个简单的交流接口,而世界模型的基座可以轻易地被解码为语言L,被解码为V,也可以被轻易解码为某种A。

因此,未来的智能体虽然可能表现为某种“VLA的类似物”,但它的底层将是一个基于更强表征的世界模型架构,而不是现在的语言模型。机器人(Robotics)以及相关的动作控制,都将只是通用世界模型之下的一个极其重要的下游垂直应用。