在理想最新发布的这个MindVLA-o1基座模型下,李想认为: “激光雷达角色改变,不再是感知的核心,而更像是一把高精度的尺子,为视觉提供几何标定和近场空间约束” “真正决定感知上限的,不是传感器的物理线束,而是模型的表征能力” 还有,李想认为今天所有端到端系统的本质都是“看2D视频学开车”,而理想的3D ViT让模型一开始就工作在真实的三维世界里。 说实话,前天看理想发布这个新架构模型的时候,还有点云里雾里的感觉,现在仔细研究了一下李想昨天发的这番话,才算明白了点,感觉核心就是由2D到3D的转变,让模型能真正的理解现实物理世界…… 而至于激光雷达,只需明白核心还是模型。 不知道你们怎么看李想这段话? 其他不说,这个由2D视频到三维世界的转变,确实是之前没有关注过的信息。 看了个各家最新的技术路线讲解或PPT之后,现在有种清晰又混沌的错乱感……
