刚看完理想在GTC的发布,说实话有点激动。之前总说端到端,VLA是行业趋势,但总觉得差点意思。
这次理想发布的MindVLA-o1,真的让我感觉,车开始睁眼看世界了。传统的鸟瞰图方案和占用网络这两种方案,本质上都缺乏对真实物理世界的三维理解。
理想的方案是直接通过视频流,还原出一个完整的3D空间,这相当于让AI拥有了真正的视觉能力。
MindVLA-o1让我看到,真正能理解、能行动的硅基生命,可能正在从一个会接球的孩子开始进化。
当AI真正理解了3D空间,理解了物理世界的规则,它就不再是辅助你的工具,而是和你生活在同一维度的伙伴。
这可能是今年GTC上,最被低估但又最值得记住的一个发布,期待上路实测的那天。理想全能辅助驾驶来了


