在 NVIDIAGTC2026 大会上,理想汽车发布下一代自动驾驶基础模型 MindVLA-o1。CEO 李想表示,该模型基于自研 " 原生 3DViT" 三维视觉编码器,首次让 AI 在真实三维空间中理解环境,而非依赖传统 2D 视频还原 3D 信息。他指出,当前自动驾驶进展缓慢,是因为 AI 缺乏类似人类儿童期建立的 3D 物理世界认知。新模型通过高分辨率多视角视觉,在编码阶段统一处理空间几何与语义信息,并结合激光雷达作为高精度标定工具,实现 500 米以上稳定感知。依托自研马赫芯片(算力达上一代 3 倍),MindVLA-o1 将空间理解、推理与驾驶行为融合,具备 " 多模态思考 " 能力,可模拟未来场景再决策。李想强调,该基座模型不仅用于自动驾驶,还将拓展至机器人等领域,成为通用物理世界智能体—— " 自动驾驶,只是物理 AI 的起点 "。


登录后才可以发布评论哦
打开小程序可以发布评论哦