黄仁勋的物理AI ChatGPT时刻，正被这家中国公司的“流式多模态”接棒

智东西

作者 | 王涵

编辑 | 漠影

" 物理 AI 的 ChatGPT 时刻已经到来。"

2026 年 1 月 5 日，拉斯维加斯 CES 展会，英伟达创始人兼 CEO 黄仁勋宣告 AI 正式进入新阶段。

在他看来，AI 的演进可以分为四个阶段：Perception AI、Generative AI、Agentic AI、Physical AI。当模型能够理解质量、摩擦、惯性、动量守恒，AI 才真正走出屏幕。他同时指出，要让机器人理解物理世界，不能仅靠单一模型，而是需要建立一整套智能系统。

黄仁勋描绘了未来愿景，但一个问题摆在了所有人面前——物理世界的 AI，到底需要什么样的技术能力？

AI 真正走向物理世界，机器人、无人机、安防摄像头、可穿戴设备这些场景，需要的不是回答问题，而是持续工作。物理 AI 最重要的，也就是主动执行的能力。

Om AI 联汇 CEO 兼首席科学家赵天成博士表示：" 之前整个业内对通用视觉智能的关注度偏低，大家可能更关注一些可以看秀的表演或操作场景。但通用视觉这个点是未来物理 AI 真正规模化应用落地必不可少的，而且可能是更加现实、更加直接的核心技术，会更广泛地应用到所有物理 AI 场景。"

通用视觉智能（General Vision Intelligence），即模型能像人一样持续观察环境、精准定位目标、自主驱动行动，且这一切必须在端侧完成。

近日发布的VLX 端侧流式多模态模型系列，正是这一路径的最新实践。

这是业界首次提出 " 流式多模态 " 这一全新模型架构。区别于传统模型 " 采集 - 上传 - 离线处理 " 的路径，VLX 系列面向物理世界中持续涌入的视频流，实现毫秒级实时感知，并首次在端侧打通" 持续感知→精准定位→行动决策 "的完整闭环。

一、三个模型、三层能力、一条链路

什么是通用视觉智能（General Vision Intelligence）？

Om AI 联汇的定义是三项核心能力：持续感知（无需人工触发）、空间智能（精准定位目标）、行动输出（直接驱动设备）。VLX 系列的 Flow、Seek、Go 按个模型刚好对应这三项能力：

VLX-Flow 是持续感知层：

传统视频 AI 普遍采用离散式处理逻辑，通过截取画面完成单次问答交互，观测存在明显间断。而 VLX-Flow 采用流式视频输入架构，图像数据流不间断送入模型，实现持续观测与时序记忆留存。VLX-Flow 的实时性聚焦底层感知，无需人工下发指令触发，可自主不间断运行。

VLX-Seek 是精准定位层：

市面上通用视觉大模型仅能实现画面内容文本描述，只能告知画面存在物体，却无法输出精准空间位置，难以回答目标坐标、数量等实操性问题。VLX-Seek 更换底层技术思路，采用区域指代机制，直接输出毫米级精准空间锚点。

VLX-Go 是行动输出：

传统视觉模型解析画面后仅能生成文字化操作指令，无法直接驱动硬件执行。VLX-Go 更进一步，能够输出设备可直接调用的导航航点，支撑机器人自主完成移动动作，实现低延时实时反馈。

视频流持续进入，Flow 负责 " 看懂 "，Seek 负责 " 找对 "，Go 负责 " 动起来 "。三块拼图拼在一起，才构成完整的物理世界 AI。

在基准测试中，VLX 用三组数据印证了一个趋势：参数规模与物理世界的实际表现，正在脱钩。

Seek-3B 在目标检测基准 MSCOCO val2017、复杂语义基准 RefCOCO、开放词汇检测基准 ODinW13 以及目标计数基准 PixMo Count，均大幅超越 Gemini 3.1 Pro 和 GPT-5 等旗舰大模型，用 3B 小参数做到了旗舰精度。

在机器人导航与跟踪任务中，Go（0.6B）以极小的参数量实现了 85.42% 的高成功率，超越参数大其 13 倍的 Qwen-RobotNav-8B；同时以 94.08% 的跟踪率显著领先所有对比模型，证明其在动态目标跟随方面具备极强的视觉 - 运动协同能力，更加有力证明了针对端侧物理场景进行专用架构设计的有效性。

在延迟方面，端侧推理仅需0.1 秒，而云端推理通常超过 5 秒，这 50 倍的差距直接决定了系统 " 可用 " 与 " 不可用 " 的边界。

结果证明，当模型必须跑在端侧、必须实时响应、必须自主决策时，" 大 " 反而成了包袱。VLX 的真正价值，是用更小的模型在端侧芯片上跑出更好的结果，证明了 " 为场景设计模型 " 这条路，比 " 把通用模型塞进场景 " 更高效。

二、给物理世界造一套 " 视觉中枢 "

这样亮眼的测试成绩，根源于架构层面的差异。

传统模型处理视觉信息的方式是 " 截帧 - 上传 - 提问 - 回答 "，即拍一张照片或上传一段视频，问一句，答一句。这种模式本质上是离散的、被动的。目前多数模型的解决方案依赖长上下文来处理视频输入，本质仍是 " 离线看一遍 "。

Om AI 联汇提出的流式多模态，相当于给设备装上一套持续运转的 " 视觉中枢 "。摄像头采集的视频流像水一样流入模型，模型持续接收、理解、记忆，形成一个不间断的感知流。用户或开发者通过提示词自由定义输出目标，这套中枢可以按需输出文本描述、空间锚点或行动轨迹。

在技术路径上，VLX 的流式能力则面向实时交互场景设计，系统可以自主持续观察、精准锁定、即刻行动。二者应用场景不同，架构设计也随之分化。

行业通用做法是先训练大参数模型，再通过量化、蒸馏等方式压缩至端侧，Om AI 联汇采取了一条不同的技术路径。

据该公司技术团队介绍，VLX 从设计起点即围绕端侧算力约束展开架构设计。Flow 采用Linear Attention 机制替代标准 Attention，保证视频流持续输入时显存不溢出；Seek 以区域指代替代坐标生成，在提升精度的同时降低计算量；Go 采用短时航点预测，以快速响应周围环境的快速变化。

三、不再纸上谈兵，Om AI 联汇定义物理 AI 新范式

此前，物理 AI 的落地一直卡在一个尴尬的位置：Demo 惊艳，但量产乏力。VLX 从头就是为了落地而设计的，并也已经大规模落地：

具身智能领域：行业长期面临的一个痛点是：不同机器人平台的系统架构、传感器方案、执行机构高度异构，算法从 A 机器人迁移到 B 机器人往往需要大量适配工作。VLX 大脑具备跨平台能力，已全面支持云深处、宇树等头部企业的端侧设备，开发者在不同机器人平台上的适配周期大幅缩短。

无人机领域：传统无人机巡检依赖飞手人工操作或拍完视频回传后台审核，耗时耗力。搭载 VLX 的无人机具备了自主视觉导航和精准目标锁定能力，可自主识别违章、自主避障、自主规划航线。巡检效率提升数倍，响应时间从小时级缩短至秒级。

可穿戴设备领域：中国有超过 1700 万视障人士，但市面上的辅助工具大多停留在语音播报或简单障碍物提醒，无法解决 " 我在哪、周围有什么、怎么走过去 " 的连贯需求。Om AI 联汇 Homer 平台旗下好马 APP 已服务近 10 万视障用户，通过 AI 助视眼镜帮助用户安全避障、出行导航、空间寻物。

安防摄像头领域：客户无需更换现有硬件，只需在边缘侧或轻量化网关中接入 VLX，即可让摄像头升级为可 24 小时自主研判的 AI 哨兵。原有硬件资产得到保护，避免了推倒重来的高额成本。

AI PC 领域：PC 上的端侧 AI 长期停留在文字对话和简单图像生成层面，缺乏真正的视觉理解与空间交互能力。VLX 已完成与苹果、联想、惠普、英伟达四大头部品牌的端侧适配，为 PC 设备注入了实时视觉理解能力。

国产芯片方面：端侧 AI 的算力部署长期依赖英伟达等海外高端芯片，国产芯片受限于算力与生态，难以承载大参数模型。VLX 针对算力约束做了专门优化，已在华为昇腾、地瓜、RK3588 等国产平台完成适配。

VLX 的行业价值，在于验证了一条不同于数字 AI 的架构路径。

当行业仍在比拼谁把云端模型压缩得更小时，VLX 选择从端侧算力约束出发设计模型。测试数据显示这条路无需等待算力迭代即可落地，部署成本大幅压缩，实时响应能力提升数十倍，国产芯片即可流畅运行。

与此同时，这套流式多模态路线已覆盖具身智能、无人机、可穿戴、安防、AI PC 等多个场景，物理 AI 从 "Demo 展示 " 到 " 量产交付 " 的拐点正在显现。而 VLX 系列模型向开发者开放体验平台，则进一步降低了端侧智能应用的研发门槛，为产业链协同创新提供了更大的想象空间。

结语：用流式架构为物理世界重新设计 AI

回到一开始的那个问题：物理世界，究竟需要怎样的 AI？

Om AI 联汇用 VLX 系列模型给出了答案：用流式架构为物理世界重新设计 AI。

这背后，是 Om AI 联汇多年的长线布局与持续深耕。从 2016 年切入生成式对话技术，到 2021 年押注多模态赛道，再到 2022 年拿下国内首张多模态大模型测评证书，团队始终走在行业趋势之前，持续沉淀底层技术能力。

放眼整个物理 AI 赛道，行业从不缺愿景、概念与演示 Demo。真正稀缺的，是能够适配真实场景、稳定运行、可规模化落地的成熟系统。更重要的是，它需要被百万级设备验证过。

VLX 为物理 AI 的端侧化路径，提供了一个可参考的样本。

宙世代

一起剪

相关标签