
作者 | 王涵
编辑 | 漠影
" 物理 AI 的 ChatGPT 时刻已经到来。"
2026 年 1 月 5 日,拉斯维加斯 CES 展会,英伟达创始人兼 CEO 黄仁勋宣告 AI 正式进入新阶段。
在他看来,AI 的演进可以分为四个阶段:Perception AI、Generative AI、Agentic AI、Physical AI。当模型能够理解质量、摩擦、惯性、动量守恒,AI 才真正走出屏幕。他同时指出,要让机器人理解物理世界,不能仅靠单一模型,而是需要建立一整套智能系统。
黄仁勋描绘了未来愿景,但一个问题摆在了所有人面前——物理世界的 AI,到底需要什么样的技术能力?
AI 真正走向物理世界,机器人、无人机、安防摄像头、可穿戴设备这些场景,需要的不是回答问题,而是持续工作。物理 AI 最重要的,也就是主动执行的能力。
Om AI 联汇 CEO 兼首席科学家赵天成博士表示:" 之前整个业内对通用视觉智能的关注度偏低,大家可能更关注一些可以看秀的表演或操作场景。但通用视觉这个点是未来物理 AI 真正规模化应用落地必不可少的,而且可能是更加现实、更加直接的核心技术,会更广泛地应用到所有物理 AI 场景。"
通用视觉智能(General Vision Intelligence),即模型能像人一样持续观察环境、精准定位目标、自主驱动行动,且这一切必须在端侧完成。
近日发布的VLX 端侧流式多模态模型系列,正是这一路径的最新实践。
这是业界首次提出 " 流式多模态 " 这一全新模型架构。区别于传统模型 " 采集 - 上传 - 离线处理 " 的路径,VLX 系列面向物理世界中持续涌入的视频流,实现毫秒级实时感知,并首次在端侧打通" 持续感知→精准定位→行动决策 "的完整闭环。
一、三个模型、三层能力、一条链路
什么是通用视觉智能(General Vision Intelligence)?
Om AI 联汇的定义是三项核心能力:持续感知(无需人工触发)、空间智能(精准定位目标)、行动输出(直接驱动设备)。VLX 系列的 Flow、Seek、Go 按个模型刚好对应这三项能力:
VLX-Flow 是持续感知层:
传统视频 AI 普遍采用离散式处理逻辑,通过截取画面完成单次问答交互,观测存在明显间断。而 VLX-Flow 采用流式视频输入架构,图像数据流不间断送入模型,实现持续观测与时序记忆留存。VLX-Flow 的实时性聚焦底层感知,无需人工下发指令触发,可自主不间断运行。
VLX-Seek 是精准定位层:
市面上通用视觉大模型仅能实现画面内容文本描述,只能告知画面存在物体,却无法输出精准空间位置,难以回答目标坐标、数量等实操性问题。VLX-Seek 更换底层技术思路,采用区域指代机制,直接输出毫米级精准空间锚点。
VLX-Go 是行动输出:
传统视觉模型解析画面后仅能生成文字化操作指令,无法直接驱动硬件执行。VLX-Go 更进一步,能够输出设备可直接调用的导航航点,支撑机器人自主完成移动动作,实现低延时实时反馈。
视频流持续进入,Flow 负责 " 看懂 ",Seek 负责 " 找对 ",Go 负责 " 动起来 "。三块拼图拼在一起,才构成完整的物理世界 AI。
在基准测试中,VLX 用三组数据印证了一个趋势:参数规模与物理世界的实际表现,正在脱钩。
Seek-3B 在目标检测基准 MSCOCO val2017、复杂语义基准 RefCOCO、开放词汇检测基准 ODinW13 以及目标计数基准 PixMo Count,均大幅超越 Gemini 3.1 Pro 和 GPT-5 等旗舰大模型,用 3B 小参数做到了旗舰精度。


结果证明,当模型必须跑在端侧、必须实时响应、必须自主决策时," 大 " 反而成了包袱。VLX 的真正价值,是用更小的模型在端侧芯片上跑出更好的结果,证明了 " 为场景设计模型 " 这条路,比 " 把通用模型塞进场景 " 更高效。
二、给物理世界造一套 " 视觉中枢 "
这样亮眼的测试成绩,根源于架构层面的差异。
传统模型处理视觉信息的方式是 " 截帧 - 上传 - 提问 - 回答 ",即拍一张照片或上传一段视频,问一句,答一句。这种模式本质上是离散的、被动的。目前多数模型的解决方案依赖长上下文来处理视频输入,本质仍是 " 离线看一遍 "。
Om AI 联汇提出的流式多模态,相当于给设备装上一套持续运转的 " 视觉中枢 "。摄像头采集的视频流像水一样流入模型,模型持续接收、理解、记忆,形成一个不间断的感知流。用户或开发者通过提示词自由定义输出目标,这套中枢可以按需输出文本描述、空间锚点或行动轨迹。
在技术路径上,VLX 的流式能力则面向实时交互场景设计,系统可以自主持续观察、精准锁定、即刻行动。二者应用场景不同,架构设计也随之分化。
行业通用做法是先训练大参数模型,再通过量化、蒸馏等方式压缩至端侧,Om AI 联汇采取了一条不同的技术路径。
据该公司技术团队介绍,VLX 从设计起点即围绕端侧算力约束展开架构设计。Flow 采用Linear Attention 机制替代标准 Attention,保证视频流持续输入时显存不溢出;Seek 以区域指代替代坐标生成,在提升精度的同时降低计算量;Go 采用短时航点预测,以快速响应周围环境的快速变化。
三、不再纸上谈兵,Om AI 联汇定义物理 AI 新范式
此前,物理 AI 的落地一直卡在一个尴尬的位置:Demo 惊艳,但量产乏力。VLX 从头就是为了落地而设计的,并也已经大规模落地:
具身智能领域:行业长期面临的一个痛点是:不同机器人平台的系统架构、传感器方案、执行机构高度异构,算法从 A 机器人迁移到 B 机器人往往需要大量适配工作。VLX 大脑具备跨平台能力,已全面支持云深处、宇树等头部企业的端侧设备,开发者在不同机器人平台上的适配周期大幅缩短。
无人机领域:传统无人机巡检依赖飞手人工操作或拍完视频回传后台审核,耗时耗力。搭载 VLX 的无人机具备了自主视觉导航和精准目标锁定能力,可自主识别违章、自主避障、自主规划航线。巡检效率提升数倍,响应时间从小时级缩短至秒级。
可穿戴设备领域:中国有超过 1700 万视障人士,但市面上的辅助工具大多停留在语音播报或简单障碍物提醒,无法解决 " 我在哪、周围有什么、怎么走过去 " 的连贯需求。Om AI 联汇 Homer 平台旗下好马 APP 已服务近 10 万视障用户,通过 AI 助视眼镜帮助用户安全避障、出行导航、空间寻物。

AI PC 领域:PC 上的端侧 AI 长期停留在文字对话和简单图像生成层面,缺乏真正的视觉理解与空间交互能力。VLX 已完成与苹果、联想、惠普、英伟达四大头部品牌的端侧适配,为 PC 设备注入了实时视觉理解能力。
国产芯片方面:端侧 AI 的算力部署长期依赖英伟达等海外高端芯片,国产芯片受限于算力与生态,难以承载大参数模型。VLX 针对算力约束做了专门优化,已在华为昇腾、地瓜、RK3588 等国产平台完成适配。
VLX 的行业价值,在于验证了一条不同于数字 AI 的架构路径。
当行业仍在比拼谁把云端模型压缩得更小时,VLX 选择从端侧算力约束出发设计模型。测试数据显示这条路无需等待算力迭代即可落地,部署成本大幅压缩,实时响应能力提升数十倍,国产芯片即可流畅运行。
与此同时,这套流式多模态路线已覆盖具身智能、无人机、可穿戴、安防、AI PC 等多个场景,物理 AI 从 "Demo 展示 " 到 " 量产交付 " 的拐点正在显现。而 VLX 系列模型向开发者开放体验平台,则进一步降低了端侧智能应用的研发门槛,为产业链协同创新提供了更大的想象空间。
结语:用流式架构为物理世界重新设计 AI
回到一开始的那个问题:物理世界,究竟需要怎样的 AI?
Om AI 联汇用 VLX 系列模型给出了答案:用流式架构为物理世界重新设计 AI。
这背后,是 Om AI 联汇多年的长线布局与持续深耕。从 2016 年切入生成式对话技术,到 2021 年押注多模态赛道,再到 2022 年拿下国内首张多模态大模型测评证书,团队始终走在行业趋势之前,持续沉淀底层技术能力。
放眼整个物理 AI 赛道,行业从不缺愿景、概念与演示 Demo。真正稀缺的,是能够适配真实场景、稳定运行、可规模化落地的成熟系统。更重要的是,它需要被百万级设备验证过。
VLX 为物理 AI 的端侧化路径,提供了一个可参考的样本。


登录后才可以发布评论哦
打开小程序可以发布评论哦