可玩可交互！业界首个媲美Genie 3的开源世界模型来了

快科技 1 月 29 日消息，今日，蚂蚁灵波科技再次刷新行业预期，开源发布世界模型 LingBot-World。

该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均媲美 Google Genie 3。

旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的 " 数字演练场 "。

针对视频生成中最常见的 " 长时漂移 " 问题，LingBot-World 实现了近 10 分钟的连续稳定无损生成，为长序列、多步骤的复杂任务训练提供支撑。

交互性能上，LingBot-World 可实现约 16 FPS 的生成吞吐，并将端到端交互延迟控制在 1 秒以内。

用户可通过键盘或鼠标实时控制角色与相机视角，画面随指令即时反馈。

此外，用户可通过文本触发环境变化与世界事件，例如调整天气、改变画面风格或生成特定事件，并在保持场景几何关系相对一致的前提下完成变化。

一致性压力测试，镜头最长移开 60 秒后返回，目标物体仍存在且结构一致

高动态环境下，镜头长时间移开后返回，车辆形态外观仍保持一致

镜头长时间移开后返回，房屋仍存在且结构一致

同时，该模型具备 Zero-shot 泛化能力，仅需输入一张真实照片（如城市街景）或游戏截图，即可生成可交互的视频流。

LingBot-World 凭借长时序一致性、实时交互响应，以及对 " 动作 - 环境变化 " 因果关系的理解，能够在数字世界中 " 想象 " 物理世界，为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。

同时，LingBot-World 支持场景多样化生成（如光照、摆放位置变化等），也提升了具身智能算法在真实场景中的泛化能力。

随着 " 灵波 " 系列连续发布 " 空间感知 "、"VLA 基座 ""LingBot-World" 三款具身领域大模型，蚂蚁的 AGI 战略实现了从数字世界到物理感知的关键延伸。

蚂蚁正通过 InclusionAI 社区将模型全部开源，和行业共建，探索 AGI 的边界。

目前，LingBot-World 模型权重及推理代码已面向社区开放。

宙世代