爱范儿 4小时前
马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 热点一个接一个,大家光顾着看热闹,真正的王炸反而容易被错过。

就在今天凌晨,Google DeepMind 推出了打磨已久的新项目:Project Genie。这不单是一个好玩的 AI 工具,更是 Google 通往通用人工智能(AGI)的重要一步:

一个真正的「世界模型」实验原型。

目前,Project Genie 已经向美国地区 18 岁及以上的 Google AI Ultra 订阅用户开放使用。

首先我们要搞清楚一个概念,Project Genie 生成的本质上是一个实时渲染的交互环境。它的技术底座由三部分组成:负责图像控制的 Nano Banana Pro、负责理解语言指令的 Gemini 模型,以及负责物理反馈的 Genie 3。

前两者我们都比较熟悉,无需过多赘述,但 Genie 3 又该怎么理解呢?

简单来说,它的机制和人类做梦的原理很像。

我们在做梦时,大脑会构建一个包含视听触觉的虚拟世界。虽然梦里的逻辑有时会跳跃,但沉浸感很强。Genie 其实就是让计算机学会「做梦」,并且允许用户进入这个梦境进行互动。

此外,与 ChatGPT 这类基于文本统计规律的模型不同,Genie 3 本质上是一个「物理世界模型」。它虽然没学过物理公式,但通过观看几百万次物体运动的视频,自己「学会」了重力、惯性这些物理规则。

体验 Project Genie 的方式也非常简单。

Google AI 产品宣传委员 Josh Woodward 就演示了全过程:他先把自己的照片转换成复古游戏风格的角色,然后上传到 Genie,输入「沙漠场景」和角色描述。

点击生成后,他就能以牛仔的身份在沙漠里自由探索了。

为了让控制更精准,用户还可以在进入前预览环境,并调整视角。点击开始后,当你按下键盘方向键(WASD),系统会实时预测并生成前方的路径和场景。

整个过程就跟玩游戏一样,有所不同的是,你不仅是观众,更是这个世界的导演。

不过,作为一个还在开发中的实验模型,Project Genie 也有明显短板,比如每次只能玩 60 秒。在接受的采访播客中,Google 开发团队解释说,时间太长会导致画面逻辑崩坏,产生幻觉,而且实时生成的计算成本极高。

▲ https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=1s

因此,为了平衡体验和成本,目前的单次探索被限制在 1 分钟内。

当然,如果你玩腻了沙漠,可以随时修改指令,瞬间把场景变成赛博城市,而角色的动作逻辑依然会保留。前阵子马斯克在社交平台上放话称,AI 有可能让普通人几分钟内生成《GTA6》。

投资机构 VentureTwins 也认为,2026 年将是世界模型的爆发之年。Project Genie 这种「实时视频生成」的技术路径,未来可能会和基于代码的传统游戏引擎分庭抗礼。

有了 Project Genie,这些判断似乎听起来也不那么遥远了。

▲ 图片来自  @AngryTomtweets  https://x.com/AngryTomtweets/status/2016986111927865430

在驾驶直升机时,左下角的地图还会实时更新。

▲ 图片来自 @fofrAI   https://x.com/fofrAI/status/2016936855607136506

网友 @yrzhe_top 试玩后则反馈称,他在外星球开车「兜风」时发现,没有宣传视频那么流畅,有些延迟,自定义提示也没生效,只能用官方预设内容。

▲   图片来自 @yrzhe_top

Google 开发团队也承认,目前 Genie 3 处于早期阶段,物理规律模拟得还不够准确,穿模或轨迹怪异的情况常有发生。不过 @yrzhe_top 也表示,虽然它只做到了承诺的七成,但这七成已经足够让人惊艳。

▲ 图片来自  @jen_w1n  https://x.com/jen_w1n/status/2016929094517088416

当然,如果只是为了做一个高配版的《我的世界》,Google 显然不需要动用那么多资源。Project Genie 的真正野心在于解决 AI 通往 AGI 路上的最大拦路虎,即数据枯竭与具身智能瓶颈。

是的,互联网上的高质量文本数据快被吃光了,且机器人无法通过阅读百科全书学会洗碗,它需要肌肉记忆和物理反馈。

然而,现实中获取机器人失败数据的成本极高,但 Genie 可以作为一个无限的合成数据生成器,模拟出十亿个不同的厨房、仓库或外星地表,让机器人在里面积累「肌肉记忆」,学会了再应用到现实中。

类似的还有蚂蚁灵波今天开源的 LingBot-VA 模型,它能在生成画面的同时推演动作序列,让机器人像人一样「边想边做」。制作早餐、拾取螺丝、拆快递、叠衣物、叠裤子的能力都有所长进。

此外,Google 开发团队在访谈中还畅想了更具人文关怀的应用场景,例如心理治疗与教育。

家长可以利用 Genie 生成一个「满是蜘蛛的房间」,在一个绝对安全且可控的虚拟环境下帮助孩子进行脱敏练习。或者在历史课上,直接生成一个 18 世纪的巴黎街道让学生亲历其境。

尽管现在的 Project Genie 还有画质粗糙、时长短、延迟高以及无法多人联机等问题,但它确实推开了那扇通往物理现实模拟的大门。

回头看 2024 年那句「世界不存在了」,最后让它成真的,估计不是 Sora,而是 Genie。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

物理 ai google 美国 导演
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论