硬刚Sora 2，马斯克发视频大模型，免费可玩，前英伟达何宜晖参与

马斯克对阿尔特曼下战书？xAI 新模型 20s 内就能生成视频。

作者 | 程茜

编辑 | 心缘

马斯克和阿尔特曼又杠上了！

智东西 10 月 8 日报道，今天凌晨，马斯克的大模型独角兽 xAI 祭出最新视频生成模型 Imagine v0.9，免费向所有用户开放。

一周前，OpenAI 发布了旗舰视频和音频生成模型 Sora 2，此次更新或许是马斯克对 Sora 2 的直接回应。

xAI 并没有放出完整的技术博客，只是提到 Imagine v0.9 相比初代版本在视觉质量、动作、音频生成方面有所升级，并上传了几个生成视频案例。

马斯克在 X 上发帖称，Imagine v0.9 的视频生成时间不到 20 秒，且用户可以基于语音优先界面，只需说话就能创建视频、图像和文本。

总结来看，Imagine v0.9 的生成速度更快，在 20 秒以内，Sora 2 生成视频可能需要一两分钟；Imagine v0.9 已经免费向所有用户开放，Sora 2 采用邀请制允许部分用户使用；Imagine v0.9 生成的视频时长在 6 秒左右，Sora 2 支持 15 秒视频生成。

智东西对比了 Imagine v0.9 和 Sora 2 的生成效果，采用 OpenAI 官方示例的提示词，Imagine v0.9 在生成时会出现提示词理解错误、视频画面与音频不符、不提示深度伪造风险、无法说中文等情况。

值得一提的是，这也是马斯克今年 7 月挖走英伟达高级算法工程师何宜晖（Ethan He）之后，何宜晖在 xAI 参与的第一个项目。

何宜晖 2018 年本科毕业于西安交通大学计算机科学与技术专业，2019 年在卡内基梅隆大学取得计算机视觉硕士学位，2023 年加入英伟达担任高级深度学习算法工程师，曾参与英伟达世界基础模型 Cosmos 研发。

尽管 Imagine v0.9 可以免费使用，但智东西尝试后发现 Web 端目前无法正常工作，移动端可以体验，不过也会出现连接失败的情况。

01.

秒生电影大片效果

还能添加自然对话

Imagine v0.9 集成到了 Grok 中，其会根据文字先生成图片再创建视频，或者直接将用户上传的图片变成视频。

xAI 在博客中提到，Imagine v0.9 突破了原生音频 + 视频生成的界限，开箱即用，无需编辑即可创建类似电影效果的视频。

Imagine v0.9 另一大升级点是运动控制，如下面视频中的滑雪片段，视频中人物飞起到落下的动作丝滑。

第三点是用户可为视频添加动态相机效果，如智能焦点转移，下面视频中根据镜头位置变化，会对应虚化街景突出人物。

第四点是 Imagine v0.9 支持添加自然对话，或者生成具有表现力的歌声等。

02.

对比 Sora 2 文字理解错误频发

有深度伪造风险

智东西使用了 OpenAI 演示 Sora 2 时的提示词，对比了 Imagine v0.9 和 Sora 2 的生成效果。

提示词：Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time（两名山地探险者穿着色彩鲜艳的专业冲锋衣，脸上结着冰霜，眼神急切地眯成一条缝，在雪地里轮流大喊）

可以看出，Imagine v0.9 生成的视频中音频并没有包含 " 喊叫 "，只是画面中人物在张嘴。

智东西选择了 Grok 生成的第一张图创建视频，视频中主角完全无视重力开始在空中 360 度旋转。

最后智东西还体验了 Imagine v0.9 的自定义语音能力，智东西上传了马斯克的照片，让他说出 "Sam ’ s a sharp guy, and our relationship ’ s always been good. OpenAI ’ s built some impressive stuff in the AI space, and I really hope to partner with them someday to advance AI development togethe（萨姆是个敏锐的人，我和他的关系一直都很好。OpenAI 在人工智能领域做出了不少亮眼的成果，我真心希望有一天能和他们合作，共同推动人工智能技术的发展）" 这段话。

Imagine v0.9 没有提示深度伪造风险，但生成的声音与马斯克本人略有区别。

目前该模型不支持中文，当智东西让马斯克说出 " 我和萨姆 · 阿尔特曼是好朋友 "，其生成视频中只有 " 是好朋友 " 较为清晰。

03.

结语：AI 视频生成竞赛升级

自定义语音功能或引发深度伪造风险

一周内，OpenAI、xAI 接连发布视频生成模型新进展，Sora 2 不仅在模拟真实性、可控性及音效方面提升，还推出了全新 Sora 社交 App，xAI 则在功能升级的基础上，通过免费开放吸引了一大波流量。

此次 Imagine v0.9 的一大升级点是允许用户在视频中添加自定义语音。这项技术进一步成熟后，用户可以自行上传公众人物照片及说话内容生成逼真视频，这或带来深度伪造风险。

因此，未来如何平衡技术发展与风险防控，或许是所有视频生成模型提供商都需直面的技术难题。

宙世代

一起剪

相关标签