Google发布Gemini Omni：多模态输入重塑视频创作

在 2026 年 Google I/O 大会上，Google 发布了其迄今最具雄心的 AI 模型—— Gemini Omni，正式以一款无需前期摄影或剪辑经验的强大工具，切入视频创作领域。

Gemini Omni 秉持 " 从任何输入中创造任何东西 " 的理念，不仅支持文本生成视频，更能将素描、语音备忘录、晃动的手持镜头甚至宠物照片转化为连贯且精致的视频作品。这一发布标志着 Google 在生成式视频领域追赶两年后的战略纠偏：从此前提倡但操作笨拙的 Veo 文本转视频工具，转向能够处理全创意工作流的统一模型。

打破碎片化，实现连贯性创作

与此前功能碎片化的 AI 视频生成器不同，Gemini Omni 致力于解决角色与环境一致性难题。该模型支持通过语音指令进行视频编辑或创作，并能记忆上下文指令，确保角色和故事在不同场景中的逻辑连贯。这种交互方式如同与专业视频编辑师对话，赋予了创作者更大的自由度。

此外，Omni 对物理细节具有高度敏感性，能够理解重力和流体动力学原理，在调整光照、运动和环境影响时避免画面崩坏，填补了现有工具在视觉与音频处理及编辑一致性上的空白。

分级开放与版权标识

目前，Gemini Omni Flash 正在逐步推出。YouTube Shorts 用户可免费使用全部功能，但其实际表现仍有待市场验证。对于 Gemini 应用和 Google Flow 用户，则需订阅 AI Plus、Pro 或 Ultra 套餐，月费起步价为 7.99 美元。企业 API 访问权限预计将在未来几周内开放。

为防止滥用，所有通过 Omni Flash 创建的视频均会隐式嵌入 SynthID 水印。随着 Google 向创作者提供这款强大的统一工作流工具，内容领域的竞争格局或将迎来剧烈变革。

【来源：星途科讯】

宙世代

一起剪

相关标签