
在 2026 年 Google I/O 大会上,谷歌正式推出 Gemini Omni,将其庞大的 AI 功能阵容进一步扩展。该模型旨在融合推理能力与媒体创作工具,实现跨格式内容的生成与编辑。
首发版本 Gemini Omni Flash 聚焦视频领域,设定了极具雄心的目标:支持用户通过文本、图像、音频或现有视频几乎任意类型的输入来创建内容。目前,Gemini Omni Flash 已通过 Gemini 应用、Google Flow、YouTube Shorts 以及 YouTube Create 上线,并计划随后向开发者和企业客户开放。
这一发布建立在谷歌此前 AI 视觉生成工作的基础之上。2025 年推出的 Nano Banana 已扩展了 Gemini 的图像处理能力,成为从修复老照片到将草图转化为概念图的实用工具。
对话式编辑与物理一致性
Gemini Omni 的核心理念在于简化编辑流程。谷歌表示,用户可通过自然语言指令修改视频,同时确保更改前后的一致性。系统能够保持角色可识别、场景连贯,动作逻辑不会因提示词改变而重置。
此外,该系统深化了对物理世界的理解,改进了对运动、重力及动力学的处理。例如,当人物触摸镜子时,倒影会呈现液体般的波动效果,或由气泡构成的雕塑能符合物理规律。谷歌试图借此将 Gemini Omni 定位为超越单纯视频生成器的创作平台,以对话式路径降低普通用户的使用门槛,应对激烈的 AI 媒体工具竞争。
未来,Gemini Omni 的功能边界将进一步拓展,预计将支持把照片、提示词、音乐和参考素材整合至单个项目中。
建立信任机制
面对创意 AI 带来的信任挑战,谷歌强调透明度措施。使用 Gemini Omni 生成的视频均嵌入 SynthID 水印技术,以便识别 AI 生成内容。同时,验证工具将在 Gemini、Chrome 和搜索服务之间协同工作,构成更广泛的信任体系。
在功能释放上,谷歌采取谨慎态度。用户初期可基于自身形象及声音创建视频化身,但涉及语音修改的高级功能仍处于安全审查阶段。这反映出主流 AI 公司在构建强大系统与建立用户信任之间面临的复杂平衡。
【来源:星途科讯】


登录后才可以发布评论哦
打开小程序可以发布评论哦