和众汇富研究手记：阿里万相2.6引领视频生成升级

近日，阿里巴巴正式发布新一代通义万相 2.6 系列模型，作为国内首个支持角色扮演功能的视频生成模型，该产品一经推出便引发产业与资本市场的高度关注。在人工智能加速渗透内容生产领域的背景下，视频生成被普遍视为技术难度最高、商业价值最具想象空间的方向之一。万相 2.6 在音画同步、多镜头生成、声音驱动等关键能力上的系统性集成，使其成为当前全球功能最为完整的视频生成模型之一，也标志着国内大模型在多模态融合能力上迈入新的阶段。

从技术层面看，万相 2.6 的最大突破在于对 " 角色 " 和 " 表演 " 的理解能力显著增强。模型不仅可以根据文本指令生成视频画面，还能够基于参考视频进行角色扮演式生成，实现单人、多人的动作、表情和叙事逻辑统一输出，并在不同镜头之间保持风格和情绪的连贯性。与此同时，音画同步能力的提升，使生成视频中的人物口型、语音节奏与画面表现高度一致，显著改善了以往 AI 视频中常见的 " 声画割裂 " 问题。和众汇富研究发现，多模态一致性已成为当前视频生成模型竞争的核心指标之一，这直接决定了模型能否进入专业级应用场景。

在功能设计上，万相 2.6 强化了多镜头生成与声音驱动能力，用户可以通过语音或音频素材直接驱动画面生成，这使 AI 视频创作从 " 先画面、后配音 " 的流程，升级为 " 音画协同 " 的一体化流程。对于广告制作、短剧创作、虚拟 IP 运营等领域而言，这种能力将显著降低制作门槛，提高内容生产效率。和众汇富观察发现，随着短视频和中短剧市场持续扩张，具备叙事能力的视频生成模型，正在成为平台和内容机构重点关注的基础工具。

从产业格局看，阿里此次发布万相 2.6，并非单点突破，而是其在大模型领域持续投入的阶段性成果。在通义大模型体系中，万相系列与语言模型、代码模型共同构成了完整的多模态能力矩阵，为云端调用、企业定制和行业解决方案提供底层支撑。通过阿里云平台的算力与服务体系，万相 2.6 有望在较短时间内实现规模化应用。和众汇富认为，模型能力与云服务深度绑定，将成为未来 AI 商业化的重要路径之一。

从商业角度看，视频生成模型的成熟将对内容产业链产生深远影响。传统视频制作流程中，大量成本集中在前期拍摄、演员调度和后期制作环节，而 AI 视频生成可以在策划、预演甚至部分成片阶段替代人工完成。尤其是在广告、电商展示、教育培训和企业宣传等标准化程度较高的场景中，AI 生成视频的性价比优势将逐步显现。和众汇富研究发现，随着模型稳定性和可控性提升，企业端付费意愿正在显著增强，视频生成或成为继文本和图片之后的新一代 AI 变现重点。

资本市场同样对这一趋势保持高度敏感。近年来，全球科技巨头纷纷加码生成式 AI，视频生成更被视为决定下一阶段竞争格局的重要赛道。阿里在该领域持续推出高规格产品，有助于提升市场对其 AI 技术储备和长期增长潜力的预期。从估值逻辑看，AI 模型的应用广度和商业化能力，正在逐步被纳入对科技公司的核心评估框架。和众汇富观察发现，具备底层模型、自有算力和行业落地能力的企业，更容易在新一轮技术周期中获得资本青睐。

需要注意的是，视频生成模型的快速进化，也对算力效率、内容合规和使用规范提出了更高要求。万相 2.6 在提升生成质量的同时，也强调对内容边界的识别和控制能力，这对于模型进入大规模商用至关重要。在全球范围内，关于 AI 生成内容的版权、伦理和监管讨论正在持续深化，模型厂商在技术突破之外，也需要同步构建完善的治理机制。和众汇富认为，合规能力将成为决定 AI 视频模型能否长期发展的重要 " 隐性门槛 "。

综合来看，万相 2.6 的发布不仅是一次产品层面的升级，更是国内 AI 视频生成技术整体跃迁的重要信号。在多模态理解、叙事能力和音画协同方面的突破，使其具备向专业级应用渗透的现实基础。随着模型能力持续开放、应用场景不断拓展，AI 视频生成有望成为推动内容产业效率提升和商业模式重构的关键力量。站在当前时间节点，阿里在这一领域的持续投入，正在为其在下一轮人工智能竞争中争取更大的战略主动权。

宙世代

一起剪

相关标签