大模型的发展日新月异。
3 月 29 日,在 2025 中关村论坛年会期间举办的 " 未来人工智能先锋论坛 " 上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军宣布,生数科技正式发布业内首个高可控视频大模型 Vidu Q1,并计划于 4 月全球上线。
会后,在接受媒体采访时,朱军谈到,2025 年将是 AI(人工智能)视频商业化快速发展的一年。视频大模型的商业化路径相较于语言大模型更加多元,行业竞争格局也不同于 " 大模型内卷 " 态势。
朱军认为,未来视频大模型不会出现类似语言模型市场那样的 " 一超多强 " 格局,而是依赖持续创新能力,向更高质量、更长时长、更强叙事性的方向发展。
主办方供图
谈商业化:2025 年将是 AI 视频模型商业化快速发展的一年
朱军介绍,相较于生数科技在 1 月推出的 Vidu 2.0,Vidu Q1 在技术层面实现了重大突破,能够接受空间布局信息作为输入,极大提升了视频生成的可控性,使视频生成走向 " 高可控 " 时代成为可能。
朱军指出,走向高可控为 AI 视频生成的发展找到了新路径,清晰指出了 AI 视频生成的痛点,通过技术手段引入多元素控制,它不再是没有头绪的 " 乱生成 ",而是人为可控,这就让 AI 视频生成与当下精益求精的制作逐渐趋向一致。
另一方面,高可控意味着 AI 视频生成的创意呈现更极致、更多元。朱军表示,过去 Vidu 陆续在画面生成、生成速度、多主体一致等视频生成关键环节下功夫,现在,当 " 高可控 " 时代到来时,人们将能够更便捷地将自己头脑中的想法变成现实。具体而言,Vidu Q1 在多主体细节可控、音效同步可控 、画质增强方面均取得成效。
对于多模态模型层面的探索,朱军在采访中表示,生数科技自成立之初便专注于多模态大模型研发,Vidu 的基座本身就是一个多模态大模型,视频只是多模态技术的其中一种表现形式。除此之外,公司还在探索音频及机器人可控操作数据的应用等多种模态。" 对我们来说底层架构基本上是一样的,没有修改就可以去适应多模态,只是面向用户的需求,在不同阶段会推出。"
朱军认为,未来多模态的发展方向是智能体与工作流的全面打通,这种打通也是生数科技规划的重要方向。朱军表示,未来也需要通过推动智能体与工作流的打通,实现不同模态之间的协同,以更好地服务各行业用户。
在商业化方面,朱军坦言,随着 AI 视频技术的商业价值不断提升,资本市场对生数科技的关注重点也在发生变化。朱军表示,在公司早期阶段,投资人更关注团队实力,而如今,除了技术壁垒,商业化进展已成为核心考量因素。" 视频的价值密度更高,商业化进程也更快。2025 年将是 AI 视频模型商业化快速发展的一年。"
目前,其 SaaS(软件即服务)产品已覆盖全球 200 多个国家和地区,上线 100 天内用户突破千万,增速位居全球第一。同时,在 MaaS(模型即服务)端,AI 视频技术正在深入应用于动漫影视、文旅、广告、游戏等多个行业,重塑内容生产模式。
近期,OpenAI 宣布在 GPT-4o 模型中集成了迄今为止最先进的图像生成器,并将其整合进 ChatGPT 中 , 未来,视频生成能力会否同样被集成进大模型?朱军认为,现在谈这个问题为时尚早。
目前,视频生成的重点仍然是提升视频生成的质量和效率,而随着基座模型的不断优化,AI 视频生成自然会逐步向交互式方向发展,但其中最核心突破点仍在于理解能力和可控性。朱军表示,只有实现真正的高可控生成,才能满足未来交互式 AI 视频的需求。
在谈及高可控能力是否会影响创意表达时,朱军表示两者并不冲突。相反,提升可控性能够让创作过程更加高效、精准,减少用户反复试验的成本,提高创作体验。
" 在 AI 视频创作中,用户的输入可能是图片或文字,我们的任务是精准理解并实现他们的需求。" 朱军解释道,过去,AI 视频生成往往带有较高的随机性,用户需要反复尝试才能获得理想的结果。而高可控能力的引入,使模型能够更准确地理解并执行用户的创作意图,同时保持创意表达的自由度,例如动作幅度、想象力等方面依然可以充分发挥。
谈行业:视频行业很难出现类似 DeepSeek 的模型
朱军在接受采访时表示,2025 年行业整体落地进展非常快,例如在视频和音频领域,由于其应用场景较为通用,市场接受度更高,而语言模型的落地则往往需要结合行业专业知识,因此链路相对较长。不过,目前行业内同样有应用公司致力于推进大语言模型的落地应用。
谈及技术突破,朱军强调,目前阶段最重要的仍然是通用基础模型的提升。" 它决定了我们后端在控制和一致性方面的能力,所有后端的实现都依赖于基础模型的进展。" 基于基础模型,生数科技也在不断探索,以实现更高的模型一致性和可控性。
朱军认为,与语言模型不同,视频大模型的商业化路径相对更快。他指出,视频的消费需求非常旷阔,因此,当前行业内领先的公司在视频大模型领域各具特色,并形成了不同的商业化布局。这一领域并不像语言模型市场那样 " 内卷 ",而是呈现出更多元化的竞争格局。
目前,大语言模型行业逐步进入收购与被收购阶段,朱军认为,这与行业发展状态相关。语言模型的竞争已经进入深水区,领先企业在技术和市场布局方面占据优势,而视频大模型则完全不一样,中国的视频大模型在全球范围内很多方面都有应用,这与语言模型的发展状态截然不同。
未来,视频大模型行业是否会和语言大模型一样,只会留下几家专注于基础模型研发的公司?朱军认为,大概率不会出现一家独大的情况。一方面,视频大模型行业不算拥挤;另一方面,从人工智能发展的长期来看,核心因素在于团队是否具备持续创新能力。今天,模型的发展大部分是阶段性发展,尽管目前已经可以服务专业用户并生成高质量内容,但整体上仍有很大提升空间,包括效率、成本以及内容密度等方面的突破。
相比于语言模型,视频生成模型的起步稍晚,但朱军认为,这种 " 后发 " 反而带来了更快、更坚定的前进步伐。他提到,视频模型领域已经形成了对效率优化的共识。例如,生数科技在推出 Vidu2.0 时,就明确提出要做 " 最高效、最便宜的高质量视频模型 "。这种理念已经深入行业,因此,他判断视频领域很难出现类似 DeepSeek 在语言模型中 " 效率遥遥领先 " 的局面,而是更期待让视频模型朝着 " 更可控、更好用 " 的方向发展。
谈及开源,朱军表示,开源一直是人工智能行业的重要趋势,生数科技也会开放部分创新方法供业界使用。然而,他指出,大部分所谓的开源模型并未真正开放核心训练过程及数据。"DeepSeek 之所以受到用户欢迎,核心在于其出色的效果和高效率。对 C 端用户而言,最关心的始终是质量和效率,而非模型是开源还是闭源。"
目前,视频生成模型大多集中在 5 秒以内的短视频,朱军认为,这主要是成本问题,而非能力限制。同时,用户的使用习惯也影响了视频时长的选择。" 现阶段,大部分用户习惯于竖屏短视频,而如果要创作 1 分钟以上的内容,就需要更完整的故事架构,涉及到从文案策划到内容创作的完整流程,而不仅仅是简单的‘图生视频’。"
朱军认为,随着基础模型能力的提升,行业将逐步向更长时长、更具叙事性的场景拓展。" 从短视频向更长时长、叙事性更强的方向发展,将成为未来的一个重要趋势。"
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦