对话万兴科技朱伟：Sora的成功是“大力出奇迹”，大模型不会直接出海

过去的 2023 年，大模型成为科技界的高频词汇，也成为被各行各业提及最多的东西。据不完全统计，2023 年国内公开发布的大模型产品已超过 238 个。

不过，技术的演进与爆发也需要一定的过程，翻看过往发布的大模型产品，它们之中的多数都是以自然语言对话为主要功能，提供聊天对话、创意写作、代码生成等服务。对比之下，在需求更为旺盛的视频领域，大模型的成熟度尚有较大的缺失。

借助大模型的能力，文生文、文生图已经在一定程度上提升了工作学习等场景的效率。但是，视频作为人类信息交互信息密度最高的一种方式，文生视频是全行业更为迫切想要追求的，这也是为何 Sora 在年初能够引发如此大影响的原因之一。

万兴科技副总裁朱伟，图片来源：万兴科技

" 当前大模型在文本和图像领域已实现生产力商用，但在音视频领域的应用还存在数据集缺失、视频内容结构及层级复杂、算力成本高等挑战，其成熟应用尚需周期。" 万兴科技副总裁朱伟对钛媒体 App 说道。

从 2003 年成立至今，万兴科技一直都在围绕视频做研发与投入，并且从去年开始加速大模型的研发。今年 1 月，万兴 " 天幕 " 音视频多媒体大模型正式对外发布。

日前，钛媒体 App 独家透露了万兴 " 天幕 " 将于 4 月 28 日正式公测，文生视频能力一键生成时长支持 60 秒 +。在与朱伟的简短交流中，他也是不止一次的强调称，2024 年将迎来 AI 视频年。

Sora 的成功是因为 " 大力出奇迹 "

据 Gartner 研究预测 , 到 2030 年 ,90% 的数字内容都将是 AI 生成，预计 2032 年 , 全球 AIGC 市场规模将由 2022 年的 108 亿美元增加至 1181 亿美元。同时，思科公司此前发布的报告内容指出，未来 82% 的消费互联网流量是视频流量。

如果从文本的角度来看，大模型的发展的确已经很成熟，但是从视频的角度来看是远远不够的。目前，全世界有 3.05 亿视频创作者，43 亿视频覆盖群体，每天 200 亿次以上的视频播放量，视频需求非常大。" 视频为王 " 时代的到来，也催生出对多媒体垂直大模型和应用的需求。

根据硅谷知名风投公司 a16z 调研结果显示，在 2023 年以前，市面上尚不存在公开的视频模型，但 2023 一年内诞生的模型就达数十个，全球用户数量超过百万级。目前，市场上已投入使用并取得一定进展的 AI 视频模型数量达到 21 个。

朱伟透露，不管是文本模型、图像模型还是视频模型，国内真正的原创大模型其实还不算多，甚至可以说很少。" 特别是视频大模型，包括我们在做的万兴’天幕’，也还没有到 L0 最基础的模型级别。"

可以肯定的一点是，今年视频类应用有望迎来爆发式增长，也就是说，AI 视频大模型的落地应用会越来越多、越来越快。年初，Sora 的出现，让整个行业为之一振，朱伟也坦言，从模型基础的级别来讲，国内与 Sora 的差距还比较大，需要投入更多的资源，去快速进行技术迭代。"Sora 作为行业标杆，是我们正在努力看齐的目标。"

对于视频大模型而言，算法、算力与数据是三大难点。其中，由于开源的原因，算法框架现在大家都差不多。" 我们研究过 Sora，它整个技术框架并没有什么颠覆性的创新，就是 Transformer 架构 "，朱伟指出，" 为何会有那么好的效果，主要还是在算力与数据上大力出奇迹。"

他表示，Sora 至少有 500 万小时的视频数据做训练，它要实现月或者是季的迭代，至少是万卡集群以上的集群才能做训练，国内目前到千卡集群的公司都不多，我们现在都是靠近千卡，还没有超过千卡。据了解，万兴科技去年年底到今年，光在算力的投入上就将近一个亿。

不过，在承认与 Sora 之间的差距外，朱伟也并没有表现出过多的焦虑。" 它是做基础模型的，万兴其实是以应用为主的，我们不会在基础模型上面去追赶它，因为很费钱也很费力，最后效果也不会一下就会让你获得那么大回报，投入产出比不划算，简单来讲就这么回事。"

大模型不会直接出海，中国还不是一个很好的付费市场

就像前文所提及的那样，生成视频类的大模型，可以分成两类或者分成两个层级：第一个层级是做基础模型，比如 Sora 这种。第二个层级是做垂类模型，它是通过一些基础数据的训练以后，在这个基础上，再做一些微调精调的训练。

对于垂类模型，朱伟认为，如果想要从大模型时代脱颖而出的话，还是要坚持 " 应用为王 " ——通过一个爆款应用，快速实现爆发式增长。

需要指出的一点是，当前海内外的技术都不算十分成熟，视频模型其实还没有到完全成熟的阶段。即便是 Sora 生成的视频已经很惊艳，但是距离用户最终输出的，可以在社交平台发布的视频还有差距。因为用户视频是带有一定的故事，甚至带有如片头片尾、文字、转场等，这种视频的元素会比 Sora 生成的要多很多。

总的来看，视频生成目前存在三大挑战。第一是数据集欠缺，视频内容存储和标注成本高昂，视频相关的训练数据集目前仍较欠缺。第二是算力成本高昂，视频训练所需的算力远高于图片、文字等其它内容。第三则是生成效果不佳目前仍缺乏效果可用性较好的模型作为标杆。

" 我们希望万兴的每一款产品，都是‘技术 + 应用’的结合，能够解决某个细分领域的具体问题，让产品用户真正获得价值。要把所有多模态的元素去很好地融合，最后让用户在剪辑视频的时候出来的是一个高质量的多媒体视频，这个是万兴想要做到的。"

万兴 " 天幕 " 文生视频《男孩的探险之行》画面截图

通过应用的方式，将大模型能力触达到更多的市场和用户，是朱伟在反复提及的事情。根据此前公开的业绩显示，2023 年上半年万兴科技海外收入占比为 90.23%，目前销售客户遍及全球 200 多个国家和地区。在谈及大模型出海的相关话题时，朱伟认为，没有企业会真正把一个大模型直接出海，估计我们大概率也不会做这件事。

在他看来，大模型出海是指拥有大模型能力的产品出海，去解决海外用户的问题，而不是做了一个好的视频模型，最后这个模型直接出海。

至于国内的应用市场，朱伟也谈到了目前发展上的一些难题，比如在 C 端的推广上。" 中国市场是规模最大的应用市场，这个观点我认同，但它目前还不是一个很好的付费市场。在国内，我们今年开始借助大模型的能力开始做 B 端，而没有去做 C 端，就是因为我们觉得将大模型作为工具直接面向用户收费的这样的一种模式，目前在国内比较难走通。"（本文首发于钛媒体 APP，作者｜杜志强，编辑｜钟毅）

宙世代

智慧云

相关标签