前沿科技,数智经济
一场大会,聚集了中国多模态大模型的 " 半壁江山 "。
智源大会 2025 为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO 分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和 MIT(麻省理工)的相关专家学者。
自回归、扩散、原生多模态 ...... 围绕种种技术路线的论证和实践分享都证明了一件事:相比硕果仅存的大语言模型战场,多模态大模型的技术路线还远远没有收敛。
" 多模态大模型已在特定场景启动落地,但尚未实现高度普适化。" 智源研究院院长王仲远给出了这样的判断。他指出,根本性突破仍依赖更强大的基础模型——若多模态模型达到足够可用的水平,将推动产业进一步发展。
在种种空白中,多模态想要打开下半场的入口,显然还有一段路要走。
多模态,尚未迎来
"ChatGPT 时刻 "
" 对于多模态模型而言,现在定义下半场还为时尚早,我们连上半场都还没有看到边界在哪里。"
面对 " 如何看待大模型下半场 " 的问题时,Sand.ai 联合创始人张拯给出了这样的回答。
" 慢一拍 " 的多模态大模型,限制了应用端的能力表现。以视频生成为例,智象未来 CEO 梅涛指出,目前视频生成还处于 GPT-2 到 GPT-3 之间的阶段。他将视频创作的三个要素总结为叙事性、稳定性和可控性。
叙事性,即保证视频 " 做 5 分钟和 1 小时是完整的故事 ",保持 IP 的一致性;而在稳定性上,需要保证画面质量、运动连贯性、时序一致性等方面的稳定,目前表现较好;可控性,则是衡量视频内容生成的精准程度,第几秒出现什么镜头,人物做什么表情等要求非常高。但今天的大模型,还无法达到这样的水准。
现阶段,想要提升模型生成效果,数据质量就成了关键。
" 我们为什么会看到 Google 的 Veo 3,很多模型做得很好、做得很逼真,如果在模型架构上大家都趋同的话,其实真正的竞争就取决于高质量的数据。" 智象未来 CEO 梅涛说," 其实我们并没有产生所谓新的智能,只是在复制我们看到的这个世界。"
Google Veo 3 模型展示
围绕如何提升多模态大模型的能力,多家企业所践行的技术路线并不相同。
相对于普遍采用 Diffusion Transformer(Dit,即扩散 Transformer)模型的文生图、文生视频领域,多模态大模型到底是采用自回归模型、扩散模型还是其他方式,业内对此没有达成共识。
在大会现场,Sand.ai CEO 曹越给出了他对扩散模型带来的问题思考:
" 技术层面,主流的 Diffusion 和 Transformer 的训练方案还是存在很大问题,核心问题在于可扩展性不足。" 曹越说," 在 Diffusion Transformer 路线上,现在证明生成 5 秒视频可以有不错的效果,但随着模型规模提升,会快速达到瓶颈。"
即使在生成机制一致的情况下,模型架构和训练方式的不同也对模型生成效果带来影响。
在 Luma AI 创始人宋佳铭看来,多模态大模型进入下半场的前提,是上半场要先把不同模态像语言一样统一处理,既要用同一个模型建模,还要保证推理足够快。
是将多个模态拼接训练,还是在一开始就采用统一架构,把各种模态的信息丢到一起统一训练,这就是多模态和 " 原生多模态 " 两条路线的区分。
" 当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息。" 王仲远说," 这就如同先达到博士学位水平,再去接触其他知识。"
然而,在上述过程中,模型的能力可能会出现下降。用王仲远的话说,模型的能力可能从 " 博士 " 水平降至 " 大学 " 甚至 " 高中 " 水平。
为了解决这个问题,智源研究院早在去年 10 月上线了全球首个原生多模态世界大模型 Emu3,试图将多种模态的数据统一在一个架构内。
作为原生多模态模型,Emu3 采用自回归的生成方式,基于下一个 token 预测范式统一多模态学习,通过研发新型视觉 tokenizer 将图像 / 视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。
也就是说,你可以随意将文字、语音和视频丢给 Emu3 处理,而它也同样能够用这三种形式生成内容,实现跨模态交互。
想要通往多模态大模型的下半场,多模态数据形态的扩充也是关键之一。MIT CSAIL 何凯明组博士后研究员黎天鸿认为,真正的 " 下半场 " 多模态,应该是模型能处理超越人类感官的数据。
在会议现场中,智源研究院也分享了在图像、文字、声音和视频之外,多模态数据形态的扩充——脑信号。
" 悟界 " 大模型系列中的见微 Brain μ 就脱胎于 Emu3 的 " 骨架 " 中。基于 Emu3 的底层架构,智源研究院成功将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化,并完成了 100 万单位的神经信号预训练。
" 脑信号数据是第一个尝试," 王仲远说," 具身领域的数据有更多模态,比如,3D 信号、时空信号等,都可以作为一种模态进行融合。"
可以说,做原生多模态大模型的成本高、技术实现困难,对于拼落地速度的企业来说,是一个冒险的尝试。作为科研机构,智源研究院在做的事情,就是先替行业蹚出一条路。
多模态生成落地拐点,
视频模型加速商业厮杀
在学界和业界探索技术道路的同时,企业端正在加速多模态大模型在行业中的落地进程,这也是中国 AI 发展的鲜明特色——商业化和模型发展并驾齐驱。
字节跳动 Seed 图像 & 视频生成负责人黄伟林给出两组数据印证:2025 年,就是图像生成商业化元年。
谷歌对多模态市场规模的预估
当技术门槛逐渐降低、成本效率达到要求,AI 视频生成也迎来了市场增长的黄金期。
黄伟林表示,目前头部视频生成产品的年化收入(ARR)预计今年达到 1 亿美元,明年可能增长到 5 到 10 亿美元。
生数科技 CEO骆怡航也认为,今年多模态生成正处于规模化生产落地的拐点:在技术迭代迅速,效果、速度和成本提升的同时,行业需求增长旺盛,视频相关产业的落地节奏也在提速。
虽然当前大模型技术路线并不收敛,但在目前应用落地的阶段,AI 视频生产已经能够协助人类完成那些本身耗时耗力、成本高的拍摄需求,并且把生成时间压缩到极低。
张拯认为,在不同发展阶段,AI 视频生成会有完全不同的 PMF。
比如,在早期阶段,很多交给人都非常难拍的视频,即使质量很差或者需要非常多的抽卡才能抽到视频,但是也远比搭一个景再拍内容的成本低 4~5 个数量级。
张拯举了个例子,比如拍摄在太空中的航空母舰,需要通过特效团队逐帧去做。但是现在交给模型,哪怕需要 100 次抽卡,最后要 500 元才能抽出一个片段,这个成本也比之前低很多。
在大量的应用场景下,中国的多模态大模型公司们,围绕着 B 端还是 C 端、哪条路先走的商业化路线,给出了不同的答案。
现阶段,AI 视频在 C 端应用的突出案例,就是依靠视频生成的 AI 视频特效。
曾在 TikTok 团队提供 AI 视频技术支持,爱诗科技创始人王长虎分享了旗下产品 PixVerse 的突破里程碑,就来自于特效模版的上线。
据王长虎分享,通过特效视频模版在抖音以及国内外各大社交媒体上的传播,PixVerse 打响了知名度。当月,在中国产品出海增速榜,PixVerse 排在第二名,访问量提升 80%。他还分享了一个印象深刻的数据——今年 4 月,超过 PixVerse MAU 增长的 AI 产品只有 DeepSeek。
在技术快速迭代的同时,爱诗科技在商业化做出了自己的选择——先做 To C,再做 To B。靠着 C 端带起的声量,爱诗科技今年将版图放到了 B 端,于今年 1 月支持各行业的 API 和定制化视频生成,涵盖互联网、营销、电商等。
相比之下,生数科技更早聚焦视频生成大模型如何落地产业端的问题。成立两年的时间里,生数科技有 1 年半都在琢磨落地问题,更在行业划分上,骆怡航给出了 " 八大行业、三十大场景 " 的版图,其中,互联网、广告、电影、动漫的应用占到了 8 成。
在切入 B 端的思考中,生数科技强调的是对成本以及生产效率的降低。
" 要想满足技术需求,很重要的一点是,(AI 视频生成)生产效率要提升 100 倍,生产成本要降低 100 倍,必须要和行业深入适配,满足行业的专业需求。" 骆怡航说。
骆怡航分享,一家海外动画工作室和 VIDU 合作,打造了一个 "AI 动漫 " 工作流,能够批量生成创意,他们用两个月时间,生产了 50 集 AI 动漫短片。
当效率和生成达到满足商用的节点,当 AI 企业们陆续把商业化提上日程。可以预见的是,下半年,多模态领域的 AI 生成将在商业化上迎来更激烈的比拼。
光锥智能"AI 交流群 "已建立,
感兴趣的朋友可以添加小助手微信(GZZN2019)沟通进群。
联系我们
王一粟
创始人 / 主编
ID:cishicike000
※添加时请备注公司 + 姓名 + 来意
登录后才可以发布评论哦
打开小程序可以发布评论哦