
智东西
作者 | 陈骏达
编辑 | 心缘
智东西 10 月 27 日报道,10 月 25 日,美团开源了其首款视频生成大模型—— LongCat-Video。该模型面向多任务视频生成场景,旨在以统一架构支持文生视频、图生视频以及视频续写三种能力。
不同于以往针对单一任务训练的模型,LongCat-Video 通过多任务联合训练机制,在同一框架内即可处理零帧、单帧及多帧条件输入。
此外,LongCat-Video 重点突破了长视频生成难题。相比常见模型在长时序生成中易出现的画面漂移、色彩偏移等问题,该模型通过在视频续写任务上的原生预训练,能够持续生成数分钟视频内容,同时保持较高的时间一致性与视觉稳定性。

在推理效率方面,LongCat-Video 借鉴了近年来的高效生成方法,采用 " 粗到细 " 两阶段生成策略:先生成 480p、15fps 的视频,再细化至 720p、30fps,并结合块稀疏注意力机制和模型蒸馏,显著降低了高分辨率生成的计算开销,视频生成的推理速度提升到原来的 10.1 倍,提速幅度超 900%。
在后训练阶段,团队引入多奖励强化学习(RLHF)优化方案,利用组相对策略优化(GRPO)方法综合多维度奖励信号,进一步提升模型在多样化任务下的表现。
美团已在多项公开与内部测评中将 LongCat-Video 与其他视频生成大模型进行了比较。在 VBench 公开基准测试中,LongCat-Video 总得分仅次于 Veo3 和 Vidu Q1。值得注意的是,LongCat-Video 在 " 常识理解 " 一项中以 70.94% 的得分位居所有开源模型第一,也超过了 Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora 等闭源模型。

目前,美团 LongCat-Video 已同步开放代码、模型权重及关键模块,模型技术报告也已经发布。
项目主页:
https://meituan-longcat.github.io/LongCat-Video/
模型地址:
https://huggingface.co/meituan-longcat/LongCat-Video
技术报告:
https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf
一、三步走打造高质量训练数据,整体压缩率高达 4×16×16 倍
美团认为," 世界模型 "(World Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予 AI" 看见 " 世界运行本质的能力。
而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI 得以在数字空间中模拟、推演乃至预演真实世界的运行。
为打造 LongCat-Video,美团 LongCat 团队首先在数据层面构建了一套数据处理与标注体系。
首先在数据预处理阶段,通过多源视频采集、去重、镜头切分及黑边裁剪,确保视频片段质量与多样性。
随后在数据标注阶段,为视频添加时长、分辨率、美学分数、动态信息等多维度属性,并建立元数据数据库以支持灵活数据筛选。团队还基于 LLaVA-Video 与 Qwen2.5VL 等模型进行视频内容、镜头语言及视觉风格标注,并通过中英双语翻译与摘要生成实现文本增强。
最终,通过文本嵌入聚类对视频内容进行无监督分类与均衡优化,为模型训练提供高质量、多样化的视频数据基础。

在模型架构层面,LongCat-Video 采用了基于 Diffusion Transformer(扩散 Transformer)的单流三维结构,这一设计融合了扩散模型的生成能力与 Transformer 的长时序建模优势。
每个 Transformer 模块都包含三维自注意力层、跨模态注意力层以及带 SwiGLU 激活的前馈网络,并通过 RMSNorm 与 QKNorm 保证训练稳定性。
模型使用了 3D RoPE 位置编码来捕捉时间与空间的信息关系,同时引入 AdaLN-Zero 机制以提升任务间的调制能力。
在输入数据层面,美团团队借助 WAN2.1 模型的 VAE 将视频像素压缩成潜空间 token,使视频数据能以更紧凑的形式参与建模,整体压缩率高达 4×16×16 倍;文本输入则由 umT5 多语言编码器处理,支持中英文双语,进一步提升了模型的通用性。

二、靠 " 统一任务框架 " 一次训出三种能力,稀疏注意力让推理效率猛增超 900%
LongCat-Video 采用了三阶段的训练流程。模型以 Flow Matching 框架取代传统扩散过程,通过预测噪声到真实视频潜变量的速度场提升训练稳定性与效率。
训练采用渐进式预训练策略,从低分辨率图像到高分辨率多任务视频逐步学习,实现 " 从静态到动态 " 的能力积累,并结合尺寸桶机制优化算力利用。
随后在监督微调阶段,模型利用高质量、多样化数据集进行精调,强化视觉美学、运动流畅度与指令理解。
最后通过基于组相对策略优化的强化学习引入人类偏好优化,进一步提升语义一致性与视频质量。
在训练 LongCat-Video 的过程中,美团 LongCat 团队在任务设计上进行了创新,这也是 LongCat-Video 能在单一模型内统一文生视频、图生视频和续写视频三类任务的原因。
美团 LongCat 团队没有为不同的视频生成任务单独设计模型,而是通过 " 统一任务框架 " 让三种任务共用同一套网络。模型通过识别输入中 " 条件帧 " 的数量自动判断任务类型:当输入为零帧时执行文本生成视频,一帧时执行图像生成视频,多帧时则执行视频续写。
这种机制不仅大幅降低了模型复杂度,也让不同任务之间共享特征空间与训练经验,从而提升整体表现。
为进一步提高长视频生成的效率,模型在注意力机制上设计了可缓存的键值特征,使条件帧的表示可以在采样过程中重复使用,减少了冗余计算。这种机制尤其适合长视频生成,因为它能在保持一致性的同时显著降低计算开销。
强化学习部分是 LongCat-Video 提升生成质量的关键环节。美团团队基于组相对策略优化方法进行了多重改进,使其适配视频扩散任务。传统的 GRPO 在视频生成中容易出现奖励信号不稳定和时间归因模糊的问题,团队通过固定随机时间步、引入再加权损失函数以及最大标准差归一化机制,有效解决了这些训练瓶颈。

LongCat-Video 采用的 GRPO 方法与基线的生成效果对比
在奖励模型设计上,LongCat-Video 采用了三重奖励体系,分别评估视频的视觉质量、运动质量和文本一致性。视觉质量由 HPSv3 模型打分,衡量画面美感与细节;运动质量通过 VideoAlign 模型评估,确保动作自然流畅;文本一致性则检验生成视频与输入提示语的语义契合度。
这种多维度的奖励设计让模型在强化学习阶段能够平衡地提升表现,避免过度优化单一指标而导致画面僵化或运动失真。
在高效推理方面,LongCat-Video 通过一系列工程创新显著提升了生成速度与分辨率。团队采用 " 粗到细 " 的生成策略,先快速生成低分辨率、低帧率的视频,再由 LoRA 微调的精化模块进行高清复原,最终可输出 720p、30 帧的成片。
与此同时,LongCat-Video 引入块稀疏注意力(Block Sparse Attention)机制,仅计算最相关的 10% 注意力块,将计算成本降至传统方法的十分之一,几乎不损失生成质量。
这些优化使得 LongCat-Video 在单卡 H800 GPU 上几分钟内即可生成一分钟长的视频。再结合一致性模型蒸馏与分类器自由引导(CFG)蒸馏技术,采样步数从传统的 50 步缩减至 16 步,推理效率提升至原来的 10 倍。

LongCat-Video 在不同设置上的推理速度对比
三、多领域测评比肩 Veo3,常识理解能力突出
美团 LongCat 团队分享了 LongCat-Video 的多个生成案例。
文生视频任务中,LongCat-Video 可以根据提示词准确还原不少脑洞大开的画面,下方案例还显示出其可能具备风格转绘的能力。

前段时间最火的 AI 视频类型——切水果,LongCat-Video 也能制作,不过并没有音效,缺少了一些灵魂。
LongCat-Video 原生支持输出 5 分钟级别的长视频,不过在长时序的任务上,还是能看到一些 " 穿帮镜头 "。例如,下图人物跳芭蕾的过程中,其肢体在某些大幅度动作的场景中显得并不自然。
有趣的是,美团分享了 LongCat-Video 生成行车记录仪画面和机器人灵巧手操作画面的两个案例。此类画面或许可以作为合成数据,用于自动驾驶汽车与机器人的训练。

在内部评测体系中,美团构建了一套覆盖文本生成视频与图像生成视频两大核心任务的基准,评估维度包括文本对齐、视觉质量、运动质量与总体表现,并在图生视频任务中额外增加了图像一致性指标。
为确保评测的科学性,团队采用人工与自动双轨评估机制,其中人工评价分为绝对打分与相对偏好两种方式,所有样本均由多名标注员独立评分,最终通过加权平均得出结果。
自动评测部分则由内部训练的多模态 " 判官模型 " 完成,与人工结果的相关性高达 0.92,保证了客观性。
评测结果显示,LongCat-Video 在文生视频任务的四个核心指标中,视觉质量得分几乎与谷歌的 Veo3 持平,整体质量超越了 PixVerse-V5 和国内领先的开源模型 Wan2.2。

在运动质量方面,LongCat-Video 生成的视频动作流畅、镜头移动自然,展现出较强的物理合理性。在文本对齐度上,LongCat-Video 表现略差于 Veo3。
在图生视频任务中,LongCat-Video 画面细节丰富、风格真实,但在图像一致性和动作连贯性上仍有改进空间。技术报告认为,模型在处理高精度参考帧时对细节的保持较为谨慎,这在视觉质量上带来加分,却略微影响了动态平滑度。

在公开评测平台 VBench 2.0 上,LongCat-Video 在 " 常识理解 " 一项中以 70.94% 的得分位居所有开源模型第一,总分达到 62.11%,仅次于谷歌 Veo 3 与生数 Vidu Q1 等商用闭源模型。
结语:美团探索世界模型,或与机器人、无人车业务产生协同效应
美团称,LongCat-Video 是其开发世界模型的第一步。高效的长视频生成能解决世界模型中的渲染问题,使模型能够通过生成的视频内容表达其对世界的认知。
未来,美团计划在视频生成中更好地建模物理知识,集成多模态记忆,融入大语言模型(LLM)和多模态大模型(MLLM)的知识。在美团分享的演示视频中,LongCat-Video 能较为准确地输出机器人操作、汽车驾驶等画面,这或许预示着这款模型,有望与美团在机器人、自动驾驶(无人车)领域的业务布局产生一定的协同效应。


登录后才可以发布评论哦
打开小程序可以发布评论哦