文 | 字母 AI
随着小米新模型的推出," 天才少女 " 罗福莉再度成为焦点。其实在 AI 科学家圈子里,女性数量虽然相对较少,但也绝非罗福莉一颗独苗。在字节跳动,就有一位罗福莉式的人物。
她就是 Seedance 2.0 视频生成模型的预训练负责人,曾妍。
一般聊起 Seedance 2.0,大家普遍想到的人是掌舵人吴永辉、研发负责人周畅、视频生成技术核心负责人蒋璐。
很少有人知道,曾妍的存在,同样无可或缺。
因为预训练是整个模型的 " 基石 ",它决定了模型的能力上限。
大多数人把预训练当成 " 喂数据 ",但真正的高手知道,预训练是在 " 塑造模型的世界观 "。
数据怎么配比、架构怎么设计、训练策略怎么调整,每一个决策都在决定模型能看到什么、理解什么、生成什么。
无论你后面怎么努力优化,预训练只要没做好,这个模型就一辈子达不到 Seedance 2.0 现如今的高度。
不仅是贡献大,曾妍的晋升速度在字节也是相当快的。
从她毕业进入字节开始算起,到现在的 4-2 职级,曾妍仅仅花了 5 年时间。
4-2 职级对应高级总监 / 权威架构师层级,属于公司核心战略级技术骨干,年包(含基本工资、年终奖、股票)普遍在 500 万以上。
她到底做了什么,才有如此成就?让我们从她的求学之路说起。
01 从西交到字节
说实话,当我第一次看到曾妍的履历时,并没有觉得特别惊艳。
1997 年出生,西安交通大学本科,加拿大蒙特利尔大学计算机硕士。这条路径放到现在的 AI 圈里太常见了。
但接下来发生的事,就不那么 " 标准 " 了。
2021 年 9 月,曾妍以校招生身份加入字节跳动 AI Lab,起点职级是算法工程师。
入职仅两个月,曾妍就以第一作者身份在 arXiv 上发表了论文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是后来大家熟知的 X-VLM 模型。
这篇论文解决的问题,用大白话说就是:怎么让 AI 既能看懂 " 大场面 ",又能注意到 " 小细节 "。
传统的视觉语言模型有两个极端。一种是 " 粗线条 " 派,只看图像整体和文本的对应关系,就像你给 AI 看一张照片,它只能说 " 这是海滩 ",但说不出更多了。
另一种是 " 显微镜 " 派,依赖昂贵的目标检测器去抠每个物体,虽然能看到细节,但计算成本高得吓人,还得依赖大量人工标注数据。
曾妍提出的 X-VLM,就是取两者之所长。
它能同时学习从整体到局部、从场景到物体、从粗到细的多层次视觉概念,并与文本中的不同粒度信息精准对齐。
或者我用一个我最近刚学会的话来形容:既见森林,又见树木。
这个 " 多粒度对齐 " 的思想,在当时看起来只是个学术创新,但它为曾妍后来担任 Seedance 2.0 预训练负责人埋下了伏笔。
因为视频生成的预训练,本质上也是个多粒度建模的问题。
你要想生成一个好看的视频,那就既要把握整体叙事节奏,让一段视频有连贯的故事线;又要控制每一帧的细节质量,确保人物面容不变形、物体运动符合物理规律;还要建立时序维度上的关联关系,让前后帧之间的过渡自然流畅。
这刚和 X-VLM 的底层逻辑是一致的。
接下来的两年,曾妍就像开了挂一样。
她以第一作者身份在 TPAMI、ICML、CVPR、ACL、NAACL 等国际顶会发表了八篇论文,还担任了 TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP 等顶会的审稿人。
2023 年,一个关键转折点到来了。
字节跳动成立大模型研究部门 Seed,曾妍和所在团队一同转入。
这个时间节点你得放在大背景下看,2022 年底 ChatGPT 横空出世,2023 年初各大公司纷纷 All in 大模型,字节也在这波浪潮中调整了技术战略。
曾妍擅长的多模态预训练,在视频生成这个新战场上,能发挥她的全部实力。
在 Seed 部门,曾妍作为第一作者主导了两个重要项目,分别是 CCLM 和 Lynx。
先说 CCLM(Cross-View Language Modeling)。
这个项目让 AI 模型同时学会 " 跨语言 " 和 " 跨模态 " 的理解能力。CCLM 通过统一的预训练框架,让在英文图像 - 文本数据上训练的模型,可以零样本迁移到中文、日文等其他语言的多模态任务上。
说白了,就是让 AI 学会 " 举一反三 " ——在英文视频上学到的理解能力,能直接用到中文、日文、西班牙文的视频上。
再说 Lynx。
这是一个系统性研究如何训练 GPT-4 风格多模态大语言模型的项目。2023 年正是 GPT-4 刚发布的时候,大家都在摸索怎么做出 " 能看图说话 " 的大模型。
曾妍团队通过一系列对比实验,找出了模型架构设计、训练数据配比、指令微调策略等关键因素,最终做出了 Lynx 模型,在多模态理解和指令跟随能力上都表现出色。
用人话说,就是研究 " 怎么造出一个既能看懂图片又能流畅对话的 AI",并且搞清楚了哪些因素真正重要。
真正让曾妍 " 出圈 " 的,是 2023 年年底的 PixelDance。
这个项目的论文题目很有意思,叫《如何让像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解决的是视频生成领域一个长期存在的矛盾,如何平衡动态性和稳定性。
你想想,如果一个 AI 生成的视频动作幅度很大、画面变化剧烈,看起来确实生动有趣,但很容易出现画面崩坏、角色变形、物体突然消失这些 " 灵异事件 "。
反过来,如果你追求稳定性,让角色和场景保持一致,人物面容不突变,那生成的视频就容易僵硬,像幻灯片切换而不是流畅的动态影像。
曾妍团队的突破在于,他们在预训练阶段就建立了严格的时序约束。
传统的视频生成模型都是先生成视频,然后再一帧一帧去修补。PixelDance 则是让模型学会了在保持一致性的前提下生成动态内容。
核心创新点是在扩散模型框架中,引入首帧 + 末帧的双图像指令,配合文本指令联合约束视频生成,同时在网络结构中新增时序卷积与时序注意力层,从生成的源头就锚定了视频的起止状态,从而保证大动态动作下的主体与场景一致性。
就像训练一个舞者,从一开始就教她在保持平衡的前提下做大幅度动作。
PixelDance 的成功,让曾妍在字节内部的地位迅速提升。
2024 年,她从算法工程师晋升为算法研究员,成为 Seed 团队中最年轻的研究员之一。这个晋升不只是对她学术能力的认可,更重要的是,她证明了自己能把研究成果转化为实际产品。
在大厂里,这两种能力的差别,就像会做菜和会开餐厅的差别。
02 从 PixelDance 到 Seedance 2.0
有意思的是,PixelDance 就是 Seedance 的前身。
Seed 代表字节的大模型部门,dance 则保留了 " 让像素起舞 " 的核心理念。这个改名不只是品牌策略,更标志着模型从研究原型向商业产品的转变。
2025 年 6 月 11 日,字节正式发布了 Seedance 1.0,曾妍是该模型的核心研发负责人。
虽然直至 2026 年 2 月,曾妍才被字节官方确认为 Seedance 2.0 视频模型预训练负责人,但知情人士爆料,早 2025 年下半年时,曾妍就已经正式牵头 Seedance 2.0 的预训练全流程工作,成为该项目的核心一号位。
她的 +2 leader 是周畅,+3 leader 是 Seed 团队负责人吴永辉。
Seedance 2.0 核心技术突破之一是双分支扩散变换器架构,这是曾妍团队在预训练阶段就确立的基础架构。
传统视频生成模型采用 " 先画后配 " 的模式。即先生成视频画面,再单独生成或匹配音频。
这种方式的问题在于,音画分离导致同步性差,人物说话时嘴型对不上,背景音乐的节奏与画面情绪脱节,音效出现的时机与画面动作不匹配。
Seedance 2.0 通过视频与音频并行生成的方式,共享同一个理解编码器,从根源上实现了音画原生协同。
这个架构设计的关键在于,让模型在生成每一帧画面的同时,就考虑对应的音频应该是什么样的,而不是等画面全部生成完再去 " 配 " 音频。
文章开头我就讲了,预训练是整个模型能力的基石。
曾妍在这个阶段需要处理海量的视频数据,建立视觉、文本、音频等多模态之间的对齐关系。
她通过引入 " 跨分支校准模块 ",实时校准视频与音频的节奏、情绪与场景匹配度,确保嘴型与台词同步、音效与画面契合、背景音乐与情绪氛围一致。
预训练阶段把所有的多模态对齐关系、物理规律、运动模式都塞进模型里,成为 " 默认项 "。后续模型只要调用到相关内容,就会立刻给出预训练时的结果。
它不是简单地让模型记住训练数据,而是让模型从海量数据中提炼出普遍规律,形成对世界的基础理解。
Seedance 2.0 生成时长 1 分钟的 2K 视频仅需 60 秒,比上一代 Seedance 1.5 Pro 快了 30%。
速度提升的背后,是曾妍团队在预训练阶段对模型架构、训练策略、数据配比的精细调优。
她的团队迭代速度极快,在预训练阶段就完成了扩散模型的多轮优化。
优化注意力机制减少冗余计算,改进噪声调度策略加快收敛速度,精选高质量训练数据提升样本效率。
每一个优化点单独看都不起眼,但累积起来就是质的飞跃。模型规模越大,训练成本越高,每一个百分点的效率提升都意味着数百万元的成本节约和数周的时间缩短。
Seedance 2.0 还实现了多镜头叙事能力。这意味着模型不仅能生成长视频,还能理解 " 全景 - 中景 - 特写 " 的专业分镜逻辑,自动规划镜头切换,生成带有蒙太奇效果的完整叙事序列。
这个能力很大程度上依赖于曾妍在预训练阶段投喂的字节跳动海量短视频数据。
抖音每天产生数以亿计的短视频,这些视频虽然大多是普通用户拍摄,但其中不乏优秀的镜头语言和叙事技巧。
曾妍团队从这些数据中筛选出高质量样本,让模型学习到了人类导演的镜头语言和叙事节奏。这种从数据中提炼出的 " 导演直觉 "。
03 曾妍与罗福莉
同为女性 AI 科学家,曾妍和罗福莉在模型研发中,都擅长寻找 " 平衡点 "。
在 DeepSeek 时期,罗福莉参与的 DeepSeek-V2,通过 MoE 架构的稀疏激活,把推理成本降到了 GPT-4 Turbo 的七十分之一,但是性能却与顶尖的闭源模型十分相近。
这就像设计一个大型图书馆,虽然藏书百万册,但每次查询只需要翻开其中几本,而不是把所有书都搬出来。这种 " 按需激活 " 的机制,让大模型的成本骤然下降,却不怎么损失性能。
罗福莉在性能与成本之间,找到了这样一个平衡点。
到了号称 " 性价比之王 " 的小米,罗福莉把 DeepSeek 的精神贯彻到底。她主导团队与北京大学联合研发资源管理系统 ARL-Tangram,让模型的算力成本直降 71.2%。
然而成本下降并不意味着性能下降。使用了该技术的万亿参数的旗舰模型 MiMo-V2-Pro,在 Artificial Analysis 全球大模型综合智能排行榜上位列第八、国内第二。
罗福莉证明了一件事:性价比不是某个项目的偶然,而是一种可以跨平台复制的方法论。
曾妍的平衡点则是前文提到的动态性和稳定性,让视频生成模型又能讲好故事,又有画面张力和视觉冲击力。
两人不同的是职业规划。
罗福莉从阿里跳到幻方,再到 DeepSeek,这条路径是 " 从大厂到创业公司,从工程应用到模型研究 "。
曾妍则是在字节内部一路深耕,5 年时间完成了从校招毕业生,坐到了 4-2 的位置。
两条路径没有高下之分。
在 AI 大模型这个烧钱、拼资源、看长期积累的领域,年轻的技术人才依然可以通过对问题的深刻理解,在短时间内做出关键贡献。
有可能他们研究的方向,你听都没听过,但就是有效。
她们的故事才刚刚开始。


登录后才可以发布评论哦
打开小程序可以发布评论哦