对谈 PixVerse 联创谢旭璋：当视频大模型进入决赛圈

采访：Koji

整理编辑：十字路口

‍ 排版 : Zeoooo

6 月 12 日，在 AltNext 大会现场，我们与 PixVerse 联合创始人谢旭璋（Jaden）进行了一场关于视频大模型的对谈：从中国公司的极速内卷、到硅谷公司的陆续 " 弃战 "，到实时世界模型 PixVerse R1 即将发布的 R2 想象——他分享了这条赛道如何进入 " 决赛圈 "、Seedance 后时代的新思考、以及普通人何以第一次真正拥有视频创作的权利。

Koji

今天现场有个主题是 " 在未来，人人都可以成为导演 " ——作为身处一线的视频大模型创业者，Jaden 你觉得我们距离这一天的到来，还有多少天？ 500 天、1000 天，还是 30 天？

‍ 谢旭璋

其实已经非常近了。

爱诗科技从 2023 年开始做视频生成，当时这还是一个冷门方向。我们在产品路径上比较特殊，主要面向普通人，降低创作门槛。

目前我们在全球有超过 1 亿用户，调研显示，其中 50% 的人之前从未制作过视频。这意味着，只要有手机，任何人都可以成为视频创作者。

现在我们更需要的是模型的迭代，以及全行业的共同努力，让大众意识到 AI 技术已经就绪，能帮大家成为 AI 原生创作者。

这已经无法用具体的天数来衡量，它就在眼前，只是需要我们共同努力，把它推到每个人面前。

你非常乐观，坚信那一天必然会来？

是的。

信号

在这个过程中，你看到了哪些具体的信号或触动你的故事？

有两个瞬间对我触动很深。

第一个是在产品刚上线几个月时，有一位六七十岁的退休干部给我们写了一封很长的邮件。当时我们正在征集 AI 创作者并赠送免费 Token，他看到后报了名。

信里写道，他一辈子都有个导演梦，但以前受限于工具和剪辑门槛无法实现，直到发现 AI 降低了门槛。

这封信很让我触动，世界上有太多每天在看视频、却从未亲手创作过内容的人。AI 真正给了每个人成为创作者的机会。

第二个是我们在春节前做的用户调研。数据显示，我们平台 50% 以上的用户此前从未制作过视频，也就是从来没有在 PixVerse 之外的地方做过视频。

也就是说，他们此前没有用过剪映等任何工具做过视频？

是的。全世界每天有几十亿人在看视频，但短视频平台的整体投稿率不到 10%。这意味着 90% 的人只有消费内容的能力，却没有创作的经验。

视频虽已成为第一大信息媒介，但创作的权利并未真正平权。

那位退休干部后来做的作品怎么样？

他做出了他的第一个长片。

我们给他提供了很多免费 token，对于一个零基础的新手来说，成片效果非常不错。

视频本质上是多模态的艺术，涵盖了故事、画面和剪辑。我看到他后来一直在坚持，既用我们的工具，也用别家的工具，至今仍在创作。

说到 " 人人都是导演 "，Jaden，你作为公司的联合创始人，自己也尝试过当导演做视频吗？

创业的第一年，我想既然自己在做视频 AI 公司，但自己却没亲手做过视频。于是清明节去大庆博物馆时，我拍了很多恐龙化石的照片，用 " 图生视频 " 技术将它们全部 " 复活 "。

为此我专门学了一周的剪映，配音、加转场，费了很大功夫，剪出了一支自认为非常满意的视频。结果发出去一周，一共只有两个点赞，几乎没人看。

我这才发现，做视频依然是一件门槛极高的事情。

没用你公司的流量渠道推广一下？

没有。所以这件事让我意识到，创作的工作流如果太复杂，对于普通人来说门槛还是太高了。

这启发了我们后来做产品路径时的核心思考：用户要的不是复杂的剪辑，而是更简单、更直给的表达。

所以我们定义了一种核心的产品玩法：用户上传一段 5 到 10 秒的真实视频，系统将最后一帧通过 " 图生视频 " 进行虚拟延伸，形成从真实到虚拟的极致反差。

比如一个很经典的案例：有位用户拍了自家后院小狗走路的 5 到 10 秒真实画面，在第 10 秒小狗突然穿上了西装。这支视频在 TikTok 上拿了近 100 万点赞。

普通人需要的是更简单、更直给、更傻瓜式的方式，使他们的生活变成可以被分享的高质量视频内容。

源于生活，但高于生活？

对，很像帮人们做生活的 remix。把平凡的日常经过 remix 升华后，再分享出去。

全球 AI 视频赛道，中国厂商太卷太出色了

在 Seedance 出来之后，你和周边朋友有讨论吗？最多、最焦虑或兴奋的话题是什么？

Seedance 肯定是全行业都绕不开的标杆，极其优秀，目前在全球每月能产生接近 2 亿美金的收入。

而且这还是在算力卡并不充足的情况下。

对。而且视频生成赛道和代码、大语言模型很不一样。上个月我在海外跟同行交流，发现这个行业有一个奇特的现象：在 Seedance 出现前后，市场规模放大了近 10 倍，深度参与的玩家在减少。

许多美国同行目前进展不显著。包括 OpenAI 和 Google，我去参加 Google I/O，他们发布的 Omni 模型，视频生成质量其实低于预期。

Runway 这种全球最早做视频生成的公司，目前声音也在变小。

虽然 Luma 在推进其 " 世界模型 "，但整体看海外做这块的人在变少，而市场空间却在极速扩大。

什么原因导致了大家纷纷离开了视频模型的战场？

中国厂商太卷了。

无论是字节的 Seedance、快手的可灵，还是我们和阿里，大家迭代的速度都在极速飙升。

在人才密度和技术储备上，中国在视频领域的积淀比海外更深。过去 5 到 10 年里，全球最具影响力的视频产品和应用技术，绝大部分都是中国团队做出来的，这个底层浓度极高。

所以我们最近的首要话题就是自我迭代，打磨好产品，在这个快速爆发的市场里，拿下属于我们的商业份额。

第二个话题是关于实时视频大模型。

今年 1 月我们发布了首个实时世界模型 PixVerse R1，我们会筹备发布第二代。我们非常兴奋，当人能和内容进行实时互动，当 " 创作 " 与 " 生成 " 一体时，到底会产生哪些全新的场景和产品？这是我们的核心讨论点。

一个是面对 Seedance 的强力竞争，如何保持自我创新与快速迭代；另一个是关于 PixVerse R1 下一代的场景化探索？

在 Seedance、可灵等巨头如日中天的情况下，Pixverse 在下个阶段的竞争中，具体该如何破局？

创业之初我画过一个四象限：国内、全球、To B、ToC。大部分同行切入的是 To B 或 To C 里的专业创作者方向，为影视级或广告级创作者提供工具。

而我们的差异化在于，最早专注于服务没有任何视频制作经验的 " 绝对小白 "，帮助他们制作人生中第一个视频。这是一条直到今天仍极具非共识的道路。

为什么同行没有跟进这个方向？

坦白讲，我也不知道。

此前 Sora 曾尝试过 C 端应用，后来关停了，这让行业普遍产生了 "C 端工具不 work" 的认知。但事实上，我们在这块的体量极大。从月活和累计用户量来看，我们已经是全球用户量最大的视频生成平台之一，每个月帮助千万普通用户制作视频。

造成这个认知差异的原因在于：语言模型的逻辑是 " 模型即产品 "，靠一个对话框、用底模能力决定体验上限。但视频生成的逻辑完全不同。

视频的品类极多，短剧、长片、普通人玩的、企业用的，它们的工作流和交互逻辑千差万别。

行业老牌玩家如 Runway，早期的定位是影视级专业内容，这导致大部分公司入局时，惯性地去卷 4K 专业级画质。而我们作为创业公司，迭代快，愿意尝试很多方向，我们做了新业务线服务普通人，所以找到了一些不一样的切入点。

PixVerse R 世界模型的下一代，相较于第一代有哪些关键升级？

响应速度的大幅提升。虽然第一代 R1 已经接近实时，但依然有几秒的延迟，下一代会小于秒级响应。

不仅是时间上的快慢，更是交互层面的质变。当响应时间趋近于零，用户就可以通过键盘、鼠标或摇杆，对视频生成的过程进行实时的方向、角度和深度控制。

同时，我们正从 2D 视角向 3D 物理世界模型迭代，并开始打造一个 AI 原生的互动游戏引擎。

实时生成：用 AI 干掉传统渲染

AI 原生互动游戏引擎？该如何理解它的场景？

我们近期和前 Unity 的技术高管有过深入探讨。今年 1 月谷歌发布了 Genie3，我们发布了 R1，这引发了整个行业的巨大关注。我们认为，未来的视觉内容创作，包括游戏画面，可能不再需要用传统的游戏渲染引擎进行长周期的烘焙和渲染，而是可以直接用 AI 实时生成。

游戏本身就是视觉内容的集合。未来的 video game 将用 " 实时生成 " 替代 " 传统画面渲染 "。这会在视频和游戏之间，开辟出一种介于两者之间的全新形态，这也是我们下个阶段探索的重心。

R1 发布之初由于算力负载极高，只进行了小规模内测，现在已经面向公众全面开放了吗？

是的，目前已经全员可用。

新一代模型在除了速度快之外，会效率更高吗？

参数量有大幅增长，那么训练与推理确实会更消耗资源。但我们有极强的工程优化能力，以 R1 为例，从刚上线到今天，我们在算法和算力效率上优化了 10 倍以上。

下一代也会采用类似的节奏：先通过内测沉淀工程优化，再进行大规模商用。

在训练的数据侧，下一代模型做了哪些补充？

对 3D 物理空间和真实世界物理常识的数据训练。

数据源主要是真实拍摄，还是依靠游戏引擎和模拟器生成的合成数据？

两者并重。我们用全景相机采集了大量真实的现实世界画面，同时也通过高精度游戏引擎生成了丰富的仿真合成数据。合成数据与真实数据的互补，可以让模型拓展出更丰富的 use case。

在 R1 推出后的测试阶段，有没有用户的使用场景超出了你们的设想，做出了惊艳的作品？

在内测期间，每天有近万人在深度交互。我们最初预设了很多有意思的官方场景，但数据表明，接近 60% 的用户根本不玩官方场景，他们全在做自己的 UGC。

这就是所谓的 " 创作即消费 "？

对，创作本身就是他们的消费体验。

有些用户出差时随手拍下一张照片上传，用大模型衍生出该场景在平行世界里的魔幻变化。这个创作过程纯粹是为了自我满足，而非对外分发，但乐趣极大。

还有人上传游戏截图，让模型自动往外衍生，尝试在没有游戏规则限制的前提下会发生什么。这都启发我们，在推进产品化时，要进一步释放用户的 UGC 创意。

这就像人们去手工陶艺坊捏陶器一样，这本身就是创作及消费。未来我们可能在低门槛工具的帮助下，为自己创造一个游戏，这个过程就是最纯粹的快乐。

完全是这样。

如果从底层模型与算法层面来看，服务 " 普通用户 " 与服务 " 专业创作者 "，面临的挑战和技术侧重点有何不同？

最本质的差异在于设备与对等待时间的容忍度。

普通用户绝大多数是在手机端消费和分享视频，因此我们必须把移动端当作主力战场。但在移动端，大部分模型的生成速度无法满足即时体验的要求——当时生成一段 5 秒视频普遍需要 1 到 2 分钟，用户在手机端根本没有耐心等待，很快就会划走。

所以，我们对普通用户侧的模型研发，重点就在于 " 极致的快 "。我们在移动端优化出了极速模型，实现了 "5 秒生成 5 秒视频 "。用户上传照片、选择模板，5 秒出结果并一键分享，极大地缩短了反馈路径。

正因为我们在一年半前做到了 5 秒生成，我们才敢更往前走一步：如果能 1 秒生成、甚至做到更快，是否就能实现视频的实时互动与无限生成？这是我们探索 R1 实时大模型的原动力。

在你们的产品中，除了使用 PixVerse 大模型，有没有在特定场景下接入其他第三方的模型？

我们的产品线主要分为四块：面向 C 端的移动应用、面向专业创作者的网页端、面向企业客户的平台，以及实时交互模型 R1。

在移动端我们只用自己的模型。但在网页端，我们会接入第三方的优质模型。专业创作者的工作流极为复杂，我们接入外部优质工具，是为了更符合他们的使用需求。

庞大的全球用户基数每天产生海量数据，那么这些数据，对你们模型的再训练起到了什么作用？

作用分为直接和间接两个层面。

直接作用是，海量真实反馈数据能帮我们进行强化学习。我们目前积累了大量的包含下载、收藏和点赞等维度的多维反馈信号，这能让模型非常精准地感知哪些视频质量是用户真正认可的。

间接作用是，数据能作为 " 指南针 "，牵引我们的产品迭代和模型预训练方向。比如我们发现用户在移动端对生成速度有极致追求，我们就迅速调整算力分配，在下一次预训练和工程优化时全力攻坚速度。

三年来的 " 变 " 与 " 不变 "

爱诗科技成立于 2023 年。站在 2026 年的今天，回看这三年的极速变迁，你们对视频生成赛道的底层认知，有哪些始终未变，又有哪些被彻底颠覆了？

未曾改变的是我们的初心：在 2023 年初行业才刚起步、做视频生成还是一个极度非共识的方向时，我们就坚信 AI 最终会彻底改变内容创作。这种源自底层的信心至今未变。

当时这种 " 非共识 " 具体体现在哪里？

当时，全球范围内还没有任何一个团队能够做出高质量的视频生成大模型。

大语言模型也是因为 ChatGPT 推出后，大家才觉得可行。

大家 " 因为看见，所以相信 "。

对，我们当时团队的选择是 " 因为相信，所以看见 "，在大部分人犹豫时下了重注。我们相信 AI 会帮助产生新的内容创作者、新的内容形态、新的创作者群、新的平台。

那这三年来，" 变 " 的部分是什么？

变的是，我们完全低估了行业的发展速度。

最开始我们预测，从底层技术萌芽到走到 " 人人皆创作者 " 的时代，至少需要 5 年甚至更长时间。但事实是，过去一两年整个行业在以近乎失控的速度在狂飙。

从 Sora、可灵、我们的模型，到后来的 Google 以及 Seedance 2.0，整个行业还在加速。这导致曾经的 " 非共识 "，在极短时间内汇聚了巨头和资本们越来越多的信心。

这种几乎被压缩的行业周期，给你们带来了什么样的压力？

这意味着你必须极其凶狠地卷自己。

在如此之卷的激烈竞争下，你认为这个赛场的结局什么时候会出现？

我认为差不多到决赛圈了。

有资源、有能力去训练下一代顶级视频大模型的公司，全球范围内其实已经屈指可数，可能一只手就能数得过来。

在决赛圈里，制胜的核心因子是什么？

最基石、最不可动摇的，依然是高质量的模型。

在底层模型质量过线的基础上，才是各家比拼极致工程化、产品化以及商业化的能力，这些决定了模型在商业上的高度。

2026 年底：等待下一个真正破圈的实时场景

最后一个问题。现在是 2026 年 6 月，如果让你预测今年 12 月的行业发展，有哪些变化在今天可能还没形成共识，但在半年后会成为常态？

我相信到今年年底，Seedance 3.0 或许会正式亮相且全球范围内应该会出现一到两个与其完全平起平坐的顶级视频大模型。

这些可能诞生同级顶级模型的玩家，最可能在哪里出现？

大概率都在中国。我们也在全力以赴，希望成为其中一家。

此外在实时视频生成方向上，我极度期待今年年底前，能在消费端跑出第一个真正破圈的场景。就像几年前 AI 视频刚起步时，一个 " 超级英雄变身 " 的特效红遍全球。

我们希望在实时交互视频这一方向上，也能尽快找到全球范围内的第一个引起广泛共识的场景。

非常期待那个标志性时刻的到来，让每个人都能成为自己故事的导演。

感谢 Jaden 的分享，也谢谢现场各位朋友。

谢谢 Koji，谢谢大家。

十字路口正在寻找独立撰稿人，撰写 AI 产品和模型评测。

如果你写过类似文章：《实测 PixVerse C1》、《实测 LibTV》，请联系 zeo0811@gmail.com ，邮件内容请包括：① 个人介绍、② 你写过的 AI 评测文章。

我们会提供有竞争力的稿酬。期待与你一起观察与记录 AI 时代

宙世代

一起剪

相关标签