刘强东甩出王炸，京东大模型一飞冲天

刘强东：未来五年的技术进步，可能会超越过去十年的成就。

出品 | 电商头条作者 | 李松月

AI 浪潮席卷而来，各类模型层出不穷，但视频生成始终是一块难啃的骨头。尤其是长视频，几乎很难一次性成功：不是角色动作出错，就是场景逻辑混乱。

这也让 AI 视频长期停留在 " 玩具 " 阶段，难以真正进入专业创作领域。

好在技术仍在不断突破，各大互联网公司也在持续攻坚。

日前，京东正式推出并开源 JoyAI-Echo 长音视频生成框架。相比此前行业里大量停留在 " 几秒钟短片 " 阶段的 AI 视频模型，JoyAI-Echo 的核心突破，在于真正开始攻克 " 长视频生成 " 这一公认难题。

图源：京东黑板报

长期以来，AI 生成长视频普遍面临三个关键问题：角色一致性容易崩坏、人物声音频繁变化，以及生成速度过慢，难以满足实际生产需求。而 JoyAI-Echo 正是围绕这三个问题进行了系统优化。

JoyAI-Echo 内置了跨模态音视频记忆库，可以在多镜头生成过程中，持续记录并调用角色外观特征与音色信息，从而保证人物在长时间、多场景切换中的一致性。

经过实测，验证了在长达 5 分钟的视频生成过程中，角色身份、视觉形象以及声音音色依然能够保持高度统一。

这背后，本质上是在解决 AI 视频领域最棘手的 "时序一致性" 问题。

此前，大多数 AI 视频模型在生成短视频时表现尚可，但一旦时间拉长，就会出现人物面部变化、服装错乱、声音漂移甚至场景逻辑断裂等问题。

这也是为什么过去 AI 视频更多用于概念展示、实验短片，而难以真正进入工业化内容生产阶段。

JoyAI-Echo 此次发布的意义，在于它开始让 AI 视频从 " 演示级 " 向 " 生产级 " 迈进，也标志着，京东在长视频生成领域进入全球第一梯队。

除了角色和声音一致性问题，JoyAI-Echo 另一个重要突破就是生成效率。

京东团队提出了 "记忆驱动后训练流程"，结合 SFT、跨模态 RLHF 以及 Distribution Matching Distillation（DMD）等技术，对生成链路进行了优化。其中，仅 DMD 技术就带来了约 7.5 倍的推理速度提升。

推理效率的提升，意味着 AI 视频开始具备更强的实时生产能力，也意味着商业化门槛正在下降。

JoyAI-Echo 此次还加入了一个颇具代表性的功能："对话式编辑"。

过去 AI 视频生成还有一个痛点，就是修改成本极高。用户如果对其中一个镜头不满意，往往需要重新生成整条视频。

但 JoyAI-Echo 引入了 Director Agent（导演助理）机制，可以通过自然语言直接调整镜头、场景和角色内容，实现局部修改，而不必整体重跑。

这意味着 AI 视频正在从 " 静态生成工具 "，逐渐演变为 " 动态协作工具 "。

从产业层面来看，JoyAI-Echo 的发布，对于京东自身体系也具有非常现实的意义。

当前电商行业已经进入 " 内容驱动消费 " 阶段。短视频、直播、种草内容，正在成为用户消费决策的重要入口。尤其是在抖音、快手等平台推动下，" 短视频 + 直播 " 已经成为行业主流趋势。

而 AI 长视频生成能力一旦成熟，最先改变的就是电商内容生产逻辑。

这对于京东而言，不只是技术突破，更是平台能力升级。

因为京东本身拥有海量商家与商品生态。如果 AI 视频工具能够深度嵌入商家后台，那么它实际上会成为一种新的基础设施。

对于大量中小商家来说，AI 生成内容意味着营销门槛下降；对于平台而言，则意味着内容供给能力大幅增加。

尤其是在直播电商与内容电商高度竞争的背景下，AI 视频能力可能会逐渐成为平台的重要竞争力之一。

事实上，在 AI 技术赋能电商这件事上，京东已经布局多年。

除了此次推出的 JoyAI-Echo 之外，京东此前已经陆续发布了 JoyAI 基础大模型、JoyAI-RA 具身智能模型、JoyInside、AI 数字人以及 AI 智能体 " 京言 " 等多个 AI 方向产品。

其中，AI 数字人与智能客服方向，已经较早进入实际业务场景。

早在 2024 年，京东就以集团创始人刘强东为原型，推出了 " 采销东哥 "AI 数字人，开启直播首秀。

开播仅 30 分钟，直播间观看量就突破千万；40 分钟直播中，整体订单量破 10 万，整场成交额超过 5000 万元，用户平均停留时长达到日常均值的 5.6 倍。

图源：京东

去年 12 月，京东正式宣布京东数字人直播向所有商家免费开放，旨在帮助商家快速搭建全时段无间隙的 24 小时直播间。

同时，京东还全面开放公域流量，帮助商家实现降本增效，实现高效转化。

图源：京东云

而就在两个月前，刘强东的数字人形象再次出现在三亚国际游艇分展区活动现场，并发表致辞，同时宣告刘强东的个人游艇品牌在三亚落地。

如今 JoyAI-Echo 的推出，也意味着京东开始进一步向 AI 内容生产链路延伸。

从整个行业来看，长视频生成赛道也正在迅速升温。

2026 年初，字节跳动推出Seedance 2.0 视频生成模型，被不少业内人士视为 AI 视频从 " 可用 " 迈向 " 生产级 " 的关键节点之一。

随后在 2026 年 5 月，火山引擎又正式上线 "火山剧创 1.0"，开始覆盖短剧创作全流程，包括剧本生成、镜头拆解以及视频生成等环节。

图源：火山引擎

这背后反映出的，是字节对于 "AI 内容工业化" 的明确布局。

因为字节本身拥有抖音、西瓜视频等庞大的内容生态，而短剧又是当前流量增长最快的内容形态之一。

AI 视频能力如果能够降低短剧生产成本，将直接影响未来内容供给效率。

阿里同样在快速推进视频生成方向。

此前，HappyHorse曾匿名登顶图生视频榜单，随后阿里巴巴正式 " 认领 "HappyHorse，并确认是由其旗下 ATH（Alibaba Token Hub）创新事业部研发。

图源：Artificial Analysis

图源：X 平台

2026 年 5 月，阿里云又推出 AI 视频创作平台 " 万镜一刻 "，整合 HappyHorse、Wan、Qwen-image、Z-image 等多套模型能力。

图源：万镜一刻

值得注意的是，阿里的思路更偏向 "完整创作链路"。

其平台不仅提供视频生成，还引入了 " 编剧 Agent"" 导演 Agent"" 提示词 Agent" 等功能模块。

例如，编剧 Agent 可以把一句话创意扩展成完整剧本，导演 Agent 负责拆解镜头，而提示词 Agent 则负责生成电影级运镜语言。

这种模式本质上是在尝试构建整个影视工业流程。

快手方面，则在 2026 年 2 月正式全球上线可灵 3.0 系列模型，包括可灵视频 3.0、可灵视频 3.0 Omni 等产品。

由于快手本身长期深耕短视频与直播生态，因此其 AI 视频能力也被视为未来平台商业化的重要方向之一。

图源：可灵 AI

可以发现，AI 视频生成技术，正成为几大互联网巨头的必争之地。竞争的焦点，也在从单一的 "生成能力" 转向更全面的 "工业化能力"。

更要看解决角色一致性、长时序逻辑、交互式编辑的能力，以及能否支撑起商业化生产的高效率需求。

当然，现阶段 AI 长视频仍然存在不少限制。

包括算力成本较高、复杂剧情稳定性不足、细节控制能力有限，以及版权与数据合规等问题，依然是行业需要持续面对的挑战。

尤其是随着 AI 生成内容规模扩大，关于训练数据来源、版权归属以及内容真实性的问题，也会越来越受到重视。

但整体来看，AI 视频行业已经进入明显加速阶段。

而长视频能力一旦成熟，它带来的影响将不仅仅局限于娱乐行业。

广告、电商、教育、游戏、短剧、品牌营销、虚拟主播、数字人直播，乃至未来的互动影视，都可能因此发生变化。

对于平台而言，AI 视频意味着更低的内容生产成本、更高的内容供给效率以及更强的商业转化能力。

对于创作者而言，则意味着内容生产门槛进一步下降。

而对于整个互联网行业来说，这意味着 " 内容工业化 " 正在进入全新的阶段。

宙世代

一起剪

相关标签