文 | 字母 AI
AI 视频这条赛道,最近有点冷,Seedance 2.0 陷入版权争议,OpenAI 关停 Sora ,让这条赛道上空阴霾密布。
就在这个时候,阿里牵出来了一匹黑马。
2026 年 4 月,HappyHorse-1.0 冲上 Artificial Analysis 榜首,在文生视频和图生视频(无音频)两个赛道同时压过字节、快手等对手。
张迪在 2025 年 11 月回归阿里巴巴,接任淘天集团未来生活实验室负责人一职,并直接向阿里妈妈 CTO 郑波汇报工作。
也就是说,张迪从回归到闯出名堂,中间也就隔了 5 个月左右。
关键在于,HappyHorse 和阿里的千问一样,开放了可商用的开源版本。
现在千问在阿里什么地位?它是阿里集团级的核心通用大模型底座、AI 战略的绝对核心载体。阿里现如今的一切,都是在围绕千问进行布局。
所以 HappyHorse 对阿里的意义,可能也远不止是一个刷榜秀技术的模型那么简单。
不过在理解阿里的想法之前,我们应该先来聊聊,张迪是谁。
01 从阿里到快手再回阿里
张迪毕业于上海交通大学计算机专业,本硕连读,2010 年毕业后加入阿里巴巴,长期负责阿里妈妈的大数据和机器学习工程架构。
阿里妈妈做的是广告、推荐、搜索和转化,背后是大规模数据、大规模分发和复杂工程系统。这些东西听起来没有大模型那么热闹,但它们正是后来中国互联网公司训练 AI 人才的地方。
很多真正能把模型做成产品的人,并不是纯粹从实验室里出来的。他们更早经历过搜索、推荐、广告、内容分发这些系统的历练。
这我随便举几个例子你就懂了。谷歌 CEO 桑达尔 · 皮查伊,他就是做搜索栏和 Youtube 内容推荐出身的,微软的 CEO 萨提亚 · 纳德拉,他在微软一开始开发的就是必应搜索引擎和微软广告体系。
因为这些系统每天都在处理海量用户行为,也要求模型能在真实业务里稳定运行。它不允许工程师只做一个好看的 demo,它强迫你做出真正有用的东西出来,还必须在延迟、成本、效果、反馈之间反复取舍。
张迪在阿里的十年,大致就是在这样的环境里度过的。那时候外界还没有把所有事情都叫作大模型,但阿里内部早就有一套围绕数据、算法和工程化的训练场。
2020 年,张迪离开阿里去了快手。
当时的短视频平台,已经从流量竞争进入技术竞争阶段。张迪在快手历任技术副总裁、大模型与多媒体技术团队负责人,后来主导了可灵大模型的底层架构研发和应用落地。
可灵对快手的意义是非常重大的。
可灵让快手从过去的 " 内容分发平台 ",升级为 " 内容生产基础设施提供商 ",构建了 " 创意生成 - 视频制作 - 一键分发 - 流量变现 - 数据迭代 " 的完整闭环
2025 年 4 月,快手成立可灵 AI 事业部,并升级为公司一级部门,直接向 CEO 程一笑汇报,与短视频主业务平起平坐。
所以当他在 2025 年 9 月短暂加入 B 站,又在两个月后回到阿里时,这个动作就很难只看成一次普通的人才流动。
B 站需要视频技术,阿里同样需要视频技术,只是阿里的需求更复杂。
快手做视频生成,无非就是分发。但阿里要是做视频生成,那背后牵连的环节就多了去了。有电商、广告、直播、云服务和海外商家。
前文提到,张迪 2025 年 11 月回归阿里后,出任淘天集团 " 未来生活实验室 " 负责人,职级 P11。
如此安排下来,阿里味还是很浓的。它没有把视频模型简单放在一个纯研究部门里,其位置反而更靠近淘天这样一个交易现场。
换句话说,HappyHorse 从构思开始,就是一个强调落地,和阿里现有生态绑定的产品。
五个月后,HappyHorse 出现了。
这个速度确实快,阿里给了张迪一个新的业务场景和团队,他把视频模型这条路线再次打通。
他既不是从零开始进入 AI 视频,也不是单纯从外部空降到阿里。
他的职业路径像一条绕出去又绕回来的线。先在阿里学会大规模商业系统怎么运转,再去快手把视频生成做成产品,然后又回到阿里,把这套能力放进更大的商业机器里。
很多公司都在抢大模型人才,但真正稀缺的人,往往是能同时理解模型、业务和组织的人。
单纯会训练模型的人很多,单纯会讲战略的人也很多,难的是有人知道一个模型从技术路线开始,到架构设计,到训练推理,到产品出口,到最后被商家和用户用起来,中间每一步会在哪里卡住。
HappyHorse 把张迪重新推到台前,也让阿里过去几年相对分散的 AI 叙事有了一个更具体的人物入口。
02 开源模型如何击败闭源巨头
HappyHorse 真正引起关注的点,在于它赢得太突然了。
在视频生成这条赛道上,海外有 Runway、Pika、Luma、Google 的 Veo,国内有字节的 Seedance、快手的可灵。阿里排不上号。
所以当 HappyHorse 刚屠榜的时候,大家甚至更愿意相信说这是某创业公司开发的模型,也不愿意相信这是阿里的模型。
HappyHorse 在文本转视频和图像转视频两个赛道都处在第一梯队,文本转视频 Elo 分数为 1333,图像转视频 Elo 分数为 1392。
Artificial Analysis 的榜单本身会随用户盲测不断变化,后续页面分数也有更新,但是它确实在用户偏好测试中压过了一批更早出名的闭源模型。
这事其实挺反常的。通常来说,视频生成是最吃钱、吃数据、吃算力的方向之一。
闭源大厂可以把数据、模型细节、推理系统和产品体验藏在自己平台里,持续做内部迭代。
开源模型则要面对更多现实限制,它的参数要能公开,推理要能跑起来,社区要能复现,效果还要经得起横向比较。
所以在 HappyHorse 出现之前,开源视频模型大多数都是玩具,输出的视频不够稳定,人物还经常会出现漂移。
HappyHorse 有 150 亿参数、40 层统一自注意力 Transformer 架构,把文本、视频、音频三种模态的 token 放进同一个序列里联合建模。
这个路数和千问非常像,这也就解释了为什么张迪仅用 5 个月就把 HappyHorse 弄出来了,很可能是沿用千问留下来的高质量原生多模态训练方法。
像 Sora 这种非多模态原生的视频生成模型,经常会出现人物嘴在动,声音慢半拍的情况。并且有时候人物表情很丰富,但语气不对。人物还有可能在声音发出之前就行动了。
HappyHorse 评分高的原因就在于,它通过原生多模态解决了这个问题。
HappyHorse 原生支持英语、普通话、粤语、日语、韩语、德语、法语等多种语言的唇形同步,词错误率也被拿来和同类开源模型比较。
张迪为什么要这样做?我的理解是,如果阿里想让视频生这项技术进入广告、电商、短剧、教育和直播,就不能只靠画面漂亮。
它要能说话,要能配音,要让声音和画面同时成立。
另一个关键点是成本和速度。
HappyHorse 在单张 H100 GPU 上生成 5 秒 1080p 视频约需 38 秒,并采用 DMD-2 蒸馏技术把去噪步骤压到 8 步。
这是视频生成商业化绕不开的一道坎。模型效果再好,如果生成一条短视频成本太高、等待太久,就很难进入商家日常工作流。
商家不会为每个商品等半天,也不会为几十个测试素材支付过高成本。
所以 HappyHorse 的意义不只是 " 能生成 ",还在于它试图把生成速度和推理成本压到可用区间。
对开发者来说,开源意味着可以自托管、微调、接入自己的产品。对平台来说,开源也会带来更多社区反馈
一个闭源模型的进步主要依靠公司内部团队,一个开源模型会被开发者拿去做各种奇怪测试,问题暴露得快,改进方向也会变多。
Artificial Analysis 的视频竞技场采用用户偏好投票,很多时候不只看某一个技术指标,更看用户在两段视频之间更喜欢哪一个。
当然,张迪还不能太骄傲,一次榜单登顶不等于永远领先。
竞争对手不会停在原地。HappyHorse 现在赢下的只是一场公开测试,还不是整个战争。
HappyHorse 如果只是一个能刷榜的模型,它的意义有限。可如果它能成为阿里云、淘天业务共同使用的视频生成底座,它就会变成一个入口。
所以说 HappyHorse 击败闭源巨头,最有意思的地方并不只是分数领先。真正值得关注的是,它让阿里找到了一种重新进入视频生成牌桌的方式。
它没有先做一个面向 C 端用户的 APP,也没有只在内部做演示,而是直接拿开源模型接受全行业检验。
这场胜利未必会持续很久,但张迪让外界改变了对阿里在视频生成模型上的判断。
新的问题变成了,阿里准备把这项能力用到哪里?
03 HappyHorse 对阿里的意义
HappyHorse 最直接的落点,是电商。
过去大家谈 AI 视频,最容易想到影视、短剧、广告大片、创作者工具。诚然,这些都是实打实的大市场,不过它们离阿里的主业务还有一段距离。
阿里的优势不在于自己做一个视频社区,也不在于让普通用户每天打开一个 AI 视频 APP 消磨时间。阿里真正有优势的地方,是它手里有中国最密集的商品、商家、交易和广告系统。
这也是为什么很多人都在意说 HappyHorse 诞生于淘天集团的 " 未来生活实验室 "。
淘天每天面对的是商家怎么卖货,商品怎么被看见,用户为什么点进来,又为什么下单。HappyHorse 放在这里,大家自然就会想到它能不能提高商品内容生产效率,能不能提高转化,能不能帮平台多做生意?
对一个普通商家来说,视频内容一直是个麻烦事。
拍一条 30 秒的商品视频,你要找场景、找模特、打光、剪辑、配音。大品牌可以请团队,中小商家更多时候只能自己凑。
很多商品卖点并不复杂,问题在于没人把卖点拍出来。它们放在白底图里都很普通,一旦进入具体场景,用户才会意识到它能用来做什么。
前一阵在海外,太阳能喷泉泵这个产品卖爆了,它原本只是庭院小件,效果也就那么回事。但是被 AI 视频包装成鸟浴盆、鱼池和儿童浴缸里,酷炫的喷水玩具后,所有人都在疯抢。

AI 没有改变商品本身,却改变了用户理解商品的方式。它把 " 功能说明 " 变成了 " 使用场景 "。
这正好击中电商内容的痛点。
商品页里写满参数,用户未必有耐心看;主播讲半天,用户也未必相信。但一条十几秒的视频,如果能把场景讲清楚,转化效率可能会高很多。
更重要的是,AI 视频可以批量生成。商家可以为同一个商品生成儿童版、家庭版、节日版、户外版,也可以为不同国家生成不同语言、不同人物、不同场景。
这对阿里的意义,比单纯做一个视频生成工具要大。无论是淘宝,还是天猫,上面都有大量商家,也都有大量商品数据和交易反馈。
一个 AI 视频工具如果只知道生成漂亮画面,它很快会变成素材软件;如果它能知道这个商品在什么场景下更容易被点击,什么文案更容易带来加购,什么视频前几秒更容易留住用户,它就会接近电商操作系统的一部分。
阿里比其他视频生成模型公司多出来的,正是这个反馈闭环。
商品图、详情页、评价、问答、搜索词、点击率、加购率、退款原因、直播间停留时间,这些东西看起来零碎,却都是训练电商内容能力的燃料。
HappyHorse 如果接入这些反馈,就可以从 " 帮商家生成一条视频 ",进化到 " 帮商家生成更可能卖货的视频 "。
面向淘天,它可以做主图视频、商品场景短片、直播切片、虚拟主播和营销素材。
过去一个商家上新,可能只上传几张图,最多再拍一条粗糙短视频。以后它可以把商品图、卖点、评价和人群标签交给系统,让系统生成多条不同版本的视频,再用真实投放和成交数据筛选出更有效的那一条。
这个过程如果跑顺了,平台内容供给会明显增加,中小商家的内容门槛也会下降。
不过,AI 视频带货也有风险。它可以放大卖点,也可能放大幻觉。一个喷泉泵在 AI 视频里喷得很高,现实里达不到那样的效果。
阿里的机会不该是纵容商家用 AI 造梦,重点应该放在商品参数、实拍素材、买家评价和平台审核上,让生成内容有边界。
3 月下旬,OpenAI 宣布关停 Sora 独立应用和相关 API。原因很现实,视频生成太烧钱,用户留存撑不起成本,OpenAI 要把算力放回编码、企业服务和机器人方向。
Sora 倒在了商业账上。
字节也在另一头遇到麻烦。Seedance 2.0 虽然效果也很猛,但是因为版权问题,字节暂停了 Seedance 2.0 的全球发布。
模型训练得越强,就越容易踩进版权、肖像权和训练数据的泥潭。
这时再看张迪带队做出的 HappyHorse,它有清晰的商业场景。而且阿里手里的商品图、商家素材、实拍视频和交易反馈,天然比影视 IP 更适合可控生成。
所以 HappyHorse 的价值,不只在榜单。它给 AI 视频找了一个更稳的落点。


登录后才可以发布评论哦
打开小程序可以发布评论哦