字母AI 6小时前
那个做出可灵的人,回阿里又造了一匹黑马
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 字母 AI

AI 视频这条赛道,最近有点冷,Seedance 2.0 陷入版权争议,OpenAI 关停 Sora ,让这条赛道上空阴霾密布。

就在这个时候,阿里牵出来了一匹黑马。

2026 年 4 月,HappyHorse-1.0 冲上 Artificial Analysis 榜首,在文生视频和图生视频(无音频)两个赛道同时压过字节、快手等对手。

张迪在 2025 年 11 月回归阿里巴巴,接任淘天集团未来生活实验室负责人一职,并直接向阿里妈妈 CTO 郑波汇报工作。

也就是说,张迪从回归到闯出名堂,中间也就隔了 5 个月左右。

关键在于,HappyHorse 和阿里的千问一样,开放了可商用的开源版本。

现在千问在阿里什么地位?它是阿里集团级的核心通用大模型底座、AI 战略的绝对核心载体。阿里现如今的一切,都是在围绕千问进行布局。

所以 HappyHorse 对阿里的意义,可能也远不止是一个刷榜秀技术的模型那么简单。

不过在理解阿里的想法之前,我们应该先来聊聊,张迪是谁。

01  从阿里到快手再回阿里

张迪毕业于上海交通大学计算机专业,本硕连读,2010 年毕业后加入阿里巴巴,长期负责阿里妈妈的大数据和机器学习工程架构。

阿里妈妈做的是广告、推荐、搜索和转化,背后是大规模数据、大规模分发和复杂工程系统。这些东西听起来没有大模型那么热闹,但它们正是后来中国互联网公司训练 AI 人才的地方。

很多真正能把模型做成产品的人,并不是纯粹从实验室里出来的。他们更早经历过搜索、推荐、广告、内容分发这些系统的历练。

这我随便举几个例子你就懂了。谷歌 CEO 桑达尔 · 皮查伊,他就是做搜索栏和 Youtube 内容推荐出身的,微软的 CEO 萨提亚 · 纳德拉,他在微软一开始开发的就是必应搜索引擎和微软广告体系。

因为这些系统每天都在处理海量用户行为,也要求模型能在真实业务里稳定运行。它不允许工程师只做一个好看的 demo,它强迫你做出真正有用的东西出来,还必须在延迟、成本、效果、反馈之间反复取舍。

张迪在阿里的十年,大致就是在这样的环境里度过的。那时候外界还没有把所有事情都叫作大模型,但阿里内部早就有一套围绕数据、算法和工程化的训练场。

2020 年,张迪离开阿里去了快手。

当时的短视频平台,已经从流量竞争进入技术竞争阶段。张迪在快手历任技术副总裁、大模型与多媒体技术团队负责人,后来主导了可灵大模型的底层架构研发和应用落地。

可灵对快手的意义是非常重大的。

可灵让快手从过去的 " 内容分发平台 ",升级为 " 内容生产基础设施提供商 ",构建了 " 创意生成 - 视频制作 - 一键分发 - 流量变现 - 数据迭代 " 的完整闭环

2025 年 4 月,快手成立可灵 AI 事业部,并升级为公司一级部门,直接向 CEO 程一笑汇报,与短视频主业务平起平坐。

所以当他在 2025 年 9 月短暂加入 B 站,又在两个月后回到阿里时,这个动作就很难只看成一次普通的人才流动。

B 站需要视频技术,阿里同样需要视频技术,只是阿里的需求更复杂。

快手做视频生成,无非就是分发。但阿里要是做视频生成,那背后牵连的环节就多了去了。有电商、广告、直播、云服务和海外商家。

前文提到,张迪 2025 年 11 月回归阿里后,出任淘天集团 " 未来生活实验室 " 负责人,职级 P11。

如此安排下来,阿里味还是很浓的。它没有把视频模型简单放在一个纯研究部门里,其位置反而更靠近淘天这样一个交易现场。

换句话说,HappyHorse 从构思开始,就是一个强调落地,和阿里现有生态绑定的产品。

五个月后,HappyHorse 出现了。

这个速度确实快,阿里给了张迪一个新的业务场景和团队,他把视频模型这条路线再次打通。

他既不是从零开始进入 AI 视频,也不是单纯从外部空降到阿里。

他的职业路径像一条绕出去又绕回来的线。先在阿里学会大规模商业系统怎么运转,再去快手把视频生成做成产品,然后又回到阿里,把这套能力放进更大的商业机器里。

很多公司都在抢大模型人才,但真正稀缺的人,往往是能同时理解模型、业务和组织的人。

单纯会训练模型的人很多,单纯会讲战略的人也很多,难的是有人知道一个模型从技术路线开始,到架构设计,到训练推理,到产品出口,到最后被商家和用户用起来,中间每一步会在哪里卡住。

HappyHorse 把张迪重新推到台前,也让阿里过去几年相对分散的 AI 叙事有了一个更具体的人物入口。

02  开源模型如何击败闭源巨头

HappyHorse 真正引起关注的点,在于它赢得太突然了。

在视频生成这条赛道上,海外有 Runway、Pika、Luma、Google 的 Veo,国内有字节的 Seedance、快手的可灵。阿里排不上号。

所以当 HappyHorse 刚屠榜的时候,大家甚至更愿意相信说这是某创业公司开发的模型,也不愿意相信这是阿里的模型。

HappyHorse 在文本转视频和图像转视频两个赛道都处在第一梯队,文本转视频 Elo 分数为 1333,图像转视频 Elo 分数为 1392。

Artificial Analysis 的榜单本身会随用户盲测不断变化,后续页面分数也有更新,但是它确实在用户偏好测试中压过了一批更早出名的闭源模型。

这事其实挺反常的。通常来说,视频生成是最吃钱、吃数据、吃算力的方向之一。

闭源大厂可以把数据、模型细节、推理系统和产品体验藏在自己平台里,持续做内部迭代。

开源模型则要面对更多现实限制,它的参数要能公开,推理要能跑起来,社区要能复现,效果还要经得起横向比较。

所以在 HappyHorse 出现之前,开源视频模型大多数都是玩具,输出的视频不够稳定,人物还经常会出现漂移。

HappyHorse 有 150 亿参数、40 层统一自注意力 Transformer 架构,把文本、视频、音频三种模态的 token 放进同一个序列里联合建模。

这个路数和千问非常像,这也就解释了为什么张迪仅用 5 个月就把 HappyHorse 弄出来了,很可能是沿用千问留下来的高质量原生多模态训练方法。

像 Sora 这种非多模态原生的视频生成模型,经常会出现人物嘴在动,声音慢半拍的情况。并且有时候人物表情很丰富,但语气不对。人物还有可能在声音发出之前就行动了。

HappyHorse 评分高的原因就在于,它通过原生多模态解决了这个问题。

HappyHorse 原生支持英语、普通话、粤语、日语、韩语、德语、法语等多种语言的唇形同步,词错误率也被拿来和同类开源模型比较。

张迪为什么要这样做?我的理解是,如果阿里想让视频生这项技术进入广告、电商、短剧、教育和直播,就不能只靠画面漂亮。

它要能说话,要能配音,要让声音和画面同时成立。

另一个关键点是成本和速度。

HappyHorse 在单张 H100 GPU 上生成 5 秒 1080p 视频约需 38 秒,并采用 DMD-2 蒸馏技术把去噪步骤压到 8 步。

这是视频生成商业化绕不开的一道坎。模型效果再好,如果生成一条短视频成本太高、等待太久,就很难进入商家日常工作流。

商家不会为每个商品等半天,也不会为几十个测试素材支付过高成本。

所以 HappyHorse 的意义不只是 " 能生成 ",还在于它试图把生成速度和推理成本压到可用区间。

对开发者来说,开源意味着可以自托管、微调、接入自己的产品。对平台来说,开源也会带来更多社区反馈

一个闭源模型的进步主要依靠公司内部团队,一个开源模型会被开发者拿去做各种奇怪测试,问题暴露得快,改进方向也会变多。

Artificial Analysis 的视频竞技场采用用户偏好投票,很多时候不只看某一个技术指标,更看用户在两段视频之间更喜欢哪一个。

当然,张迪还不能太骄傲,一次榜单登顶不等于永远领先。

竞争对手不会停在原地。HappyHorse 现在赢下的只是一场公开测试,还不是整个战争。

HappyHorse 如果只是一个能刷榜的模型,它的意义有限。可如果它能成为阿里云、淘天业务共同使用的视频生成底座,它就会变成一个入口。

所以说 HappyHorse 击败闭源巨头,最有意思的地方并不只是分数领先。真正值得关注的是,它让阿里找到了一种重新进入视频生成牌桌的方式。

它没有先做一个面向 C 端用户的 APP,也没有只在内部做演示,而是直接拿开源模型接受全行业检验。

这场胜利未必会持续很久,但张迪让外界改变了对阿里在视频生成模型上的判断。

新的问题变成了,阿里准备把这项能力用到哪里?

03 HappyHorse 对阿里的意义

HappyHorse 最直接的落点,是电商。

过去大家谈 AI 视频,最容易想到影视、短剧、广告大片、创作者工具。诚然,这些都是实打实的大市场,不过它们离阿里的主业务还有一段距离。

阿里的优势不在于自己做一个视频社区,也不在于让普通用户每天打开一个 AI 视频 APP 消磨时间。阿里真正有优势的地方,是它手里有中国最密集的商品、商家、交易和广告系统。

这也是为什么很多人都在意说 HappyHorse 诞生于淘天集团的 " 未来生活实验室 "。

淘天每天面对的是商家怎么卖货,商品怎么被看见,用户为什么点进来,又为什么下单。HappyHorse 放在这里,大家自然就会想到它能不能提高商品内容生产效率,能不能提高转化,能不能帮平台多做生意?

对一个普通商家来说,视频内容一直是个麻烦事。

拍一条 30 秒的商品视频,你要找场景、找模特、打光、剪辑、配音。大品牌可以请团队,中小商家更多时候只能自己凑。

很多商品卖点并不复杂,问题在于没人把卖点拍出来。它们放在白底图里都很普通,一旦进入具体场景,用户才会意识到它能用来做什么。

前一阵在海外,太阳能喷泉泵这个产品卖爆了,它原本只是庭院小件,效果也就那么回事。但是被 AI 视频包装成鸟浴盆、鱼池和儿童浴缸里,酷炫的喷水玩具后,所有人都在疯抢。

AI 没有改变商品本身,却改变了用户理解商品的方式。它把 " 功能说明 " 变成了 " 使用场景 "。

这正好击中电商内容的痛点。

商品页里写满参数,用户未必有耐心看;主播讲半天,用户也未必相信。但一条十几秒的视频,如果能把场景讲清楚,转化效率可能会高很多。

更重要的是,AI 视频可以批量生成。商家可以为同一个商品生成儿童版、家庭版、节日版、户外版,也可以为不同国家生成不同语言、不同人物、不同场景。

这对阿里的意义,比单纯做一个视频生成工具要大。无论是淘宝,还是天猫,上面都有大量商家,也都有大量商品数据和交易反馈。

一个 AI 视频工具如果只知道生成漂亮画面,它很快会变成素材软件;如果它能知道这个商品在什么场景下更容易被点击,什么文案更容易带来加购,什么视频前几秒更容易留住用户,它就会接近电商操作系统的一部分。

阿里比其他视频生成模型公司多出来的,正是这个反馈闭环。

商品图、详情页、评价、问答、搜索词、点击率、加购率、退款原因、直播间停留时间,这些东西看起来零碎,却都是训练电商内容能力的燃料。

HappyHorse 如果接入这些反馈,就可以从 " 帮商家生成一条视频 ",进化到 " 帮商家生成更可能卖货的视频 "。

面向淘天,它可以做主图视频、商品场景短片、直播切片、虚拟主播和营销素材。

过去一个商家上新,可能只上传几张图,最多再拍一条粗糙短视频。以后它可以把商品图、卖点、评价和人群标签交给系统,让系统生成多条不同版本的视频,再用真实投放和成交数据筛选出更有效的那一条。

这个过程如果跑顺了,平台内容供给会明显增加,中小商家的内容门槛也会下降。

不过,AI 视频带货也有风险。它可以放大卖点,也可能放大幻觉。一个喷泉泵在 AI 视频里喷得很高,现实里达不到那样的效果。

阿里的机会不该是纵容商家用 AI 造梦,重点应该放在商品参数、实拍素材、买家评价和平台审核上,让生成内容有边界。

3 月下旬,OpenAI 宣布关停 Sora 独立应用和相关 API。原因很现实,视频生成太烧钱,用户留存撑不起成本,OpenAI 要把算力放回编码、企业服务和机器人方向。

Sora 倒在了商业账上。

字节也在另一头遇到麻烦。Seedance 2.0 虽然效果也很猛,但是因为版权问题,字节暂停了 Seedance 2.0 的全球发布。

模型训练得越强,就越容易踩进版权、肖像权和训练数据的泥潭。

这时再看张迪带队做出的 HappyHorse,它有清晰的商业场景。而且阿里手里的商品图、商家素材、实拍视频和交易反馈,天然比影视 IP 更适合可控生成。

所以 HappyHorse 的价值,不只在榜单。它给 AI 视频找了一个更稳的落点。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 张迪 快手 ai 微软
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论