36氪 前天
MiniMax进化论:一群「偏执者」的破浪前行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

全球开源前二,来自中国大模型的 Aha 时刻。

如果一个技术用 3 年时间,从默默无闻到改变世界,我们称其为第 N 次工业革命;

如果这个技术从论文到落地的过程中,头部玩家如走马灯更迭,百亿流量砸下去只听一声响就陷入沉寂,我们称其为资本绞肉机;

如果这个技术集齐了以上所有特质,还能以常规技术乘十的速度进化,让互联网时代的生态护城河、资金壁垒、规模效应全部失效,创业公司也能站在世界舞台中心,那么,它是大模型。

而这一趋势,自今年年初 DeepSeek" 掀桌 " 以来,变得尤为明显。时至今日,在大模型行业,能留在桌子上的企业唯一的生存法则就是——创新至上。

那么,如何理解大模型行业的创新至上?为什么传统互联网的玩法在大模型时代会彻底失效?为什么大模型的淘汰,能以季度为单位发生?

刚刚结束的 MiniMax Week,或许正是我们审视这些问题的最佳切入点。

以此为切口,你会看见一个创新行业的创业公司如何挣脱巨头的射程;可以看到大模型从技术创新到改变世界之间的桥梁如何搭建;以及,一群 " 偏执 " 的人,如何在这个一切被按下加速键的行业中破浪前行。

一只跳水猫咪,如何让世界 Aha

一开始,MiniMax Week 的关注度,还局限在大模型行业内的讨论:这次 MiniMax 会拿到多少 SOTA(State of the Art)成绩。

直到全球社交网站上,橘猫、奶牛、三花,各式各样的猫咪跳水视频开始像病毒一样蔓延;紧随其后,羊驼、熊猫、长颈鹿,也在视频中以空中 3 周半回旋、后空翻等姿势从十米高台一跃而下。甚至,在视频中,你还会看到不同体重的动物起跳时,会对应不同的跳板的震动幅度与水花大小差异。

就像年初的 DeepSeek R1 发布一样,MiniMax 迎来了自己的 "Aha 时刻 "。

"Aha Moment" 源自心理学与产品设计领域,指的是用户在使用一个产品或工具时,突然意识到其价值和潜力的那个瞬间。它往往伴随着一种顿悟、惊喜或认知飞跃的感觉。

在其背后,往往是技术发展从量变到质变的关键突破;紧随其后,则往往是产品渗透率大突破,以及行业大规模爆发转折节点的到来。

而猫咪跳水,之所以被称为视频 AI 的 Aha Moment,除了其在社媒上引发的轰动之外,更在于长久以来,跳水、体操、多人交互这样的复杂动作,长期以来一直被视为视频 AI 的 " 图灵测试 "。

因为这些动作不仅要求 AI 精确控制每一帧画面,同时,所有连续帧组成的运动时空轨迹如姿势变化、跳跃旋转角度、速度等细节必须符合现实的重力、惯性等物理规律;甚至,不同动物起跳对应的跳板振幅与不同入水姿势带来的水花角度等复杂环境交互,也必须精准还原现实。

而这一切的背后,正是因为 MiniMax 最新发布的视频模型—— Hailuo 02。

纵向对比,Hailuo 02 模型参数相较 Hailuo 01 增长 3 倍,视频分辨率提升至原生 1080P,能实现单次生成 10 秒的高清内容,涵盖精细肢体动作、流体动力学模拟、镜面效果与真实物理交互,甚至可还原杂技演出级别的复杂动态,并给出专业级的原生运镜。

横向对比,Hailuo 02 在 Artificial Analysis Video Arena 的 Image-to-Video 榜单中,位列全球第二。与此同时,Hailuo 02 在性能超过 Google Veo3 的情况下,其 API 成本却只有 Google Veo3 的 1/9。

排名数据始于上榜日,截至目前

那么,为什么 Hailuo 02 能在保持高逼真度的同时,还能保持低成本?

一方面是 scaling law 的助推:Hailuo 02 模型的总参数量相较于 Hailuo 01 扩大了 3 倍,数据量扩大了 4 倍,使得模型能够理解更加复杂的指令和物理场景。

与此同时,Hailuo 02 还采用了创新的 NCR(Noise-aware Compute Redistribution)架构。这一架构通过噪声感知机制,将计算资源按照需求分配给不同的区域。高噪声区域的信息密度较低,进行压缩处理;低噪声区域则分配更多的计算资源,重点捕捉关键细节,进而有效减少 HBM 内存读写量逾 70%,让训练与推理效率提升 2.5 倍。

当然,这种将精力放在对的事情上、不断创新的逻辑,不只是 NCR 的底层技术思路,同时也是对 MiniMax 企业气质,以及如今地位如何炼成的最好概括。

M1 创新背后:大模型如何挣脱巨头的资本万有引力

去年的同一时间,让无数大模型创业者们最头疼的问题之一,一定包括:

巨头的每一次转身,都是中小企业的生死考验。那么你如何逃脱巨头的资本万有引力?

不仅合作伙伴关心,但凡公开场合,媒体、投资人也一定会反复追问。

形势看起来的确严峻:国内外几乎所有互联网巨头、科技巨头全数下场大模型,百模大战之激烈,一度让人以为要复刻当年共享单车、外卖的老路。

质疑的原因似乎也讲得通:大模型参数已经走到万亿关口,无论训练还是推理都需要足够的资本壁垒;大模型进化需要依赖海量数据,而巨头恰好有足够的数据资源;大模型研发需要高密度的人才,大厂的优渥资源,看似也足以支撑其挖来任何想要的人才。

但现实却是:仅仅一年时间过去,百模大战便进入偃旗息鼓阶段;各种榜单的 SOTA 也被 Open AI、Anthropic、MiniMax、DeepSeek 这样的创业公司占据了大半。

逻辑很简单,大量的资本投入,只是模型训练的条件之一。但做大模型如投资,一个技术路线越是共识程度高,就越说明这已经是个滞后变量,企业必须不断挖掘新的有效的 Alpha,才能带来超额的回报。而在这一方面,更加灵活的创业公司,相比传统巨头,往往有着更加敏锐的嗅觉与更高效的决策链条。

具体到 MiniMax,市场层面,仅去年前 8 个月,其海外产品 Talkie 的全球下载量就快速突破千万次,超过 Character AI,成为美国市场下载量第 4 的人工智能应用。英国《金融时报》报道称,MiniMax2024 年的营收,在 7000 万美元左右。

技术层面,刚刚在专业大模型基准测试 Artificial Analysis 榜单中拿下全球前二成绩的 MiniMax M1 模型同样是很好的例证。这是一个拥有 4560 亿参数的大模型,除了在业内主流的 17 个评测集位列前茅之外,M1 还是全球上下文最长的推理模型,原生支持 100 万 token 输入长度,是 DeepSeek R1 的 8 倍;并且支持 8 万个输出 token,打破了 Gemini 2.5 Pro 的 6.4 万个限制,成为世界最长输出的模型。

对大模型而言,更长的上下文,往往意味着更强的智能体验。尤其是在深度搜索、科研等高复杂度场景中,长上下文更是深度推理(数学题、代码场景)、深度内容综合(论文创作、行业研究)的核心能力来源。尤其在 agent 场景中,随着多 agent 混合成为新的行业趋势,各个子 agent 的输出结果,会变成输入给到主 agent,如果上下文长度不够,那么整个系统都会随之变得毫无意义。

与此同时,在工具使用场景(TAU-bench)中,MiniMax-M1-40k 更是领跑所有开源权重模型,甚至超过闭源模型 Gemini-2.5 Pro。数据显示,即使在 30 多轮长链路思考与工具调用任务中,MiniMax-M1-40k 依然有极高的稳定性。

那么问题来了,既然创新是大模型时代通往终点的路径,支撑起 M1 如此成绩的核心创新究竟是什么?

答案一是 M1 在架构上的创新。

与业内常规做法一样,M1 也是在预训练的基座模型(MiniMax-Text-01)上进行强化学习后构建而成,同样采用了混合专家结构(MoE)。但鲜少有人知道,早在 2023 年前后,MoE 尚未成为行业共识的时候,MiniMax 就已经推出了国内首个 MoE 大模型。

也是在同一时期,在同行还普遍采用传统 Transformer 的自注意力计算机制时,MiniMax 就已经开启了对混合注意力机制的探索,并在其后将这一技术用于 M1 模型。所谓混合注意力机制,就是 1/8 使用自注意力机制,另外 7/8 使用了自创的 Lightning Attention(线性注意力),通过先做 " 分块计算 "(tiling),块内用传统注意力计算,块间采用线性注意力进行信息传递,最终完成全局语义捕捉的方式,避免了累积求和操作(cumsum)拖慢速度。这也是更长上下文窗口的底层技术支撑。

除了架构的创新,在训练方法上,MiniMax M1 还采用 CISPO(Clipped IS-weight Policy Optimization)替代传统的 PPO(近端策略优化)/GRPO(deepseek 开发的近端策略优化),极大压缩成本,提升训练效率。

传统的 PPO/GRPO 算法在处理混合架构时会直接忽略 However、Wait、Aha 之类的重要性很高但是频率较低的 token,或者只给他们很低的权重。导致模型的复杂推理出现逻辑混乱等问题。而 MiniMax 的 CISPO 算法,会根据 token 的重要性对其进行采样、裁剪,赋予权重,让长响应除了长度之外,更有质量。

技术报告显示,基于 CISPO,训练侧,MiniMax 团队只用了 3 周时间、512 块 H800 GPU 就完成强化学习训练阶段,算力租用成本仅 53 万美元。即使相比最新的 DAPO,也能仅用一半的训练步数达到相同的性能。

推理侧,生成 10 万 token 时,M1 的推理算力也只需要 DeepSeek R1 的 25%,而且 M1 模型在数学和编程等任务上比 DeepSeek-R1 模型还要高效。

也就是说,对 MiniMax 而言,大模型的确是个烧钱的事业,但只要一脚迈过门槛,产业真正比拼的还是谁更能通过技术创新省钱,让技术更加普惠,且带来更高的上限。

Agent,技术到商业的桥梁如何打造?

事实上,如果将目光拉长到最近十年,会发现,这已经是第二次 AI 浪潮,上一波以 AlexNet+Alpha Go 点燃的 AI 大爆发中,AI 的落地始终没有逃出视觉识别、NLP 的范畴,最终陷入短暂低谷。

但大模型不同,其通用能力带来了更高的商业化天花板,也让技术的生命周期,被无限拉长。

最近两年,行业的 Aha 时刻,大致可以分为两种类型。一种是底层大模型的能力技术创新:比如一开始的 ChatGPT,比如年初的 DeepSeek。

而在大模型创新基础之上,是另一种横向的 Agent 应用创新,其典型代表比如 cursor、lovart、manus。

因为 Agent 的优势之一,就是可以通过多步操作集成达成更直观可用的结果。而一个惊艳的成果展示,往往就是一个技术从实验室到产业加速的重要转折点,这次出圈的 Hailuo Video Agent 也如此。

比起一般的视频生成,Hailuo Agent 操作更简单,同时效果更可控,可以一键生成全片。不只是小猫跳水,羊驼跳水,甚至复杂体操动作,Hailuo Video Agent 都能搞定。目前阶段 Hailuo Video Agent 已经支持超百种视频模板,涵盖艺术片、广告片、MV、社媒爆款等多种体裁。这也意味着 AI 彻底打通了创意构思、分镜设计、图片素材生成、剪辑完整视频的生产链路。

用户只需要一句自然语言输入,系统就会自动调度各种工具,并且提供当初如 DeepSeek R1 一样的清晰思维链路,让创作优质的同时变得更可控。

根据 AI 产品榜数据,自上线以来,海螺 AI 连续 6 个月在全球榜单中位居视频生成 AI 产品的第一,力压 Sora、Runway 等国内外 AI 视频产品。

当然,Agent 的另一个优势是通过集成多种工具、能力,带着目的(用户发出的需求)自主规划路径并执行,从而自主帮人类解决复杂专业问题,更通用的 MiniMax Agent 就是代表。

相比视频生成效果惊艳的 Hailuo Video Agent,MiniMax Agent 的定位更像是一个具备长期任务规划与执行闭环任务能力的 AI 专家,可以帮助 AI 完成从 "Chatbot" 向 " 专业生产力引擎 " 的质变升级。具体来说,MiniMax Agent 是个能完成长程(Long Horizon)复杂任务的通用智能体。能多步规划出专家级解决方案、灵活拆解任务需求、执行多个子任务从而交付最终结果。

据官方数据,MiniMax Agent 在 MiniMax 内部已经使用了近 60 天,并成为超过 50% 的员工日常 PPT 制作、网页搭建、代码辅助使用的产品。

相比普通功能单一的 Agent,MiniMax Agent 能在编程上生成包含复杂跳转逻辑、通过全面测试且没有 bug 的网页;在多模态方面除了支持长文本文件,也支持视频、音频、图片等理解能力,同时支持生成图文音并茂的作品;还能通过 MCP 扩展、来完成做动画、广告片、PPT 等任务 ……

可以说,MiniMax 的通用 Agent,是 MiniMax 大模型基础智能,与跨模态能力结合起来的最强工程化能力落地。而 MiniMax 几乎也是唯一一家能够提供完整全模态能力的厂商。

当然,可能也有人会质疑,大模型公司做 Agent 的意义是什么?

拥有基座模型研发能力的大模型公司在开发通用 Agent 上有着天然的优势:凭借对底层架构的深入把控,其 Agent 能在性能优化、成本控制、生态构建形成闭环优势,从而主导开发出更强大、适应性更强的通用 Agent。

一句话概括就是:大模型的创新,打开了 Agent 的能力天花板;Agent 的快速增长,让大模型的演进方向更加清晰明确。两者就像下坡路上的滚雪球,互相借力,就能事半功倍,将生态越做越大。

如果说大模型行业是一个时间、资本、创新、知识密度一切被极度压缩的全新物种,那么身处其中,MiniMax 仍然可以算得上是一家 " 特立独行 " 的存在。

MiniMax 早在 2022 年初就成立了——比 2022 年底 ChatGPT 引爆全球还要早上一年。这也导致当年 ChatGPT 突然爆火之后,所有人都在四处打听这个 MiniMax 到底是何方神圣。

在技术路径上,MiniMax 也同样敢为人先。

2023 年,彼时国内市场还是 Dense(稠密)模型的天下,MiniMax 却将 80% 以上的算力和资源全部投入 MoE(混合专家)模型的开发中,于 2024 年初推出了国内第一个 MoE 大模型,成为共识引领者。

今年 1 月,MiniMax 又开源了筹谋已久的 Lightning Attention 闪电注意力技术,对着 Transformer 架构进行了一顿大刀阔斧的 " 爆改 ",挖掘大模型突破天花板的新 Alpha 因子。

到了 6 月,MiniMax 拿出的 M1 已经凭借 100 万上下文窗口、算力成本暴降 70%,以及架构、算法的一系列创新,闪电拿下开源模型全球第二宝座(数据来源 Artificial Analysis Intelligence Index 榜单,排名截至目前)。

而与 M1 同期发布的 MiniMax 通用 Agent,也已经能够解决当下无数 Agent 应用备受困扰的跨模态、长距离(多决策)、任务拆解、工具调用难题,完成了从工具到全能助理的进化。

这似乎是一家永远不知疲倦,永远在颠覆自我,永远在探索更高上限、更高智能水平的 AI 公司。

而这种近乎偏执的创新驱动,本质上是对 AI 大模型竞赛终局的预判,伟大商业模式往往是直白甚至浅显的—— all in 技术创新,然后坚定不移地执行。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

互联网 技术创新 心理学 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论