虎嗅APP 昨天
“龙虾”出现后,大模型时代的共识被推翻了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

出品|虎嗅科技组

作者|宋思杭

编辑|苗正卿

头图|中关村论坛现场

上一次智谱 AI 与月之暗面同台,还是在 1 月 10 日。那天是智谱通过港交所聆讯后的第三天,一个周六,在中关村国际创新中心举行了一场名为 AGI-Next 的前言峰会。

两个半月后,故事推进得更快了。

市场消息显示,月之暗面正考虑在香港进行首次公司募股(IPO),目前已与中金公司及高盛展开磋商,相关事件仍处于初期阶段,具体时间尚未确定。对此,虎嗅向月之暗面方面求证,对方不予置评。

几乎在同一时间,两家公司再次同台,还是中关村国际创新中心,在中关村论坛的现场。

台上坐着的,是这一轮大模型浪潮中最核心的一批玩家:月之暗面创始人杨植麟、智谱 CEO 张鹏、无问芯穹创始人夏立雪、小米 MiMo 负责人罗福莉,以及香港大学助理教授黄超。

他们讨论的,是最近一个月,让整个行业 " 重新忙起来 " 的那只龙虾 OpenClaw。

过去一个月,这只 " 龙虾 " 几乎把大模型的调用曲线重新拉了一遍。包括智谱、Kimi,以及小米 MiMo 在内的多家模型厂商,都在这一波中吃到了最直接的红利。

3 月下旬,在全球最大的模型 API 聚合平台 OpenRouter 上,一款代号为 Hunter Alpha 的模型调用量迅速冲上榜首。随后小米认领,这一模型正是 MiMo-V2-Pro。

更重要的是,龙虾带来的,并不只是调用量的暴涨。它让行业清晰地看到:大模型开始 " 干活 " 之后,一整套新的技术与商业逻辑,正在被同时改写。

这场讨论,指向的是推理阶段正在出现的几条新分水岭。

1、模型开始承担 " 完整任务链路 "

首先,在这场对话中,点出了这只龙虾的价值,首先是几位模型玩家对它的定义,以及它能带来什么。

过去,用户是给大模型提问题,大模型还无法帮用户做任务,或者说过去的那条链路是断的。

而现在,OpenClaw 带来的最大变化,是把模型拉进了任务执行环节。用户给出的不再是问题,而是目标;系统需要完成拆解、尝试、修正和交付。

在张鹏的定义里,它更像一个 " 脚手架 " ——普通人可以在其上调用顶级模型,完成完整任务链路。用户与模型的关系,也从 " 提问—回答 ",转向 " 目标—执行—迭代 "。

这直接改变了评价方式。单轮回答已经不重要,关键在于复杂任务能否稳定收敛。模型第一次被放进交付结果的语境里。随之出现的,是 " 慢 " 的感知。系统在做规划、调度和试错,这些都在消耗时间,也在堆叠能力。

2、继 " 水电煤 " 之后,Token 开始具备生产力属性

一个被反复提及的信号是:Token 正在失控式增长。

夏立雪提到,公司 Token 用量从 1 月底开始,每两周翻一倍;而在 Agent 场景下,单个任务的 Token 消耗,是传统问答的 10 倍甚至 100 倍。

过去,在大模型对话问答时代,Token 消耗量低,普通用户免费就能用得 AI。但龙虾出现之后,这个共识被推翻了。Token 用量在短时间内呈指数增长,已经成为新的共识。Agent 任务的消耗量,远高于传统对话。

但 Token 不再只是成本指标。它对应的是规划、执行、调用工具的全过程,接近一种 " 机器工时 "。这会重塑价格体系。成本上升不再是单纯压力,而是和任务价值绑定,成为新的定价基础。

3、从训练时代,快进到推理时代

简单来说,在智谱、MiniMax 等大模型公司还未上市的时间段里," 训练 " 依然是主流。但龙虾的出现,一下加速了推理时代的到来。

而具体来解释,随着任务复杂度上升,Context 长度正在迅速拉长到 1M 甚至 10M 级别。这迫使厂商开始在推理侧做结构创新,例如:Hybrid 架构、Linear Attention、Long Context Efficient 设计。

这些创新架构的核心目的只有一个,就是如何在更长 Context 下,把成本打下来、把稳定性提上去。

这也意味着竞争维度在下沉:从模型参数规模,转向推理效率、系统调度,甚至能源成本。

4、系统能力开始抵消模型差距

在 Agent 框架下,模型之间的能力差距被部分压缩。通过 Skill 和工具组合,次顶级模型也能完成复杂任务。

在这个时候,用户关注点随之变化,更看重任务结果,而非模型本身的指标。

参与门槛也在降低。构建能力逐渐向系统工程倾斜,而不再局限于算法本身。

以下是月之暗面创始人杨植麟、智谱 CEO 张鹏、无问芯穹创始人夏立雪、小米 MiMo 负责人罗福莉,以及香港大学助理教授黄超的精选部分对话:

杨植麟:现在最火的无疑就是 openclaw,大家在日常使用或者类似产品时,觉得什么最有想象力或印象深刻?我们从技术角度,先请张鹏谈谈对 openclaw 和相关 Agent 的看法。

张鹏:我把它称作一个 " 脚手架 "。它提供了在模型基础上搭建非常牢固、方便且灵活的可能性。普通人可以极低门槛地使用顶尖模型,尤其是编程和整体能力。以前想法受限于不会编程等技能,现在通过简单交流就能完成,这是一个非常大的突破。

夏立雪:我最开始用不太适应,习惯了聊天式交互,感觉 openclaw 很慢。后来发现它其实是能帮我完成大型任务的。从按 Token 聊天到现在能完成任务的 Agent,想象力空间提升了,但对系统能力要求也变大了,这就是为什么一开始会觉得卡。

作为基础设施厂商,我看到的是机遇和挑战。我们的资源要支撑起这个快速增长的时代。比如我们公司从 1 月底开始,每两周 Token 量翻一番。现在的 Token 用量就像当年 100 兆手机流量的时代。我们需要更好的优化和整合,让每一个鲜活的人都能用起来。这对整个社区是巨大的优化空间。

罗福莉:我认为 openclaw 是一个非常革命性和颠覆性的事件。虽然深度 Coding 的人首选可能还是 Code,但用过 openclaw 的人会感受到它在 Agent 框架设计上是领先于 Code 的,Code 的最新更新其实都在向 openclaw 靠近。

它给我的最大价值在于 " 开源 ":这有利于社区深入参与。它把国内次顶级闭源模型的上限拉得非常高,在绝大部分场景下任务完成度已非常接近最新模型,同时又靠 Skill 体系保证了下限。

此外,它点燃了大家的想象力。大家发现大模型外的 Agent 层有巨大空间,更多人,不仅是研究员,开始参与 AGI 变革,这在一定程度上替代了重复工作,释放了时间去做更有想象力的事。

黄超:首先是从交互模式上,openclaw 给了大家一种 " 更有活人感 " 的体验。之前的 Agent 工具感更强,而 openclaw 以 " 软件切入 " 的方式,更接近大家想象中的个人贾维斯(J.A.R.V.I.S.)。

其次,它证明了架构 Agent 的框架可以既简单又高效。它让我们重新思考:是否需要一个 All in one 的超级智能体,还是需要一个轻量级操作系统或脚手架式的小管家?它让大家更有 " 玩起来 " 的心态,撬动生态里的所有工具,通过 Skills 或 Tool 的设计,赋能各行各业。

杨植麟:顺着刚才大家一直在讨论 OpenClaw,我也想接着问张鹏一个问题。智谱最近发布了新的 GLM Turbo 模型,这个模型在相关能力上也做了很大的增强。能否介绍一下新旧模型的不同?以及观察到的提价策略反映了什么市场情况?

张鹏:发布 Turbo 主要是为了从 " 简单的对话 " 转向 " 干活 "。openclaw 让大家看到大模型能干活,但干活背后的 Token 消耗非常高,需要规划、尝试、Debug、处理模糊需求。Turbo 在这些方面做了优化,本质上是多智能体协同架构,但在能力上有偏向性加强。

关于提价,因为干活消耗的 Token 量是简单问答的 10 倍甚至 100 倍,成本大幅提高。长期低价竞争不利于行业发展,调整价格是为了回归正常的商业价值,让我们能持续优化模型,提供更好的服务。

杨植麟:小米最近通过发布新模型和开源技术对社区做出了贡献,小米做大模型有什么独特优势?

罗福莉:我想先不谈小米的独特优势,而是谈谈中国大模型团队的优势。

两年前,中国团队在算力受限,尤其是互联带宽受限的情况下,做出了突破:在低端算力限制下,通过模型结构创新(如 DPCV3、M1、MA 等)去追求最高效率。这给了我们勇气和信心。

虽然现在国产芯片不再受限,但这种对高效率、低推理成本的探索依然重要。例如,现在的 Hybrid、SPA、Linear attention 结构等。

为什么结构创新重要?因为 openclaw 越用越聪明的前提是推理 Context。现在的难题是:怎么在 1M 或 10M 的长上下文下,做到成本够低、速度够快?只有这样,才能激发高生产力任务,实现模型自迭代,在复杂环境中依靠超长 Context 完成自我进化。

我们现在正在探索 Long Context Efficient 架构,以及如何在真实长距离任务上做到稳定和高上限。

更长期看,随着推理需求爆发,今年可能增长 100 倍,竞争维度将下探到算力、推理芯片甚至能源层面。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小米 龙虾 中关村 虎嗅 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论