文|周鑫雨
编辑|苏建勋
交出后 DeepSeek R1 时代的答卷,对如今的六小虎而言,显得尤为重要。
DeepSeek R1 和 Manus,已经分别在推理模型和 AI Agent 领域炸了场。对于后来者而言,跟随是最为保守的路径。比如,百度发布了推理模型文心 X1,腾讯上线了混元深度思考模型 T1。
在 3 月 31 日的 OpenDay 上,在国内资本市场拿钱到手软的智谱,开年交出的答卷则是 R1 和 Manus 的 "plus 版本 " ——具有深度思考能力的 Agent 产品,"AutoGLM 沉思(以下简称‘沉思’)",已经免费上线。
AutoGLM 沉思。
智谱旗下的初代 AutoGLM,曾在 2024 年 11 月,实现了第一个由 AI 发出的红包:AI 发了人类历史上第一个红包。" 沉思 " 的班味儿则更重些。就像一位人类实习生,它能够基于开放的自然语言问题,理解、分析、搜索信源。
并且比 " 联网搜索 " 更进一步," 沉思 " 能查看如知网、小红书、公众号、京东、巨潮资讯等不对外开放 API 的信源,同时具有多模态理解能力,能够理解网页上的图文信息。
张鹏展示的一个案例是:用 " 沉思 " 运营小红书账号,两周涨粉 5000,还接到了商单。
小红书起号的关键,一是更新频率高,二是话题吸引人。只要输入想讨论的热门话题,比如 " 手冲咖啡全套设备种草攻略 "," 沉思 " 就能从小红书、知乎等平台,根据上百个信源自动做好了总结。
智谱用 " 沉思 " 运营的小红书。
DeepSeek App 一举创下 3000 万日活的神话后,AI 厂商对产品范式的认知,逐渐有了变化:应用的最终形态,就是模型;所谓的应用,也成了模型能力的秀场。
可以明显感受到," 沉思 " 的交互界面设计,相较于 Manus,更突显了模型本身的思考能力。
在思考过程中," 沉思 " 展现的是 " 思考 ",从理解问题、拆解问题出发,通过信息检索,再列出解决方案的框架。而 Manus 着重展现的是 " 行动 ",可视面板显示的是 AI 调用工具的过程。
" 沉思 " 和 Manus 的界面对比。上为 " 沉思 ",下为 Manus。
比起具有 " 成为全球首款通用智能体 " 野心的 Manus," 沉思 " 对于当下智谱的意义,比起可用和落地,在于通过秀出思维链,展现其模型实力。
智谱 AutoGLM 负责人刘潇也直言,虽然 " 沉思 " 能够执行研报整理等简单任务,但当前提供给大众的,只是一个预览版本,还有很多的不足。
一个直观的对比是,Manus 通过调用 Claude 的 Computer Use 能力,能够实现跨 PC、App 等多端的操作,并且交付出 PPT、网页等拥有具体形态的结果。
比如,输入 Prompt" 请制作一个 jellycat 主题的吃豆人网页游戏,素材颜色饱和度不要太高 ",Manus 能直接交付一个像模像样的游戏网页(虽然执行时间长达 45min,且游戏存在 bug)。
Manus 交付的吃豆人网页游戏。
但当前的 " 沉思 " 预览版能交付的,仍然是类似于 Deep Research(OpenAI 推出的研究智能体)的研究整理,无法开箱即用。
输入上述的 Prompt," 沉思 " 只能输出实现游戏的代码,用户还需要额外复制和运行,对非技术背景的用户并不友好。
" 沉思 " 交付的是游戏代码。
一名智谱员工告诉《智能涌现》," 沉思 " 仍是一个试验性产品," ‘沉思’还不能跨端操作,如果要实现这点,就必须集成 GLM-PC(智谱推出的电脑操作模型)等类似 Computer Use 的功能。"
在 Agent 上下了一番功夫,智谱想要展示的到底是怎样的技术实力?
OpenDay 上,张鹏解析了实现 " 沉思 " 所需的模型组合:基座模型 GLM-4-Air-0414,推理模型 GLM-Z1-Air,以及沉思模型 GLM- Z1 ——这三款新模型,分别对应 Agent 所需的语言理解、问题分析,以及反思验证能力。
" 沉思 " 背后的新模型。
值得一提的是,智谱提出了 " 沉思大模型 " 的概念,这也代表了智谱对 R1 下一阶段的探索。在张鹏看来,单纯依赖内部知识推理,让传统 AI 具有相当大的局限性。
比带有局限性的推理更进一步," 沉思 " 要求 AI 能够实时联网搜索、动态工具调用、深度分析和自我验证,进而保证交付成功的可靠性和实用性。
" 价格屠夫 "DeepSeek 的掀桌,同样在逼迫后来者或是开源,或是提供更高性价比的模型。
智谱新发布的三款模型中,推理模型 GLM-Z1-Air 的推理速度相比 R1 提升了 8 倍,但成本仅有 1/30,还能在消费级显卡上运行。与此同时,这三款新模型也将在 4 月 14 日悉数开源。
当然,身处 " 后 DeepSeek" 时代,思考是否坚持预训练、如何做商业化,是如今六小虎不得不回答的问题。
以下是智谱 CEO 张鹏在发布会上,关于 Agent 和模型技术,以及商业化的一些思考,略经《智能涌现》编辑:
预训练仍然很重要。预训练虽然现在关注度不那么高,但是 RL(强化学习)等各种方法,本质上还是依赖预训练所带来的基座模型天花板。作为基座模型厂商,预训练是我们一定会坚持的事情。
未来的新应用形态,尤其是智能体的应用形态,还是会回归到模型上。未来很多的应用会以模型为核心,包上一个很浅的或者很薄的产品化,应用性的壳就会变成一个产品。模型能力一旦提升产品能力就得到提升,这是很典型的新应用范式的变化。
中间的所有产品化、工程化的方法,它是权宜之计,是折中式的解决方案。当造出一个像人一样聪明的脑子之后,工程上的事情就比较少,只需要给它装上手和眼睛就像人一样可以完成很多工作,这是 AGI 的终极目标。
不只是大模型推理满足 Scaling Law,我们发现,Agent 也存在类似的 Scaling Law。通过扩展训练时的 inference compute(推理计算),我们观察到 Agent 展现出了更强的性能。
企业或者用户不管是调 API,还是买模型,怎么使用好这个模型是大家面临最大的问题。在这样一个前提下,开源不开源,免费不免费,本身已经不是特别关键的问题,落地需要双方的磨合。
过去历史的经验,包括像 MySQL 也好,还有 RedHat,其实已经证明了开源并不等于完全免费,还包括后期技术人员的投入、维护的成本,包括探索怎么把 DeepSeek 做本地化等等,你要找专业的团队。因此服务是开源的商业模式。
通用 Agent 不能有短板。为什么 AI 的思考能力、文字能力远超你,但还是不如你?因为它的能力参差不齐。明显短板的存在,就会导致应用的成功率急剧下降。
为什么现在的 Agent 会被第三方平台拦截?本质上还是不够聪明。如果真的通过图灵测试,我相信现在的封禁和拦截策略也很难做的到。所以规避拦截本质上是工程技术问题。
我们在具身智能上会有相应的布局,但可能还需要一点时间。
我不认为我们是 To B 的公司,我讨厌贴标签。我们只做自己认为有意义的事情,这些事情会在不同的场景或者不同的客户那里,产生不同的应用方式和不同的价值。
欢迎交流!