火山引擎总裁谭待：Agent的构建基础是深度思考模型，或效仿自动驾驶分级定义

图片来源：视觉中国

蓝鲸新闻 4 月 18 日讯（记者朱俊熹）据字节跳动旗下云服务平台火山引擎披露，截至今年 3 月底，豆包大模型日均 tokens 调用量已达 12.7 万亿。与去年 5 月发布时相比增长 106 倍，远超去年 12 月时的 4 万亿日均 tokens 调用量。

火山引擎是国内最早接入 DeepSeek V3、R1 模型的云厂商之一。总裁谭待在 4 月 17 日接受蓝鲸科技在内的媒体群访时表示，火山引擎对模型的接入始终持开放态度，只要是好的模型、客户有需求，就会接入到平台中。不论是字节的模型还是其他开源模型，" 当然我们还是对豆包有巨大的信心 "。

谭待提到，tokens 调用量的激增取决于模型本身的几大突破。其一是模型最基础的聊天、信息处理能力在去年得到了提升，且成本不断下降。今年则受益于深度思考模型的上线。在谭待看来，之后的一个突破方向是视觉推理，能够解锁更多视觉驱动的现实场景。" 人能处理现实生活，一定是眼睛、嘴巴、耳朵、手都用上的。模型也是一样，要有眼睛的能力，那多模态就很重要。"

在 4 月 17 日举办的 "AI 创新巡展 " 上，火山引擎面向 B 端发布豆包 1.5 深度思考模型。该模型具备视觉推理能力，能像人类一样对看到的事物进行联想和思考。谭待表示，在多模态能力的加持下，豆包深度思考模型可以助力企业在更多场景实现智能化升级。例如模型在分析航拍图时，能结合地貌特征来判断区域开发可行性。

同日，OpenAI 也发布最新推理模型 o3 和 o4-mini，同样强调在视觉推理方面取得突破。据 OpenAI 介绍，新模型不仅可以 " 看到 " 图像，还能在思维链中整合图像用来思考。

火山引擎关注的另一个模型突破方向则是 Agent。谭待解释称，AI 在对话、信息处理这块市场能分的蛋糕有限，要真正深入到各行各业中，Agent 就是必经的一步。

今年以来，Manus、智谱 AutoGLM 沉思等 Agent 产品受到科技行业热切关注，2025 年也被视作 "Agent 智能体元年 "。但与此同时，业内对智能体并没有统一的定义，极易造成概念上的混乱。

对此谭待表示，让 AI 来写打油诗、小学生作文或生成简单的报告，都不能算是真正的 Agent。从定性上看，Agent 应该能够完成一个专业度较高的人、需要较长时间才能实现的完整任务。在技术层面，Agent 的构建需要基于深度思考模型，才能具备思考、计划和反思能力，并且支持多模态，以更好地处理复杂任务。

他补充称，随着 Agent 今年的进一步落地，其定义可能会变得更清晰。或者就像自动驾驶一样，也发展出不同级别的定义。开发出几千个能完成简单任务的 Agent 属于 L1 级，最终做到 L2++ 级才能叫作 " 落地的元年 "。（在自动驾驶领域，L2++ 级介于 L2 和 L3 之间，比 L2 系统更先进，但仍需人类保持一定的监控和干预准备。）

火山引擎将 Agent 大致划分为两类：垂直类 Agent、通用型 Agent。谭待表示，对于垂直类 Agent，火山可能会在擅长的领域尝试自己来做，例如数据、代码 Agent。而在能够操作电脑、手机的通用型 Agent 方面，火山更看重的是 " 把路修好 "，为开发者和企业提供合适的工具，构建自己的通用 Agent。

因此，火山引擎也宣布推出 OS Agent 解决方案。其中包括豆包 UI-TARS 模型，以及 veFaaS 函数服务、云服务器、云手机等产品，能够实现对代码、浏览器、电脑、手机以及其他 Agent 的操作。在活动现场，谭待演示了如何由 Agent 来操作浏览器，完成商品比价的任务，甚至通过 Agent 在剪映上进行视频编辑与配乐。

宙世代

一起剪

相关标签