图片来源:视觉中国
蓝鲸新闻 4 月 18 日讯(记者 朱俊熹)据字节跳动旗下云服务平台火山引擎披露,截至今年 3 月底,豆包大模型日均 tokens 调用量已达 12.7 万亿。与去年 5 月发布时相比增长 106 倍,远超去年 12 月时的 4 万亿日均 tokens 调用量。
火山引擎是国内最早接入 DeepSeek V3、R1 模型的云厂商之一。总裁谭待在 4 月 17 日接受蓝鲸科技在内的媒体群访时表示,火山引擎对模型的接入始终持开放态度,只要是好的模型、客户有需求,就会接入到平台中。不论是字节的模型还是其他开源模型," 当然我们还是对豆包有巨大的信心 "。
谭待提到,tokens 调用量的激增取决于模型本身的几大突破。其一是模型最基础的聊天、信息处理能力在去年得到了提升,且成本不断下降。今年则受益于深度思考模型的上线。在谭待看来,之后的一个突破方向是视觉推理,能够解锁更多视觉驱动的现实场景。" 人能处理现实生活,一定是眼睛、嘴巴、耳朵、手都用上的。模型也是一样,要有眼睛的能力,那多模态就很重要。"
在 4 月 17 日举办的 "AI 创新巡展 " 上,火山引擎面向 B 端发布豆包 1.5 深度思考模型。该模型具备视觉推理能力,能像人类一样对看到的事物进行联想和思考。谭待表示,在多模态能力的加持下,豆包深度思考模型可以助力企业在更多场景实现智能化升级。例如模型在分析航拍图时,能结合地貌特征来判断区域开发可行性。
同日,OpenAI 也发布最新推理模型 o3 和 o4-mini,同样强调在视觉推理方面取得突破。据 OpenAI 介绍,新模型不仅可以 " 看到 " 图像,还能在思维链中整合图像用来思考。
火山引擎关注的另一个模型突破方向则是 Agent。谭待解释称,AI 在对话、信息处理这块市场能分的蛋糕有限,要真正深入到各行各业中,Agent 就是必经的一步。
今年以来,Manus、智谱 AutoGLM 沉思等 Agent 产品受到科技行业热切关注,2025 年也被视作 "Agent 智能体元年 "。但与此同时,业内对智能体并没有统一的定义,极易造成概念上的混乱。
对此谭待表示,让 AI 来写打油诗、小学生作文或生成简单的报告,都不能算是真正的 Agent。从定性上看,Agent 应该能够完成一个专业度较高的人、需要较长时间才能实现的完整任务。在技术层面,Agent 的构建需要基于深度思考模型,才能具备思考、计划和反思能力,并且支持多模态,以更好地处理复杂任务。
他补充称,随着 Agent 今年的进一步落地,其定义可能会变得更清晰。或者就像自动驾驶一样,也发展出不同级别的定义。开发出几千个能完成简单任务的 Agent 属于 L1 级,最终做到 L2++ 级才能叫作 " 落地的元年 "。(在自动驾驶领域,L2++ 级介于 L2 和 L3 之间,比 L2 系统更先进,但仍需人类保持一定的监控和干预准备。)
火山引擎将 Agent 大致划分为两类:垂直类 Agent、通用型 Agent。谭待表示,对于垂直类 Agent,火山可能会在擅长的领域尝试自己来做,例如数据、代码 Agent。而在能够操作电脑、手机的通用型 Agent 方面,火山更看重的是 " 把路修好 ",为开发者和企业提供合适的工具,构建自己的通用 Agent。
因此,火山引擎也宣布推出 OS Agent 解决方案。其中包括豆包 UI-TARS 模型,以及 veFaaS 函数服务、云服务器、云手机等产品,能够实现对代码、浏览器、电脑、手机以及其他 Agent 的操作。在活动现场,谭待演示了如何由 Agent 来操作浏览器,完成商品比价的任务,甚至通过 Agent 在剪映上进行视频编辑与配乐。
登录后才可以发布评论哦
打开小程序可以发布评论哦