蓝鲸财经 昨天
火山引擎总裁谭待:Agent的构建基础是深度思考模型,或效仿自动驾驶分级定义
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

图片来源:视觉中国

蓝鲸新闻 4 月 18 日讯(记者 朱俊熹)据字节跳动旗下云服务平台火山引擎披露,截至今年 3 月底,豆包大模型日均 tokens 调用量已达 12.7 万亿。与去年 5 月发布时相比增长 106 倍,远超去年 12 月时的 4 万亿日均 tokens 调用量。

火山引擎是国内最早接入 DeepSeek V3、R1 模型的云厂商之一。总裁谭待在 4 月 17 日接受蓝鲸科技在内的媒体群访时表示,火山引擎对模型的接入始终持开放态度,只要是好的模型、客户有需求,就会接入到平台中。不论是字节的模型还是其他开源模型," 当然我们还是对豆包有巨大的信心 "。

谭待提到,tokens 调用量的激增取决于模型本身的几大突破。其一是模型最基础的聊天、信息处理能力在去年得到了提升,且成本不断下降。今年则受益于深度思考模型的上线。在谭待看来,之后的一个突破方向是视觉推理,能够解锁更多视觉驱动的现实场景。" 人能处理现实生活,一定是眼睛、嘴巴、耳朵、手都用上的。模型也是一样,要有眼睛的能力,那多模态就很重要。"

在 4 月 17 日举办的 "AI 创新巡展 " 上,火山引擎面向 B 端发布豆包 1.5 深度思考模型。该模型具备视觉推理能力,能像人类一样对看到的事物进行联想和思考。谭待表示,在多模态能力的加持下,豆包深度思考模型可以助力企业在更多场景实现智能化升级。例如模型在分析航拍图时,能结合地貌特征来判断区域开发可行性。

同日,OpenAI 也发布最新推理模型 o3 和 o4-mini,同样强调在视觉推理方面取得突破。据 OpenAI 介绍,新模型不仅可以 " 看到 " 图像,还能在思维链中整合图像用来思考。

火山引擎关注的另一个模型突破方向则是 Agent。谭待解释称,AI 在对话、信息处理这块市场能分的蛋糕有限,要真正深入到各行各业中,Agent 就是必经的一步。

今年以来,Manus、智谱 AutoGLM 沉思等 Agent 产品受到科技行业热切关注,2025 年也被视作 "Agent 智能体元年 "。但与此同时,业内对智能体并没有统一的定义,极易造成概念上的混乱。

对此谭待表示,让 AI 来写打油诗、小学生作文或生成简单的报告,都不能算是真正的 Agent。从定性上看,Agent 应该能够完成一个专业度较高的人、需要较长时间才能实现的完整任务。在技术层面,Agent 的构建需要基于深度思考模型,才能具备思考、计划和反思能力,并且支持多模态,以更好地处理复杂任务。

他补充称,随着 Agent 今年的进一步落地,其定义可能会变得更清晰。或者就像自动驾驶一样,也发展出不同级别的定义。开发出几千个能完成简单任务的 Agent 属于 L1 级,最终做到 L2++ 级才能叫作 " 落地的元年 "。(在自动驾驶领域,L2++ 级介于 L2 和 L3 之间,比 L2 系统更先进,但仍需人类保持一定的监控和干预准备。)

火山引擎将 Agent 大致划分为两类:垂直类 Agent、通用型 Agent。谭待表示,对于垂直类 Agent,火山可能会在擅长的领域尝试自己来做,例如数据、代码 Agent。而在能够操作电脑、手机的通用型 Agent 方面,火山更看重的是 " 把路修好 ",为开发者和企业提供合适的工具,构建自己的通用 Agent。

因此,火山引擎也宣布推出 OS Agent 解决方案。其中包括豆包 UI-TARS 模型,以及 veFaaS 函数服务、云服务器、云手机等产品,能够实现对代码、浏览器、电脑、手机以及其他 Agent 的操作。在活动现场,谭待演示了如何由 Agent 来操作浏览器,完成商品比价的任务,甚至通过 Agent 在剪映上进行视频编辑与配乐。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

联想 云服务 字节跳动 作文 朱俊
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论