不愧是字节,一发大模型,各模态榜单格局全部被重构!
最新豆包大模型 1.6 系列," 小版本 " 更新但推理、数学、多模态能力全部冲入全球第一梯队。
海淀区高考模拟卷,豆包 1.6 文理科成绩全部突破 700 分,理科成绩更是比去年的豆包提升了 154 分。
视频领域,Seedance 1.0 Pro亮相即登顶全球竞技场文生视频、图生视频双料第一。
多镜头切换的电影质感大片信手拈来:
实测生成小人国效果 be like,光线、质感都没话说。
目前已上线即梦(视频生成选择对应模型)、豆包 APP(打开对话框,选择 " 照片动起来 ",输入文字指令或上传图片)即可体验。
如此效果,在火山引擎 ToB 的价格却打到了行业最低!
Seedance 1.0 pro 模型每千 tokens 0.015 元,相当于每生成一条 5 秒的 1080P 视频只需 3.67 元。1 万元可以生成 2700 条视频。
豆包大模型 1.6 系列,直接重新定义行业定价模式。
统一定价,不论用户是否开启深度思考、不论是文本还是视觉任务,tokens 价格都完全一样,定价参考改为" 输入长度 "区间。
输入区间 0-32K 范围内,豆包大模型 1.6 综合成本比豆包 1.5 · 深度思考模型、DeepSeek R1 降低 63%。
这还没完,还有特惠区——对于输入 32k、输出 200 以内的任务,豆包大模型 1.6 的价格进一步降低到每百万 tokens 输入 0.8 元、输出 2 元。
这意味着,使用豆包 1.6 的价格和豆包 1.0 一样低。
熟悉的模式,熟悉的感觉——
1 年之前,正是火山引擎开启大模型价格 " 厘时代 ",做到了比行业价格低 99.3%。
1 年之后,字节重新定义大模型商业价格模式。这一回,又预示哪些新动向?
豆包更有人味儿、即梦更像导演
看懂变化,还得从底层模型开始。
此次新发布,字节一共带来 3 款不同模态的新模型。
豆包大模型 1.6 系列
豆包视频生成模型 Seedance 1.0 Pro
豆包语音播客模型
豆包大模型 1.6 系列
豆包大模型 1.6 系列由 3 个模型组成,分别是主力综合模型、深度思考模型以及极速版。
doubao-seed-1.6
doubao-seed-1.6-thinking
doubao-seed-1.6-flash
doubao-seed-1.6 是主力模型,它主打 all in one,也就是啥都能干。是国内首个支持 256k 上下文的思考模型,支持深度思考、多模态理解、图形界面操作等。
比如使用DeepResearch 功能,可以生成一份详尽的操作指南。
任务:请教我如何在火山方舟上开通 Doubao-Seedance 视频生成模型,并给出在 python IDE 中进行 API 调用的示例代码,最终生成分步骤的操作指南报告。
模型会首先进行任务规划,将任务划分为具体四步。
在用户确认规划没有问题后,点击开始,模型才会开始执行。
可以看到过程中,它调用了知识库,最后给出了完善的操作指南。
多模态方面也进行了全面升级,支持视频理解、多图理解等。
比如可以让它看视频生成票圈文案,豆包 1.6 思考后会给出不同的风格供挑选,文案都是根据视频内容细节而来。
企业端也能基于多模态理解做更多事,比如电商商品审核、自动驾驶标注、安全巡检等。
同时,豆包也具备了像人一样的操作能力,即GUI 操作能力。
只需输入 " 预定 2 人 6 月 20 日德国法兰克福五星级酒店,要求有健身房、且有浴缸 ",它就能自己打开酒店预定网站、输入目的地、入住时间、勾选相应筛选条件。
并且会像人一样浏览不同酒店开始挑选,查看图片确认是否包含浴缸,最后才确认下单,当然付款这些最终决策还是由人类操作。
豆包视频生成模型 Seedance 1.0 Pro
视频生成方面,字节这次也是狠狠发力了。
刚刚在第三方权威榜单 Artificial Analysis 上拿下双料第一的 Seedance 1.0 pro 主要具备三大特性:
无缝多镜头叙事
多动作及随心运镜
稳定运动与真实美感
量子位也第一时间搞到了内测资格,在即梦上试玩了一把。
它支持航拍、第一人称视角、近景等镜头任意切换,多镜头叙事衔接自然,能马上把人引入特定情景。
提示词:
镜头一:航拍视角,浓密森林、阳光穿透雾气。
镜头二:第一人称视角,探险者拨开藤蔓,踩过落叶。
镜头三:近景特写,一只好奇的松鼠停在树枝上观察。
对提示词的把控也非常精准,一些细小的关键字都不会被落下。
长镜头运镜也很自然。生成的运动画面中,人物的动作稳定,画面真实,背景中的路人活动也都很合理,并按照提示词要求地完成了模糊处理。
提示词:
跟随镜头,滑板少年在城市广场高速滑行,中间添加一个滑板动作,随着滑行镜头旋转至侧后方,轻微摇晃增加动感。背景路人动态模糊。
值得一提的是,模型具备很好的理解能力。在仅凭文字提示的情况下,模型正确生成了唐代书生的衣着、帽子。并将书生的动作变得更为合理,先放下茶盏,再翻阅竹简。
提示词:
一个唐代书生在茶馆用茶盏品茶,同时翻阅竹简,水墨画风格。
我们通过实测发现,Seedance 视频模型可能是选择了和 OpenAI 走相同的路线。即优先拉高模型的智商,具体表现在模型的精准指令遵循、生成内容更合理化、符合现实世界逻辑、带有人类的思考。
比如生成 " 侦探正在思索 " 的视频,模型会将人物的面部表情变得严肃而不是优哉游哉的,前者更符合基本逻辑。
另外值得关注的是,Seedance 1.0 Pro 的生成速度也非常快。最快 40 秒可生成 5 秒 1080P 视频。
目前该模型已在即梦和豆包 APP 上线,人人都能体验。
豆包语音播客模型 + 实时语音模型 ToB 开放
最后在语音模态方面,两款豆包语音播客大模型上新。
几天前,我们已经实测了豆包语音播客模型。它支持秒级生成双人对话播客,效果相当逼真,而且操作非常简单,只需输入一句话、一个网页、一个文档或者长文本即可。
帮我根据首届苏超联赛,结合赛事、网友热议点等,生成一个播客。
另外,最近被网友们玩疯了的 AI 克隆声音打电话,其底层模型豆包实时语音模型也全量上线火山方舟,向企业用户开放使用。
它支持自然语言高级指令控制,具备唱歌表演、声线模仿、方言演绎等多种能力。
实际上,包括豆包 1.6 系列、Seedance 1.0 Pro,也都全量上线火山方舟,为 ToB 用户提供更先进 AI 能力。
与此同时,火山方舟还带来了一系列全新工具,将 Agent 开发门槛一降再降。
更轻松构建生产级 Agent
ToB 维度,今年最火的 AI 趋势莫过于 Agent 开发。
火山引擎此次在 MaaS、数据、AI Infra 三方面发布的新产品,几乎都是为此而来。
首先,为加速企业构建 Agent,火山引擎带来多款产品:
火山引擎 MCP 服务
提供 200+MCP 服务,与 TRAE、火山方舟、扣子打通,开发者还可通过 MCP 控制火山引擎的云服务组件,加速产品落地。
PromptPilot
帮助开发者优化提示词,将模糊需求转化为具象化目标。支持自动撰写和优化提示词,针对 badcase 自动优化以实现精准调控,具备多轮对话、视觉理解、复杂工具调用优化能力,以及自主判断是否开启模型精调等功能。
AI 知识管理产品
帮助企业管理内部知识,进一步将本地资源与互联网内容整合。支持文本、图像、音频、视频等多模态内容对话式输入,并且能够把输出的数据组织为更易于理解的图表。首创可交互的推理 " 做个计划 " 功能,实现人机协作制定、修改计划。
开源 veRL 强化学习框架
veRL 是字节内部在 2023 年开发的强化学习框架。它可轻松扩展各种强化学习算法,能将现有 LLM 基础设施与模块化 API 无缝集成,具备灵活的设备映射,支持将模型放置到不同的 GPU 租上。同时具备极强吞吐性能,并使用 3D-HybridEngine 进行高效的 Actor 模型重新分片。
基于以上多方面能力,可以实现自动化生成研究报告、匹配 PPT,并自动发送邮件。
开发一个网站,也只需要用纸笔画个草图,其他都能交给 AI。
从设计稿解析、代码生成到公网可访问网页,这些流程都能全自动化部署。
AI Infra 方面,火山引擎将三个基础能力原子化,对外发布。
AgentKit:面向企业级 Agent 打造的全栈开发和服务工具链。
TrainingKit:面向预训练实现高达 60%+ 的 MFU(算力利用率);面向后训练实现 Sandbox 百万核秒并发能力等。
ServingKit:面向推理,从模型部署、在线推理、服务运维三个阶段进行加速和提效。
最后,在数据方面,推出多模态数据湖和 Data Agent,实现从 " 支持 BI" 到 " 支持 AI"。
One More Thing
在整场发布中,字节还披露了一个尤为关键的数字——
截至 2025 年 5 月底,豆包大模型日均 tokens 使用量超过 16.4 万亿,较去年 5 月刚发布时增长 137 倍。
IDC 数据显示,2024 年中国公有云大模型调用总量达到 114.2 万亿 Tokens,其中火山引擎占据 46.4% 的市场份额,几乎占据半壁江山。
火山引擎总裁谭待也在采访中表示,大模型产品带来的业绩收入是火山引擎所有产品中增速最快的,也是毛利最好的业务之一。
整场发布中,穿插在字节最新技术之间的,就是各个行业的大客户了。其中包括联想、宝马、奔驰、微博、瑞幸、百胜中国肯德基等等。
嗯,也不意外,更硬技术 + 更优成本带来的更高增长,已经开始对外显现。
不过对于火山引擎内部,现在的目光可能更聚焦在未来。
谭待表示,当下正是从生成式 AI 向 Agentic AI 逐渐过渡转变。深度思考、多模态理解、工具自主调用是关键方向。
火山引擎智能算法负责人吴迪也很肯定,今年 AI 三大技术主线就是:
带有多模态理解能力的 Reasoning 模型
视频生成模型的能力提升
多步骤复杂任务能力的成熟和渗透
这种肯定甚至可以细化到:
"2025 年会以每个月至少 2 次的节奏,出现模型基础能力与应用方面的交错浪潮。
最后 3 个月,你可以放心地把价值 50 元的事交给 AI 端到端处理,它能实现 80-90% 的准确率。"
所以,期待吧。
大模型时代的探险家们,已经抢先用望远镜看到了新风景,而这些风景可能比我们预期中来得更快、也更普惠。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦