实测豆包1.6，最火玩法all in one！Seedance登顶视频生成榜一，豆包APP全量上线

不愧是字节，一发大模型，各模态榜单格局全部被重构！

最新豆包大模型 1.6 系列，" 小版本 " 更新但推理、数学、多模态能力全部冲入全球第一梯队。

海淀区高考模拟卷，豆包 1.6 文理科成绩全部突破 700 分，理科成绩更是比去年的豆包提升了 154 分。

视频领域，Seedance 1.0 Pro亮相即登顶全球竞技场文生视频、图生视频双料第一。

多镜头切换的电影质感大片信手拈来：

实测生成小人国效果 be like，光线、质感都没话说。

目前已上线即梦（视频生成选择对应模型）、豆包 APP（打开对话框，选择 " 照片动起来 "，输入文字指令或上传图片）即可体验。

如此效果，在火山引擎 ToB 的价格却打到了行业最低！

Seedance 1.0 pro 模型每千 tokens 0.015 元，相当于每生成一条 5 秒的 1080P 视频只需 3.67 元。1 万元可以生成 2700 条视频。

豆包大模型 1.6 系列，直接重新定义行业定价模式。

统一定价，不论用户是否开启深度思考、不论是文本还是视觉任务，tokens 价格都完全一样，定价参考改为" 输入长度 "区间。

输入区间 0-32K 范围内，豆包大模型 1.6 综合成本比豆包 1.5 · 深度思考模型、DeepSeek R1 降低 63%。

这还没完，还有特惠区——对于输入 32k、输出 200 以内的任务，豆包大模型 1.6 的价格进一步降低到每百万 tokens 输入 0.8 元、输出 2 元。

这意味着，使用豆包 1.6 的价格和豆包 1.0 一样低。

熟悉的模式，熟悉的感觉——

1 年之前，正是火山引擎开启大模型价格 " 厘时代 "，做到了比行业价格低 99.3%。

1 年之后，字节重新定义大模型商业价格模式。这一回，又预示哪些新动向？

豆包更有人味儿、即梦更像导演

看懂变化，还得从底层模型开始。

此次新发布，字节一共带来 3 款不同模态的新模型。

豆包大模型 1.6 系列

豆包视频生成模型 Seedance 1.0 Pro

豆包语音播客模型

豆包大模型 1.6 系列

豆包大模型 1.6 系列由 3 个模型组成，分别是主力综合模型、深度思考模型以及极速版。

doubao-seed-1.6

doubao-seed-1.6-thinking

doubao-seed-1.6-flash

doubao-seed-1.6 是主力模型，它主打 all in one，也就是啥都能干。是国内首个支持 256k 上下文的思考模型，支持深度思考、多模态理解、图形界面操作等。

比如使用DeepResearch 功能，可以生成一份详尽的操作指南。

任务：请教我如何在火山方舟上开通 Doubao-Seedance 视频生成模型，并给出在 python IDE 中进行 API 调用的示例代码，最终生成分步骤的操作指南报告。

模型会首先进行任务规划，将任务划分为具体四步。

在用户确认规划没有问题后，点击开始，模型才会开始执行。

可以看到过程中，它调用了知识库，最后给出了完善的操作指南。

多模态方面也进行了全面升级，支持视频理解、多图理解等。

比如可以让它看视频生成票圈文案，豆包 1.6 思考后会给出不同的风格供挑选，文案都是根据视频内容细节而来。

企业端也能基于多模态理解做更多事，比如电商商品审核、自动驾驶标注、安全巡检等。

同时，豆包也具备了像人一样的操作能力，即GUI 操作能力。

只需输入 " 预定 2 人 6 月 20 日德国法兰克福五星级酒店，要求有健身房、且有浴缸 "，它就能自己打开酒店预定网站、输入目的地、入住时间、勾选相应筛选条件。

并且会像人一样浏览不同酒店开始挑选，查看图片确认是否包含浴缸，最后才确认下单，当然付款这些最终决策还是由人类操作。

豆包视频生成模型 Seedance 1.0 Pro

视频生成方面，字节这次也是狠狠发力了。

刚刚在第三方权威榜单 Artificial Analysis 上拿下双料第一的 Seedance 1.0 pro 主要具备三大特性：

无缝多镜头叙事

多动作及随心运镜

稳定运动与真实美感

量子位也第一时间搞到了内测资格，在即梦上试玩了一把。

它支持航拍、第一人称视角、近景等镜头任意切换，多镜头叙事衔接自然，能马上把人引入特定情景。

提示词：

镜头一：航拍视角，浓密森林、阳光穿透雾气。

镜头二：第一人称视角，探险者拨开藤蔓，踩过落叶。

镜头三：近景特写，一只好奇的松鼠停在树枝上观察。

对提示词的把控也非常精准，一些细小的关键字都不会被落下。

长镜头运镜也很自然。生成的运动画面中，人物的动作稳定，画面真实，背景中的路人活动也都很合理，并按照提示词要求地完成了模糊处理。

提示词：

跟随镜头，滑板少年在城市广场高速滑行，中间添加一个滑板动作，随着滑行镜头旋转至侧后方，轻微摇晃增加动感。背景路人动态模糊。

值得一提的是，模型具备很好的理解能力。在仅凭文字提示的情况下，模型正确生成了唐代书生的衣着、帽子。并将书生的动作变得更为合理，先放下茶盏，再翻阅竹简。

提示词：

一个唐代书生在茶馆用茶盏品茶，同时翻阅竹简，水墨画风格。

我们通过实测发现，Seedance 视频模型可能是选择了和 OpenAI 走相同的路线。即优先拉高模型的智商，具体表现在模型的精准指令遵循、生成内容更合理化、符合现实世界逻辑、带有人类的思考。

比如生成 " 侦探正在思索 " 的视频，模型会将人物的面部表情变得严肃而不是优哉游哉的，前者更符合基本逻辑。

另外值得关注的是，Seedance 1.0 Pro 的生成速度也非常快。最快 40 秒可生成 5 秒 1080P 视频。

目前该模型已在即梦和豆包 APP 上线，人人都能体验。

豆包语音播客模型 + 实时语音模型 ToB 开放

最后在语音模态方面，两款豆包语音播客大模型上新。

几天前，我们已经实测了豆包语音播客模型。它支持秒级生成双人对话播客，效果相当逼真，而且操作非常简单，只需输入一句话、一个网页、一个文档或者长文本即可。

帮我根据首届苏超联赛，结合赛事、网友热议点等，生成一个播客。

另外，最近被网友们玩疯了的 AI 克隆声音打电话，其底层模型豆包实时语音模型也全量上线火山方舟，向企业用户开放使用。

它支持自然语言高级指令控制，具备唱歌表演、声线模仿、方言演绎等多种能力。

实际上，包括豆包 1.6 系列、Seedance 1.0 Pro，也都全量上线火山方舟，为 ToB 用户提供更先进 AI 能力。

与此同时，火山方舟还带来了一系列全新工具，将 Agent 开发门槛一降再降。

更轻松构建生产级 Agent

ToB 维度，今年最火的 AI 趋势莫过于 Agent 开发。

火山引擎此次在 MaaS、数据、AI Infra 三方面发布的新产品，几乎都是为此而来。

首先，为加速企业构建 Agent，火山引擎带来多款产品：

火山引擎 MCP 服务

提供 200+MCP 服务，与 TRAE、火山方舟、扣子打通，开发者还可通过 MCP 控制火山引擎的云服务组件，加速产品落地。

PromptPilot

帮助开发者优化提示词，将模糊需求转化为具象化目标。支持自动撰写和优化提示词，针对 badcase 自动优化以实现精准调控，具备多轮对话、视觉理解、复杂工具调用优化能力，以及自主判断是否开启模型精调等功能。

AI 知识管理产品

帮助企业管理内部知识，进一步将本地资源与互联网内容整合。支持文本、图像、音频、视频等多模态内容对话式输入，并且能够把输出的数据组织为更易于理解的图表。首创可交互的推理 " 做个计划 " 功能，实现人机协作制定、修改计划。

开源 veRL 强化学习框架

veRL 是字节内部在 2023 年开发的强化学习框架。它可轻松扩展各种强化学习算法，能将现有 LLM 基础设施与模块化 API 无缝集成，具备灵活的设备映射，支持将模型放置到不同的 GPU 租上。同时具备极强吞吐性能，并使用 3D-HybridEngine 进行高效的 Actor 模型重新分片。

基于以上多方面能力，可以实现自动化生成研究报告、匹配 PPT，并自动发送邮件。

开发一个网站，也只需要用纸笔画个草图，其他都能交给 AI。

从设计稿解析、代码生成到公网可访问网页，这些流程都能全自动化部署。

AI Infra 方面，火山引擎将三个基础能力原子化，对外发布。

AgentKit：面向企业级 Agent 打造的全栈开发和服务工具链。

TrainingKit：面向预训练实现高达 60%+ 的 MFU（算力利用率）；面向后训练实现 Sandbox 百万核秒并发能力等。

ServingKit：面向推理，从模型部署、在线推理、服务运维三个阶段进行加速和提效。

最后，在数据方面，推出多模态数据湖和 Data Agent，实现从 " 支持 BI" 到 " 支持 AI"。

One More Thing

在整场发布中，字节还披露了一个尤为关键的数字——

截至 2025 年 5 月底，豆包大模型日均 tokens 使用量超过 16.4 万亿，较去年 5 月刚发布时增长 137 倍。

IDC 数据显示，2024 年中国公有云大模型调用总量达到 114.2 万亿 Tokens，其中火山引擎占据 46.4% 的市场份额，几乎占据半壁江山。

火山引擎总裁谭待也在采访中表示，大模型产品带来的业绩收入是火山引擎所有产品中增速最快的，也是毛利最好的业务之一。

整场发布中，穿插在字节最新技术之间的，就是各个行业的大客户了。其中包括联想、宝马、奔驰、微博、瑞幸、百胜中国肯德基等等。

嗯，也不意外，更硬技术 + 更优成本带来的更高增长，已经开始对外显现。

不过对于火山引擎内部，现在的目光可能更聚焦在未来。

谭待表示，当下正是从生成式 AI 向 Agentic AI 逐渐过渡转变。深度思考、多模态理解、工具自主调用是关键方向。

火山引擎智能算法负责人吴迪也很肯定，今年 AI 三大技术主线就是：

带有多模态理解能力的 Reasoning 模型

视频生成模型的能力提升

多步骤复杂任务能力的成熟和渗透

这种肯定甚至可以细化到：

"2025 年会以每个月至少 2 次的节奏，出现模型基础能力与应用方面的交错浪潮。

最后 3 个月，你可以放心地把价值 50 元的事交给 AI 端到端处理，它能实现 80-90% 的准确率。"

所以，期待吧。

大模型时代的探险家们，已经抢先用望远镜看到了新风景，而这些风景可能比我们预期中来得更快、也更普惠。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签