在今天举行的 FORCE Link AI 创新巡展 · 厦门站活动中,字节跳动旗下火山引擎正式发布豆包 · 图像编辑模型 3.0、豆包 · 同声传译模型 2.0,并宣布豆包大模型 1.6 系列迎来全新升级。
其中,豆包 · 图像编辑模型 3.0 是基于文生图模型 Seedream 3.0,叠加多样化的数据融合方法与特定奖励模型,可支持 1K 以上高清图像的生成与处理,可根据用户自然语言指令完成消除多余内容、改变光影效果、替换文字等操作。同时豆包 · 图像编辑模型 3.0 具备对风格、结构与语义的精准控制力,能够像人类一样理解指令、深度思考,解锁创新修图场景,例如图像风格转换、变换材质、变化人物姿势、根据提示词进行推理等。
据火山引擎方面介绍,豆包 · 图像编辑模型 3.0 可广泛应用于影像创作、广告营销、游戏宣传等领域。目前企业用户可在火山方舟平台调用该模型 API,个人用户可使用即梦或豆包 App 的 " 豆包 P 图 " 功能体验。
而豆包 · 同声传译模型 2.0 则支持全双工语音理解和生成框架,可将传统机器同传的语音延迟从 8-10 秒降低到 2-3 秒,实现文本与语音的同步生成,同时豆包 · 同声传译模型 2.0 可实现实现 0 样本声音复刻,让同一个人同音色开口说外语。
至于豆包大模型 1.6 系列中的极速版 Doubao-Seed-1.6-flash 模型,则在保持出色的视觉理解能力的同时,代码、推理、数学等大语言模型能力得到升级。据官方介绍,Doubao-Seed-1.6-flash 模型 " 非常适合 " 智能巡检、手机助手、智能硬件等对模型效果、速度和成本都有要求的大规模商业化场景。
此外,火山引擎还发布了全模态向量化模型 Seed1.6-Embedding,首次实现 " 文本 + 图像 + 视频 " 混合模态的融合检索。
值得一提的是,在此次活动中火山引擎方面还宣布开源扣子的核心能力,并发布企业自有模型托管方案、Responses API 等多个模型服务和工具产品,以持续优化 AI 云原生全栈服务。据悉,此次开源覆盖扣子平台最核心的两个项目,包括扣子开发平台(Coze Studio)、和扣子罗盘(Coze Loop),并采用没有任何附加条件的 Apache 2.0 许可证开源。
需要注意的是,日前火山引擎官网还推出了豆包视觉理解模型、豆包视频生成模型等全新大模型。据相关介绍显示,豆包视觉理解模型对视觉内容有更强的识别能力,更强理解和推理能力,以及更细腻的视觉描述能力。豆包视频生成模型则支持将用户的文本、图像生成高质量视频,并能生成具备丰富细节层次的影视级视频。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦