" 不仅是一个图像生成模型,更是一个完整的多模态创意引擎。"
作者:苏打
编辑:tuya
出品:财经涂鸦(ID:caijingtuya)
公司情报专家《财经涂鸦》获悉,9 月 9 日,字节跳动 Seed 公众号正式宣布,发布新一代图像创作模型 Seedream 4.0,采用同一套构架实现文生图与通用编辑能力,融合常识和推理能力,在多模态效果、速度和可用性上较前代模型均实现显著突破。
通过多模态玩法拓展、风格化美感提升、逻辑理解力增强、自适应与 4K 生成、推理速度跃升等关键能力提升,Seedream 4.0 于综合评测中取得领先。目前,Seedream 4.0 已正式上线,用户可通过即梦、豆包、火山方舟等平台直接体验。
据字节跳动 Seed 团队自我简介,团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。
该公众号于 2024 年 4 月 29 日以 " 豆包大模型 " 名称注册,2025 年 4 月 26 日更名为 " 字节跳动 Seed"。
「更是一个完整的多模态创意引擎」
团队强调,Seedream 4.0 强化了理解能力且运用多维数据联合训练,令图像生成不再局限于单点能力,而是已具备通用多模态创意引擎的雏形。同时,在专业化场景的创作中,Seedream 4.0 对于高知识密度内容的生成处理已达初阶水平。
整体来看,Seedream 4.0 不仅是一个图像生成模型,更是一个完整的多模态创意引擎。
据悉,其最新能力目前可支持八种基础功能,包括精准编辑、灵活参考、视觉信号可控生成、上下文推理生成、多图参考生成、多图输出、高级文字渲染与排版、自适应比例与 4K 生成等。
例如,在上下文推理生成功能中,Seedream 4.0 不仅可以理解物理与时间约束、三维空间等复杂语境,还能在解谜、填字、续写漫画等任务中保持风格一致与细节精致,推理与创意生成能力突出;而其在图像编辑方面的能力,对广告设计、电商修图、影视后期等场景尤为重要,大幅减少了人工二次修正的成本。
此外,Seedream 4.0 在文生图和单图编辑方面亦有大幅提升。文生图方面,其特别增强了密集文字渲染和复杂语义理解能力,较其他同类模型在画面质感、光影自然度和色彩协调性上优势明显;单图编辑方面,其在指令遵循、参考一致性、结构完整性和文字编辑方面实现了平衡,既能灵活完成风格转换、视角变换等复杂任务,又能保持画面结构稳定。
在多模态扩展方面,Seedream 4.0 采用同一套构架实现文生图与编辑能力的统一,并在联合训练中实现相互的能力增强。
例如,团队将前续版本的 Seedream 文生图与 SeedEdit 图像编辑能力整合到同一套架构中,保持高质量的图像生成与高一致性的特征参考,实现了生成和编辑统一;同时,团队构建了大规模可扩展的多模态数据处理链路,能够快速高效构建大规模、高质量的编辑数据对。
软硬件串联协同,实现高质量与高效生成
同时,在 Seedream 4.0 中,团队还在推理环节进行了多层次优化,对算法和硬件进行深入改造。
通过对抗蒸馏、分布匹配、量化与稀疏化、推测解码一整套加速方案,Seedream 4.0 在实际应用中既能生成高质量的 4K 图像,也能实现最快秒级推理生成 2K 图片,实现了高质量和高效生成的统一。
今年 8 月份,字节跳动 Seed 团队发布并开源了全模态 PyTorch 原生训练框架—— VeOmni,采用以模型为中心的分布式训练方案,可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天。
7 月份,Seed 团队还正式发布端到端同声传译模型 Seed LiveInterpret 2.0,据称是 " 首个延迟 & 准确率接近人类水平的产品级中英语音同传系统 "。
该基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,实现极低的延迟的 " 边听边说 "。其在多人会议等复杂场景中英双向翻译准确率超 70%,单人演讲翻译准确率超 80%,接近真人专业同传水平。
同时,翻译延迟可低至 2-3 秒,较传统机器同传系统降低超 60%,实现了真正的 " 边听边说 " 翻译。
团队彼时曾透露,Ola Friend 耳机将于 8 月底接入 Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。
本文由公众号财经涂鸦(ID:caijingtuya)原创撰写,如需转载请联系涂鸦君。
添加涂鸦君个人微信(ID:tuyaclub)
加入【公司情报社群】
参与资本市场讨论
获取一手情报
登录后才可以发布评论哦
打开小程序可以发布评论哦