日前,字节跳动方面正式公布了通用图像编辑模型 SeedEdit,并且该模型已在豆包 PC 端和即梦网页端开启测试。
据官方介绍,SeedEdit 是基于豆包文生图大模型打造,能够广泛适应不同用户的多样化编辑需求,具备可控性强、编辑效果佳且无贴图感等特点,并且相较优化单一专家任务、配置专有工作流等传统方式,该模型充分发挥了通用图像编辑模型的优势。用户只需用简单的自然语言,便可完成包括修图、替换、美化、风格转化,以及在指定区域添加或删除元素等编辑任务。
其中在可控性方面,SeedEdit 具备出色的指令理解能力,无论中文、还是英文输入都能精准响应,而且还可理解成语、专有名词等复杂词汇。例如输入 " 驴打滚换成拿破仑 " 这一指令,该模型可准确识别出 " 驴打滚 " 和 " 拿破仑 " 的特殊含义、完成食品的替换,从而迅速实现用户的意图。
此外与传统涂抹选中修改目标的方式相比,SeedEdit 直接通过文字指令编辑图像的方式,在处理如裂纹、发丝等精细涂抹区域时具备独特优势。同时该模型还支持多轮编辑,并借助隐空间编辑技术能够维持图片像素的清晰度和画面结构的稳定性,进而支持用户长时序、复杂编辑任务。
值得一提的是,为了取得 " 维持原始图像 " 和 " 生成新图像 " 之间的平衡,SeedEdit 针对数据稀缺问题重新设计了模型架构,并且采用多模型、多尺度、多标准的数据制造方案,很大程度上解决了数据量、数据多样性和数据质量的问题。
对此字节跳动方面表示,SeedEdit 首次以产品形态零样本稳定跟随用户需求编辑图片,同时增强了响应能力和保持能力,这也是豆包大模型团队在多模态生图领域的一次重要拓展。此外其还强调," 以此为起点,团队将从技术创新与玩法拓展上持续精进,全面提升图像编辑模型的综合实力 "。
据了解,豆包大模型团队后续将聚焦于优化 SeedEdit 在处理真实图片时的鲁棒性,同时针对性提升人体相关、人像美化、素材设计与重设计等高价值专家模型的响应效果。而在玩法创新维度,SeedEdit 现阶段主要致力于单图编辑,未来将会拓展多图联动玩法,通过构建稳定且连贯的场景、人体与物体组合,以 " 讲故事 " 的方式赋予图像序列生命力。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦