9 月,字节跳动 Seed 团队宣布推出豆包图像创作模型 Seedream 4.0,并上线豆包 App。该模型支持文生图、图像编辑及多图参考等功能,相比前代模型 Seedream 3.0 和 SeedEdit 3.0,多模态生图效果、速度和可用性在专业评测中达到业界领先水平。
这一升级也让豆包 P 图实现了 " 玩法 " 升级,为用户打开了多模态自由创作的大门。基于这一升级,网友们解锁了不少有趣玩法,带来了万物皆可 " 邪修 " 的有趣体验。
比如一键编辑与重绘功能可以一键搞定图片编辑、局部替换,还是风格迁移、影像合成等需求。
我们不妨通过一个具体例子来体验其效果。让马斯克开上小米 SU7,在豆包对话页面点击 " 豆包 P 图 ",默认就是 " 豆包 Seedream 4.0"。上传图片,输入文字描述,等待近 30 秒,豆包就能直接生成基本符合描述的图片。
上图为 AI 生成
虽然首次生成在细节上还有不足,比如马斯克的头还是会在前挡风玻璃外,这显然有些不合逻辑。不过,简单指令下,意思已经非常贴近。难怪 Seedream 4.0 内测一出,网友们就把它玩出了花。当然,是不是真的万物皆可 " 邪修 ",我们也对核心功能进行了尝试。
一键换衣
我们上传了一张模特照和一套衣服(网图),输入提示词:让图 1 女生穿上图 2 的衣服。
上图为 AI 生成
从生成的结果上看,这次的模型能够遵循提示词要求,将参考穿搭替换到模特身上。整体效果自然,轮廓基本与参考图一致。但是,服饰替换之后,细节仍待提升,想达到官方宣传的替换效果,还需要经过多次尝试和调整。
多图输入
为了验证多图融合能力,我们上传了一猫一狗两张宠物照片,并输入提示词:将图 1 狗狗和图 2 猫咪合进一张画面。
上图为 AI 生成
模型整体可以理解提示词的意思,但是豆包 "P 图 " 的老毛病依然存在:太爱 " 自作主张 "。给出指令之后,虽然做了融合,背景也还算协调,但改变了狗狗的颜色。
分镜设计
能融入也就能输出,如果想给照片做一下分镜,Seedream 4.0 多图输出能力值得一试。我们上传了一张带走双人的电影剧照,输入提示词:根据图片,生成一组爱情片分镜,比如散步、看电影等。
上图为 AI 生成
从结果上看,Seedream 4.0 能够在严格遵循人物外观一致性的基础上,设计出海边漫步,看电影,咖啡馆约会等浪漫场景。形象没有漂移,和一般的生成模型还是有一定的区别,设计的故事化图像可用性也比较高。
场景重建
在深度意图理解方面,Seedream 4.0 也展现出强大的场景重建能力。我们上传了一张室内设计的线稿图,输入提示词:将线稿图改造成真实场景。
右图为 AI 生成
从结果上看,这一模型实现了细节上的高度还原,从沙发、桌子、台灯等主要家具,到画框、绿植等小型装饰,都能做到几乎 1:1 的精准复刻。同时,空间构建较为合理、完整。这说明,Seedream 4.0 在理解用户意图上有较大进步,生成结果的整体观感与专业设计渲染效果较为接近。
精准指令编辑
在增删改替常规玩法方面,Seedream 4.0 有较大进步。我们上传一张背景杂乱的旅行照,给出指令:删除背景中的路人。
右图为 AI 生成
从生成结果上看,背景中杂乱的路人可以被删除得较为干净,并且可以对背景进行自然填充,画面衔接较为流畅,P 图痕迹基本可以忽略不计。
另外,如果想要执行更为复杂的任务,Seedream 4.0 也能在保证面部特征和气质一致性的基础上,顺利完成指令。比如,我们上传了一张人像图,输入指令:更换图片人物发型。
右图为 AI 生成
从结果上看,这一模型可以流畅转换发型,效果较为自然,可以避免因局部修改导致的整体失真。如果想要改变人物姿势,只需要输入更换不同姿势的指令,Seedream 4.0 就可以根据指令生成较为自然的姿势和场景。比如我们上传一张人物正面图,输入指令:改变图片人物姿势。
那么,我们就会轻松获得各种带有场景的 " 写真照 "。从实测表现来看,这一特性对广告设计、电商修图、影视后期等场景尤为重要,大幅减少了人工二次修正的成本,不知道平面设计师们有没有瑟瑟发抖?
左图为 AI 生成
多图生成
相比单图输入,多图参考能提供更丰富的信息。Seedream 4.0 最多可支持十余张参考图,同时抽取人物特征、场景风格和物体结构,并进行有机融合。我们上传了四张图片,输入指令:根据相关图片,抽取人物特征、场景风格和物体结构,并进行有机融合。
上图为 AI 生成
从结果上看,这一模型的对构图的思考能力还不错,它可以基于多张照片进行合理构图,能够比较好的理解用户意图,在合成过程中基本能保持尺度合理与物理结构的连贯性,展现出对现实世界的 " 常识理解 "。
文字生成图片
我们对这一生成能力也进行了测试,在对话框输入指令:一个亚洲少数民族男孩,坐在草地上看书,身边放着马鞭,草地上有一匹马在吃草,天空是清透的蓝天白云,构图为 3:2 横图,风格为写实摄影。
左图为 AI 生成
从生成结果上看,Seedream 4.0 可以轻松理解文字意图,并根据理解生成较为美观的实拍风格图片。直接文字描述就能生成图片的方式,不知道能不能满足 " 善变 " 的甲方呢?
修复老照片
如果想修复一下老照片,Seedream 4.0 也能承担起修复师的工作。我们上传了一张破损严重的旧照,并要求这俩模型进行自动修复。输入指令:修复这张老照片,并将色彩变成彩色。
右图为 AI 修复
从结果上看,这一模型的处理结果能够达到可用水准,照片中的瑕疵基本可以去掉,人物面部轮廓与背景纹理表现得比较锐利,照片清晰度恢复的较高。总体来说,在保持原有影像风格的前提下,将照片恢复到了较为完整、清晰的状态。
结语
在图像创作方面,豆包有了 Seedream 4.0 之后,其已从单一的文生图进入多模态交互的新阶段。不管是理解能力还是对复杂任务的处理方面,都有了较大提升。换句话来说,Seedream 4.0 在一定程度上打破了单点能力局限,开始具备通用多模态创意引擎的雏形。不过,在一些任务处理上,Seedream 4.0 在理解用户意图上,仍然需要进化。
总体来说,即便是不具备 PS 软件使用能力的普通人,也可以在豆包这儿进行图片处理。简单的电商图片、文案处理,甲方的简单需求,也可以得以解决。而要达到专业设计师的水平,我们还需要关注 Seedream 4.0 的进一步进化。
参考资料:微博、豆包 APP
编辑:夏树
登录后才可以发布评论哦
打开小程序可以发布评论哦