财联社 2 月 8 日讯(编辑 史正丞)看着三星刚发布的 AI 手机 " 画个圈就能编辑图片 ",iPhone 用户只能无奈地咽下口水。但最新论文却显示,苹果公司在 AI 领域的储备,显然要比市场预期得丰厚不少。
苹果与加州大学研究人员在本周刊发的论文中,公开了一项基于多模态大模型,能根据自然语言指示进行图片编辑的开源 "MGIE"AI 模型。开发人员直言,这个 AI 能够进行 "Photoshop 式的修改 "、全局优化和局部编辑。
(来源:arXiv)
这项研究的突破之处在于,虽然现在多模态大语言模型(MLLMs)在跨模态理解和视觉感知响应生成方面表现出了卓越的能力,但尚未被广泛应用于图像编辑任务。而从这篇论文给出的一系列演示来看,光是 MGIE 展现出来的 AI 图像编辑能力,就足以推出一系列有趣的 AI 应用。
这个 AI 能做什么?
使用多模态大语言模型编辑图像有两个好处:首先,模型能够将自然语言指令翻译成更容易让机器执行的命令。例如用户输入 " 让图片背景的天空更蓝一些 " 时,MGIE 会将提示词转化为 " 将天空区域的饱和度提高 20%"。其次,多模态大语言模型在视觉想象力、图片生成等模块本身也具有一定的优越性。
论文也给出了不少示例:
比如," 让图中食物变得更健康一些 ",AI 就会在纯肉披萨上,加一些小番茄和香草叶。
还有网友们需求极大的 "P 图 " 功能:将背景里的人去掉,这个 AI 也能抠得干干净净。
从多个同类 AI 的表现对比来看,MGIE 在理解指令(例如在甜甜圈上覆盖草莓酱淋面)和执行 P 图命令(增亮、锐化图片)方面,也展现出了业界顶级的效果。
(注:从左往右数,第一张为原图,第四张为 MGIE 输出效果)
目前 MGIE 的开源文件已经被论文第一作者、加州大学圣塔芭芭拉分校的 Tsu-Jui Fu 上传到 Github 上,同时在 " 抱抱脸 " 平台上开放了试用 demo。论文显示,Tsu-Jui Fu 曾在 2023 年夏天在苹果公司实习,MGIE 的研究工作也是在那个时候完成的。
围绕苹果的 AI 争论
MGIE 和这篇论文,也展现了苹果公司近些年来在 AI 领域确有相当水平的积累。
在被华尔街诟病 " 没跟上 AI 时代 ",以及科技爆料人嘴里 " 苹果高层惊慌失措 " 后,前不久才从世界市值第一上市公司的位置上掉下来的苹果,势将在今年对外展示 iOS 如何使用 AI。外界普遍预期,每年 6 月苹果披露最新软件成就的 WWDC,今年将会成为发布 AI 产品的主阵地。
在今年 2 月 1 日的财报电话会上,库克也明确表示,公司在生成式人工智能方面正在开展大量工作,同时在今年晚些时候,苹果将讨论一些 " 让我们感到无比兴奋的事情 "。
值得一提的是,苹果公司在机器学习等领域一直都有投入,但在产品宣发层面却不太喜欢使用 AI 这个词。在去年 WWDC 上,苹果发布能够自动修正拼写错误的键盘功能,底层技术正是与 ChatGPT 类似的 transformer 模型,但是苹果在发布会上完全没有提 AI,仅使用了更为学术化的称呼——机器学习。
登录后才可以发布评论哦
打开小程序可以发布评论哦