科创板日报 02-08
苹果联手加州大学研究人员推出AI图片处理模型 初显技术家底
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

财联社 2 月 8 日讯(编辑 史正丞)看着三星刚发布的 AI 手机 " 画个圈就能编辑图片 ",iPhone 用户只能无奈地咽下口水。但最新论文却显示,苹果公司在 AI 领域的储备,显然要比市场预期得丰厚不少

苹果与加州大学研究人员在本周刊发的论文中,公开了一项基于多模态大模型,能根据自然语言指示进行图片编辑的开源 "MGIE"AI 模型。开发人员直言,这个 AI 能够进行 "Photoshop 式的修改 "、全局优化和局部编辑。

(来源:arXiv)

这项研究的突破之处在于,虽然现在多模态大语言模型(MLLMs)在跨模态理解和视觉感知响应生成方面表现出了卓越的能力,但尚未被广泛应用于图像编辑任务。而从这篇论文给出的一系列演示来看,光是 MGIE 展现出来的 AI 图像编辑能力,就足以推出一系列有趣的 AI 应用。

这个 AI 能做什么?

使用多模态大语言模型编辑图像有两个好处:首先,模型能够将自然语言指令翻译成更容易让机器执行的命令。例如用户输入 " 让图片背景的天空更蓝一些 " 时,MGIE 会将提示词转化为 " 将天空区域的饱和度提高 20%"。其次,多模态大语言模型在视觉想象力、图片生成等模块本身也具有一定的优越性

论文也给出了不少示例:

比如," 让图中食物变得更健康一些 ",AI 就会在纯肉披萨上,加一些小番茄和香草叶

还有网友们需求极大的 "P 图 " 功能:将背景里的人去掉,这个 AI 也能抠得干干净净。

从多个同类 AI 的表现对比来看,MGIE 在理解指令(例如在甜甜圈上覆盖草莓酱淋面)和执行 P 图命令(增亮、锐化图片)方面,也展现出了业界顶级的效果。

(注:从左往右数,第一张为原图,第四张为 MGIE 输出效果)

目前 MGIE 的开源文件已经被论文第一作者、加州大学圣塔芭芭拉分校的 Tsu-Jui Fu 上传到 Github 上,同时在 " 抱抱脸 " 平台上开放了试用 demo。论文显示,Tsu-Jui Fu 曾在 2023 年夏天在苹果公司实习,MGIE 的研究工作也是在那个时候完成的。

围绕苹果的 AI 争论

MGIE 和这篇论文,也展现了苹果公司近些年来在 AI 领域确有相当水平的积累。

在被华尔街诟病 " 没跟上 AI 时代 ",以及科技爆料人嘴里 " 苹果高层惊慌失措 " 后,前不久才从世界市值第一上市公司的位置上掉下来的苹果,势将在今年对外展示 iOS 如何使用 AI。外界普遍预期,每年 6 月苹果披露最新软件成就的 WWDC,今年将会成为发布 AI 产品的主阵地。

在今年 2 月 1 日的财报电话会上,库克也明确表示,公司在生成式人工智能方面正在开展大量工作,同时在今年晚些时候,苹果将讨论一些 " 让我们感到无比兴奋的事情 "

值得一提的是,苹果公司在机器学习等领域一直都有投入,但在产品宣发层面却不太喜欢使用 AI 这个词。在去年 WWDC 上,苹果发布能够自动修正拼写错误的键盘功能,底层技术正是与 ChatGPT 类似的 transformer 模型,但是苹果在发布会上完全没有提 AI,仅使用了更为学术化的称呼——机器学习。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 加州大学 苹果公司 效果 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论