智东西 2024-12-17
李飞飞专访:实现全面智能,解决3D智能是基础性工程
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编译 | 风衣

编辑 | 程茜

智东西 12 月 17 日消息,斯坦福大学教授、AI 教母李飞飞于 12 月 11 日在重量级 AI 会议 NeurIPS 上发表了主题演讲,并在演讲前接受了 IEEE Spectrum 的独家采访。在专访中,李飞飞表示 AI 视觉模型与语言模型同等重要,而空间智能正是视觉智能的发展方向。未来空间智能将深度参与到我们的日常生活中,这一领域大有可为。

李飞飞也提到,应该为公共部门提供足够的数据与算力资源,以推动 AI 研究更好的发展。

李飞飞的研究已足以让她在 AI 的发展历史上占据一席之地。在深度学习革命中,她发挥了重要作用:深耕数年创建 ImageNet 数据库和竞赛,让 AI 系统挑战识别逾一千种物体和动物。2012 年,一个名为 AlexNet 的神经网络在 AI 研究界引起了轰动,它的性能远远超过了所有其他类型的模型,并赢得了 ImageNet 比赛。从此,靠着海量、免费的网络数据和显卡提供的前所未有的算力,神经网络研究一飞冲天。在 ImageNet 问世后的 13 年里,计算机视觉研究人员掌握了对象识别技术,并转向图像和视频生成。

李飞飞是斯坦福大学人类中心 AI 研究所(HAI)的联合创始人,持续致力于突破计算机愿景的边界。就在今年,她创办了一家公司 World Labs,生成用户可以探索的 3D 场景。World Labs 致力于为 AI 提供 " 空间智能 ",即生成 3D 世界、在 3D 世界中进行推理和交互的能力。

一、视觉和语言互补,空间智能是实现全面智能的基础

问题:您为什么将演讲的题目定为 " 攀登视觉智能之梯(Ascending the Ladder of Visual Intelligence)"?

李飞飞:我认为,仅凭直觉就能知道,AI 的复杂程度和成熟程度是有不同层次的。在演讲中,我想传达这样一种感觉,即在过去几十年中,尤其是过去 10 多年的深度学习革命中,我们在视觉智能领域学到的知识已令人叹为观止,在这项技术上的能力也日趋成熟。我还受到了犹大 · 伯尔(Judea Pearl)" 因果阶梯 " 的启发(《因果革命(The Book of Why)》,2020)。

这个演讲还有一个副标题,叫 " 从看到做(From Seeing to Doing)",这是一个被大家低估的理念:无论对于动物还是 AI,视觉都与交互、做事密切相关,这是对语言的某种悖反。但从根本上说,语言还是一种用来传递想法的交流工具。在我看来,视觉和语言恰好互补,都是极其重要的 AI 发展模式。

问题:您的意思是,我们会本能地对某些场景做出反应吗?

李飞飞:我说的不仅仅是直觉。如果多了解一下感知能力和动物智力的演变,就会发现视觉与这些都是紧密联系的。当我们能够从环境中获取更多信息时,进化的力量就会推动能力和智力向前发展。如果你感知不到环境,那与世界的关系就非常被动,不管是吃还是被吃,都会是非常被动的举动。但是,一旦你能通过感知从环境中获取线索,进化的力量就会增强,从而推动智力向前发展。

问题:您认为,让机器从环境中获得更多信息是我们深化机器智能的方式吗?

李飞飞:我不确定我会用 " 深化 " 来形容。我认为我们正在创造更强大的能力,AI 正变得越来越复杂,功能越来越强大。我相信,解决空间智能问题是迈向全面智能的基础和关键,这点是绝对没问题的。

二、" 世界是 3D 的 ",空间智能是基础性工程

问题:我看过 World Labs 的演示视频,您为什么想要研究空间智能并构建 3D 世界?

李飞飞:我认为空间智能是视觉智能的发展方向。如果我们想要认真解决视觉方面的问题,将视觉与实际操作建立链接,那就会发现一个非常简单的、显而易见的事实:世界是 3D 的。我们不是生活在平面世界里,不管是机器人还是设备,所有的物理主体都将会生活在 3D 世界里,甚至虚拟世界也变得越来越 3D。如果与艺术家、游戏开发人员、设计师、建筑师、医生交谈,您会发现即使他们在虚拟世界工作,这些虚拟世界也大都是 3D 的。如果花点时间仔细想想,认识到这个简单却重要的事实,那么毫无疑问,解决 3D 智能的问题就是基础性工程。

问题:我很好奇 World Labs 生成的场景是怎么做到既让物体持续存在、又让其运动符合物理规律的,感觉这是个让人兴奋的进步,因为即使是 Sora 这样的视频生成工具,也都还处于摸索阶段。

李飞飞:一旦你认识到世界的 3D 性,很多事情都是很自然的。例如,我们发布在社交媒体上的一条视频中,篮球被扔到某个场景里。因为它是 3D 的,所以才能实现这种效果。如果场景只是 2D 生成的像素,篮球就无处可去了。

问题:或者就像在 Sora 生成的视频一样,篮球可能会出现在某个地方,然后又莫名其妙地消失。在尝试推动这项技术向前发展的过程中,您面临的最大技术挑战是什么?

李飞飞:没有人能解决这个问题,这非常非常难。你在 World Labs 演示视频中可以看到:我们拍摄了一幅梵高的画,并用统一的风格围绕这幅画生成了整个连贯场景:艺术风格、光线,甚至那个地方会有什么样的建筑。如果你转过身,发现画面变成了摩天大楼,那就很没有说服力了。而且它必须是 3D 的,你必须能够进入其中进行探索。所以,它不仅仅是像素而已。

问题:您能谈谈用来训练它的数据吗?

李飞飞:那就太多了。

三、知识探索需算力资源支持,AI 理解 3D 世界或带来大量创造力

问题:您在计算机负载方面有遇到什么技术困难吗?

李飞飞空间智能需要大量的算力,而这是公共部门难以负担的。这也是我对进行学术休假、创建私营企业研发 AI 这件事感到兴奋的一部分原因。同时,这也是我一直倡导公共部门获取计算资源的原因之一,因为我自己的经历突出了必须拥有足够资源、以推动创新的重要性。

问题:让公共部门拥有更大的权力是很有意义的,因为它通常更专注于为了知识本身以及造福人类而追求知识。

李飞飞:知识探索确实需要资源的支持。在伽利略时代,正是最好的望远镜帮助天文学家观察到了新天体。而列文虎克则意识到放大镜可以成为显微镜,然后发现了细胞。每当新的技术工具出现时,它就会推动知识的探索。而在 AI 的时代,技术工具包括算力和数据。我们必须意识到,公共部门也需要这些资源

问题:在联邦政府层面,您希望采用他们哪些措施来提供资源?

李飞飞:过去五年里,这一直是斯坦福大学人类中心 AI 研究所(Stanford HAI)的工作内容。我们一直在与国会、参议院、白宫、行业和其他大学合作,以创建NAIRR,即国家 AI 研究资源中心 ( the National AI Research Resource)。

问题:假设我们可以让 AI 系统真正理解 3D 世界,那会给人类带来什么好处?

李飞飞:它将给人们带来大量的创造力和生产力。我很希望能用一种更高效的方式设计我的房子。我知道,很多医学应用都涉及到要理解人体,这个非常特殊的 3D 世界。我们总在讨论一种人类能够创造机器人帮助自己的未来。但机器人是在 3D 世界中工作的,它们的大脑必须具备空间智能。我们也在谈论虚拟世界,让人们可以参观各地、学习概念或娱乐。而这些都依赖 3D 技术,特别是我们所说的增强现实(AR)这样的混合技术。我希望当我戴着眼镜漫步在国家公园时,它能为我提供关于树木、小径、云层的信息。我也希望借助空间智能来学习不同的技能。

问题:什么样的技能?

李飞飞:我举一个很普通的例子:如果我在高速公路上爆胎了,我该怎么办?现如今我会打开 " 如何更换轮胎 " 的视频。但如果我能戴上眼镜,看见我的车发生了什么,然后在指导下完成换胎,那就太好了。但这是一个最普通的例子。你也可以想到做饭、可以想到雕塑,各种有趣的事情。

问题:您认为有生之年我们能走多远?

李飞飞:我认为这在我们有生之年一定会实现,因为技术进步的速度特别快。你已经看到了过去十年发生的变化,毫无疑问,这也预示着未来的发展。

来源:IEEE Spectrum

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

李飞飞 ai 深度学习 神经网络 斯坦福大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论