差评 5小时前
和vivo总裁聊了聊,发现我对影像的理解太浅了。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

这两天差评君受   vivo   邀请来到了位于海南的博鳌亚洲论坛年会。

  说起来我们还是第一次来参加这种大型的国际对话活动,差友们把排面打在公屏上。

关于博鳌亚洲论坛,给没听过的差友介绍一下,这其实是一个国际组织来的,他们每年都会在博鳌这个小镇举办一次年会——亚洲各国的政商大佬们和专家们聚在这里,坐着一起聊经济、谈合作,商量怎么把亚洲发展得更好。

所以每年面对不同的全球性挑战,以及科技发展趋势,博鳌亚洲论坛都会有一些新的议题。

  那对于我们科技媒体来说,当然还是更加关心年会上的科技议题了。

在这方面,vivo   每年都会在博鳌论坛上给大家带来创新产品,分享科技战略,比如去年他们就展示了   MR   头显、6G   等领域的新技术,并宣布进军机器人赛道。

而今年   vivo   又展示了新的战略规划,其中让我印象最深刻的还是   vivo   总裁胡柏山在会上的讲话 :

AI   想要真正从虚拟世界走进现实,就必须要能够做到主动感知和理解我们所在的这个世界,而想要建立起这种能看懂物理世界的感知能力,影像是一切的基石。

差评君翻译下来,就是别管是能打醉拳、翻跟斗的机器人,还是   OpenClaw   引发的养虾热潮,AI   跟世界交互才刚刚开始。

  " 不儿,这真的是因为蓝厂在影像上已经建立起优势,才这么说的吗?"

带着这个疑问,差评君在会后的媒体群访环节跟胡柏山聊了聊,总算是把这话题给聊透了,那咱们今天就顺着他的话,唠唠   vivo   的 " 影像   + AI   " 大棋。

现场大家问了胡柏山很多问题,但总结下来,最核心的就两点:

第一,在咱们消费者这里,率先实现   AI   落地的肯定是手机,而手机的未来,是从现在的   Smart Phone(智能手机)变成   Agent Phone(智能体手机)。

虽然现在各种   AI   硬件层出不穷,什么 AI 眼镜、AI 录音笔等等,但没有哪个设备能比手机更加普及,并且离人更近——你想想,手机   24   小时不离身,还能联动周边的一系列生态,天生就是做   AI   落地的载体。

  当然,目前手机的处理器算力和内存带宽来说,想要跑大参数的模型还是有瓶颈的,所以   vivo   选择聚焦端侧   AI,先让   AI   在手机上流畅地跑起来,用端侧   Agent   解决用户的场景痛点,把体验值拉升起来。

  说到这点,差评君也在现场问了胡柏山对于之前   AI   手机的隐私权限风险怎么看,他的回答也蛮直接了当的,就是用户的隐私权限和数据应该归用户自己来管理,所以手机必须得做好端侧   AI,关键数据都跑在本地,大程度降低在云端泄露的风险。

还有对于手机   AI   如何调用第三方应用能力的问题,他表示还是需要通过像   MCP   这种统一的协议来做,在标准的接口范围内,把事情做的有边界。

第二,即便现在   Al   是行业的 " 流量密码 ",但是对于   vivo   来说,影像依旧是不变主角。Al   和影像不是谁替代谁,而是要融合起来,一起驱动智能生态的。

  有点迷?那先来听听胡柏山透出的猛料,比如:

MR   头显的下一代要开始商业化;他们要把感知这条赛道做起来,把视觉和听觉这些感知能力整合到一起;以及   vivo   已经明确做聚焦室内场景的家用机器人了……等等等等,每一句话都透露了   vivo   接下来的大动作是围绕 " 影像   + AI " 的布局来的。

不管是演讲还是群访,蓝厂都在反复强调一个逻辑就是:没有影像,AI   在物理世界里就是 " 睁眼瞎 "

怎么理解这句话呢?我给大家拆解一下。

首先,大家应该都知道,AI   其实是没有感知能力的,它懂语言,但它看不懂我们的世界。

对于大多数   AI   来说,你扔给它的照片本质上只是符号和统计规律,而告诉它这些信息都代表了什么的,在过去是成千上万的人工标注员,他们通过手工框选贴标签,告诉   AI   图片中的水杯、桌子、车辆、宠物猫狗长什么样。

不过这两年不一样了,AI   自动化标注起来了,那些低端、机械化的标注活儿,AI   自己就能搞定,只剩一些复杂的高端标注还需要人来做。行业趋势也从 " 靠人力堆数据 " 变成了 " AI +   精细化人工 "。

于是,现在你扔给   AI   一张图片,它基本可以给你描述清楚当中都有哪些东西,但是这并不代表它看见的东西,就是你所看见的。

  因为它看到的其实是一张贴满了标签的二维平面,而不是你所认知的物理空间。

打个比方,你看到一瓶放在桌面上的水,你脑子里会知道它有重量,它要放在桌子上,它是否会滚动,它掉下来会是什么个运动状态——你之所以会这么想,并不是因为你识别出了这瓶水和桌子,而是因为你是知道这个物理世界是怎么运行的。

但是   AI   不会这样,它只会知道水瓶和桌子,以及水瓶应该是在桌子的上面而不是下面。

因为如此,去年 " AI   教母 " 李飞飞提出了空间智能这个概念,用 " 世界模型 " 让   AI   看懂物理世界,理解物体之间的空间关系、物理约束以及运动规律等等。

从目标来说,vivo   跟李飞飞所追求的是一样的,都是最终实现   AI   对于物理世界的感知——只不过   vivo   打算走一条更符合自身情况的路子,用影像来当   AI   在物理世界的感知器官。

  为啥是影像呢?

咱们从数据采集方式来看,录音只有声音;传感器只有距离、亮度等信息,没有语义。只有影像能够把前面这两项给囊括进来,把三维的现实世界,给你变成   AI   能读懂的结构化信息。

而且过去这么多年手机厂商影像的飞速进步,带来了海量的技术和场景数据积淀,比如对于光线的计算、前后景分割、人像分割、拍摄视角识别、场景识别等等积累,对于   AI   感知物理世界都有所帮助——

因为之前有研究表明,拍摄角度不同、光线差异、或者是有人从镜头前方走过等情况,都会降低   AI   的识别准确度。

就像   vivo X300   Ultra   和   X300s   这回的影像   Agent,之所以能自动推荐拍摄参数,核心就是手机影像能精准识别拍摄对象、光线条件,再结合   AI   算法,帮我们省去手动调节的麻烦。

另外,我还刷到过有文章说,AI   之所以无法很好地理解物理世界,有一个很大的原因是真实数据不足所造成的训练缺口。

因为过去传统的方式是,用实验室捕捉到的数据来训练   AI,这些地方的灯光固定、实验者会穿特定着装,跟现实场景相去甚远。

而商业级和通用的影像训练资料很多是非标数据,也就是没有打上力学标签,会导致   AI   无法准确识别某个动作的力度。

  从这点来说,手机影像的优势在于它更贴近普通人的日常生活,数据基本就是我们每天随手拍的场景。

比如清晨的阳光、路边的小吃、家里的宠物等等,你拍越多真实的日常场景喂给   AI  ,AI   对于我们普通人的生活就理解得越精细,甚至可以在手机上复制一个你的数字生命。

而且由于   AI   是跑在端侧的,你也不用担心云端的隐私泄露问题。

而对于未来影像和   AI   的结合,胡柏山认为影像应该是具备多模态感知能力的智能感官,他原话是这么说的:

" 它不仅要识别 " 这是一只猫 ",更要理解:猫在沙发上跳跃的可能轨迹、下一秒可能打翻水杯的关联、以及它此刻慵懒的情绪。"

在   vivo   看来,AI   的感知能力应该是主动的,可以帮你观察环境亮度、空间的纵深、甚至人际的距离,如果未来的   AI   想要能和人进行很好的互动,那么前面这些就是必须要具备的。

  举个很实在的例子:未来手机看到你在逛超市,就能推送优惠信息;看到你在开会,就能自动开启会议   Agent,帮你做会议纪要。这些场景,没有影像主动的实时感知,AI   根本无从下手。

聊到这里,咱们总算是把影像和   AI   感知能力之间的联系给唠明白了,而在听完博鳌的分享后,我也是回过味来了——

你们还记得不,2023   年胡柏山就透露过   vivo   会切入机器人赛道,并且还说:" 最适合做机器人的就是手机行业,甚至没有之一。"

  现在来看,这些行业巨头看到的东西,跟我们普通人还是不太一样,当年胡柏山敢说这话,是因为影像积累的视觉感知能力,正是机器人 " 看懂世界 " 的关键,

而   vivo   要做的,就是把这种能力,延伸到手机之外的生态产品上。

他们的战略很清晰,就是以影像   + AI   为核心,构建感知系统,一边重塑手机,让手机变成更智能的 " 随身助理;一边布局   MR   头显、家庭机器人等生态设备,让感知能力覆盖更多场景。

胡柏山在群访现场剧透,机器人   LAB   现在还在梳理路径,会聚焦年轻人的生活场景,比如照顾宠物、收纳衣物,先从简单的场景入手,逐步迭代,不追求一步到位。

  而且他们很清醒地认为,大模型未来会越来越同质化,真正的差异化在于场景数据——因为不同品牌聚焦的场景不同,积累的数据就不同,而影像正是获取这些差异化数据的核心。

就像特斯拉的   FSD   虽然开源部分技术了,但是最核心的代码和数据并没有公开,所以其他家也做不到跟特斯拉一样的体验,而   vivo   更聚焦场景数据,这也会成为自己的核心竞争力。

在这波 AI 的大浪潮里,每一家头部厂商都在为未来布局,但   vivo   没有盲目地跟风追   AI   热点,而是选择了在自己原有的影像长板基础上,去为   AI   打造感知能力,让   AI   在未来可以真正走进我们现实的生活中。

  我们总说人类是 " 视觉动物 ",其实我们创造的智能体,未来也会是 " 视觉动物 " ——  vivo   接下来想做的,就是好好打磨   AI   的这双 " 眼睛 ",用影像来给   AI   落地铺路架桥。

虽然目前我们还没看到最终的成果,但蓝厂是打算先从手机   - MR   头显   -   机器人的发展路径入手,用 " 沿途下蛋 " 的方式,不断产出阶段性的成果,这也让我们看到了未来更多的可能性。

撰文:粿条   

编辑:米罗   

美编:素描

图片、资料来源

vivo

为什么 AI 能看到世界,却不懂世界?——一凡

它知道你在搬重物,但不知道你會受傷:想讓 AI 讀懂物理世界究竟多困難?—— Min

部分图片为 AI 生成

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论