硅星人 10-05
直播对话:视觉感知如何驱动机器人“睁眼”看世界
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本期 TICLAB 直播,我们特别邀请到阿丘科技联合创始人郑慧伟,光秒科技创始人余彦武博士,易观合伙人 / 企业数字化中心负责人张澄宇,和我们一起聊聊他们如何利用前沿技术应对行业痛点,以及未来智能制造的新机遇。

阿丘科技和光秒科技,两个在工业 AI 领域深耕不辍的企业,正在以各自的创新技术改变着传统制造业的面貌,推动着传统制造业的转型。

成立于 2017 年的阿丘科技,一直扎根于工业生产一线,专注于机器视觉和 AI 视觉技术的应用,致力于实现全方位的质量管控。他们的 AIDI 平台不仅能高效检测缺陷,还能实时监控设备和人员操作的安全性,真正为企业带来了实打实的价值。想象一下,以前需要数十名质检员的繁重任务,如今通过 AI 技术的应用,仅需几台设备便可轻松完成,这无疑是对传统制造业的一次颠覆。

光秒科技自 2019 年成立,目标明确:为机器赋予 " 通用的眼睛 "。他们通过将激光雷达与摄像头技术融合,创造出一种全新的传感器。这种传感器不仅具备 3D 感知能力,还能够以极低的成本提供高分辨率的环境理解。这样的技术将如何改变无人机物流配送、自动驾驶等领域,让机器真正 " 看 " 得更远、更清晰。

AI 浪潮下的新需求

张澄宇:作为机器视觉产业链上的厂商,阿丘科技和光秒科技分别观察到市场端有哪些新的热点和需求?

郑慧伟:大家好,我是来自阿丘科技的郑慧伟,我们主要在做工业生产领域的机器视觉相关的技术,来实现整个生产过程中的质量管控。我们比较关心两个维度,一个是供给,一个是需求,最好的情况下是达到 PMF(product-market fit,就是很舒服的状态。在整个工业生产的过程中,视觉它本身是一种感知的手段和方法,其实需求非常多。第一大类是围绕整个生产过程中视觉的应用。第二大类是能面向和人相关的,人的一些动作识别。第三类是在整个工业生产过程中安全相关的问题。更深入一步来讲,视觉我们把它定义成感知层,这个其实还只停留在感知层,还没到反馈层。如果在工业生产过程中能把这种感知的信息,进行有效的二次加工,形成对应的一些工艺反馈,能反馈到前端工艺上,来判断工艺是否需要改善,整体良率和稼动率是否可以提升等等,这些点都能带来非常大的价值。所以说从宏观角度来看,基本上需求是很多的,我们也非常拥抱新型的技术来到我们行业中,为这个行业赋能。

余彦武:大家好,我叫余彦武,是光秒科技的创始人。我们是做传感器的,主要解决将来人工智能所有的机器通用的 " 眼睛 " 问题,具体来说我们是把激光雷达和摄像头融合到一个设备里,你可以想象它既是激光雷达也是摄像头,将来可以做为一个对摄像头方案的升级版本,应用到机器人的各种应用中。

我们在解决的是从 2D 到 3D 升级的问题。激光雷达这个领域之所以诞生,除了像一些空间的、航天的用途之外,民用用途最早是起源于自动驾驶。在自动驾驶之前,大家对 3D 传感是有一些需求的,但其实没有那么迫切,直到像自动驾驶这样的应用需求出来之后,大家发现需求变得必须要解决了,因为车在路上跑着识别前面的各种障碍物,它是一个很开放的环境,那对传感的要求就提出更多挑战。随着现在人工智能越来越热门,机器人、机器狗出现并承担更多的角色,3D 需求就会变得非常的迫切。第二类,像一些 3D 数字重建,类似于测绘采集的需求现在也很多,比如前一段时间比较火的《黑悟空》,有些游戏场景是需要通过 3D 传感装置实地的采集一些实物模型,输入到游戏场景里,1:1 复现。像 AR、VR 的一些游戏,现在有了 VR 眼镜,但是缺少内容,这个内容如果没有好的传感器去实时收集的话,只能靠人工去编辑,这样生产数据的效率就会很低。以前虽然有摄像头传感器,但是它还不够,因为它录制的只是一个稍微固定视角的、带颜色的信息,它是没有深度的。所以传感器从 2D 向 3D 升级是顺应市场需求的必然趋势。我们是做硬件的,和阿丘科技其实是有上下游的关系,我们希望去往底层提供更好的生产工具,这样后面的应用就可以更好的开展。

无人区开出的技术玫瑰

张澄宇:当下供给侧的生态是不是成熟了,如果还有一些欠缺的话,可能是在哪些层面或者产业链环节上还存在瓶颈?

余彦武:我的感受是传感器相对来说比较新一点,这个赛道相当于是个无人区,我们更多的难点来源于我们的上游。现在主流激光雷达也才做到 15 万到 20 万像素这么个级别,当我们要做到百万像素甚至千万像素级别的时候,你会发现很多问题并不是原理上不可行,而是很多基础元器件都要重新构造,比如芯片。如果用现有的元器件去拼凑,成本就很高。我们需要的东西现在市场里是空白的,必须要自己做很多本来不应该我们来做的事情。我认为这个事情是没有问题的,我们也应该做,因为我们给自己定的目标比较超前,当你做一个无人区的时候,那就意味着你的上游都是无人区。所以我们做了大量的自研激光器、自研芯片,不仅要把功能做通,还要把它的成本降低,把它的可靠性做好。我希望将来形成一个大的趋势之后,会有更多人参与进来去分摊我们的一些努力和成本。

另外在我们的下游这个方面,我们也有跟上游差不多的痛感。因为我们的激光雷达太新。一个典型的认知就是像自动驾驶汽车,很多人还在争议,到底要不要用激光雷达,比如以马斯克为代表的特斯拉,他用视觉就做的非常好,这会导致大家对激光雷达的存在是不是有必要这个问题产生质疑。从底层技术来讲,激光雷达能够提供的性能天花板是远高于摄像头的,因为它能提供多一个维度的信息,它是 3D 的。大家在谈论必不必要的时候,更多隐含的是,它价格能不能降下来。换句话说,如果同样的价格同样的分辨率,大家一定会选激光雷达。但我认为这件事很有意义,我需要去为一件正确的事努力,我相信就算不是光秒,再过 10 年、20 年也会有其他公司实现这个目标。

郑慧伟:我们本身是一家以软件为核心的一个企业,我们是做 AI 算法平台的。我认为供给瓶颈是在特定场景或者复杂场景上,存在一些技术上的瓶颈,我们也在积极寻找这些新型的技术,比如说像一些新型的光学手段,新型的成像技术。举个例子,像 X-ray 最早是用在牙科或拍胸片的民用场景,在几年前,X-ray 技术也引入到工业领域来做无损检测,还包括像超声波检测技术等,也引入到了整个行业内。

同时我们也在吸纳一些最前沿的技术,来做智能相机产品。智能相机产品,它是软硬一体的智能视觉产品,对于刚才余博士说的在做的无人区的产品,我们是最感兴趣的,我们关心两大类创新,一大类属于原创性的底层技术创新,另一类是交叉创新,比方它在 A 场景下用的很好,但他从来没有看过 B 场景,他不知道 B 场景也能用。举个例子,比如说像多光谱的技术,现在也在我们行业中在用。激光雷达我们也在看,它做的是面向大视野的场景(如无人驾驶),我们关注的场景基本上是偏结构化的小视野场景,对于这些小视野高精度的需求,我们强调的是计算的可重复性,所以对于不同场景有不同的考量点。

张澄宇:算法的迭代和创新,是核心要素吗?

郑慧伟:阿丘科技从创立到现在为止,一直以来都是以算法为核心来构建竞争壁垒或竞争优势的,上个月我们也刚发布了算法和平台软件的新版本 AIDI 3。用一个通俗的结构来看,这个场景里大家常说的三要素,算力、算法和数据,我们观察到了一个非常大的趋势,就是从算法往数据这边去构建技术壁垒的这样一个趋势。我们从最早的以构建算法为核心壁垒,在不断的迭代过程中,结合场景数据来构建场景模型的壁垒。在一些行业中,我们已经形成了一些通用的模型。它可以去跨场景复用,跨生产线复用,这对我们来说是很有价值的,本质上它形成的是一大类资产,对于我们的成本结构,对于客户端的成本节省都有非常大的帮助。

余彦武:因为我们提供的是原始数据,我想就如何使用这部分数据分享一些观点。我们这种新的传感器数据的出现,可能会对算法带来一些新的挑战。现在很多算法都是针对图像这种格式,不管什么样的传感器,不管谁家的传感器,数据格式基本都是通用的,数据流可能就是这样一个二进制的排列。再比如说有了我们这种新的传感器之后,每一个像素包含的数据格式就不只是 RGB,可能是 RGB 加距离。图像是存成 JPG 格式,视频存成 MP4 格式,那像我们这种数据它应该存成什么格式,用什么方法来编码来压缩,对于训练算法可能都要做一些调整。这个可能是这种新的硬件为软件算法带来的一些新的课题。

张澄宇:人机协同跟机器驱动,目前是什么样的关系?

郑慧伟:人机协同我们是辩证来看待它的,它分成两个维度,一个属于替代级,就是全自动化,像无人驾驶也是一样,人的干涉越少越好。第二类属于协作级,比如我能问他什么问题,基于这些问题他给了几个答案,再给他一些其他的信息输入。回到工业生产这个点上,我们想方设法的减少人机协作,我们是通过 AI 或是以数据驱动的方式,把人的动作或者人的理念想法数据化。

余彦武:从底层来讲,人是碳基生命机体,机器人的躯体在硬件层面比人适应性更强。首先它的各种材料性能都比人的肌肉要强,温度适应范围更广,也不需要氧气。第二,它的能源利用效率也比人强。在算法推理方面,只要数据足够、算力足够,机器的思考能力也能达到甚至超越人类的水平。综上在硬件和软件思考能力上,机器都可能会全面超越人类,并不需要人机协同。这是我对未来的一点畅想。

张澄宇:在数据和算力层面,存在的突破和挑战有哪些?

郑慧伟:数据毫无疑问是资产,从大的时间视野来看,是一个持续利好的事情。算力层面,围绕着两个方向在发展,高性能和低成本。一方面从成本来说,能感受到随着整个工业大生产的铺开,合理的平均成本其实在逐步在下降的。另一方面从需求层面来说,我们希望是鱼和熊掌两者兼得,当然还得依靠产业链上的各位同仁,我们能做的就是在数据层面去构建我们的一些壁垒和积累。

余彦武:因为我们是做硬件的,所以当我们发现某个事情有难度或者有瓶颈的时候,我们首先思考的是能不能从硬件上把这个瓶颈给消掉。现在人工智能对算力要求越来越高,而且需要大量的数据积累。我们的思考是能不能从底层上去考虑一些新的计算逻辑,比如光子计算机,或者是纯模拟信号计算。

用技术撕开认知牢笼

张澄宇 : 视觉解决方案在落地时的痛点和挑战?

郑慧伟:2017 年前,工业视觉领域是以传统的机器视觉算法为主的,工业市场领域几乎没有任何 AI 的技术应用,大家认为 AI 是一个黑盒子,行业中 99% 的客户和厂商其实是拒绝 AI 的,我们开玩笑说那时经历了很多年 " 非共识 " 的过程。随着技术的快速发展,在一些场景的 PK 上,大家逐步感受到用 AI 检测技术的效果和用传统算法检测的效果在快速拉开代差。

后面我们就把眼睛扎根到客户真正的需求里来创造差异化价值。比如人脸识别需要很多人脸图片,但在工业市场中它的良率很高, 有可能 3、5 个月才能收集十来个不良品,所以就倒逼着我们去研发小样本的算法,把这一类关键缺陷给检测出来。还有客户说我实在收集不到 NG 样品,但是你必须要检测出来,这又倒逼着我们回到技术本身去寻找解决方案,后面我们就把无监督学习应用进来,去解决没有 NG 图像的一些场景。我们就这样手眼并进来寻找一个个创新的点(需求 / 技术,互联互通),让客户去快速的获得收益,解决技术上的一些疑难和挑战。

余彦武:我们创业一开始是抱着以终为始的初心,看看十年后这个社会需要什么样的传感器,但是当我们真的去落地的时候,发现大家好像并不需要,或者说用不上。比方说汽车,大家对于汽车已经形成了一个固有观点,就是以摄像头为主,因为现在各种训练都是基于图像识别的,也比较成熟了。激光雷达是做一个备份保障,万一摄像头有什么问题,激光雷达还能做个辅助防止碰撞,基本大家都这么用的。在这种情况下,客户完全不需要激光雷达有很高的分辨率,他就要便宜,因为它是配角,配角就不能太贵。我们希望激光雷达在实现高分辨率之后,要在市场上起到一个认知——它是主角。你可以不要摄像头,但不能没有激光雷达。

另一方面也找到了很多对我们有刚需的场景,比方说无人机,对于细节要求很高,它怕撞树或者撞到高压线,还有防止 GPS 丢失,这些时候它都需要用激光雷达这种 3D 手段去实现。我们在做全新产品的实际推广过程中,也会遇到类似的战略选择问题。先做对我们有刚需的场景,不需要的我们就先放一放,因为有些时候需要一定的时机。当我们有一天产品成熟,价格确实降到他的心理门槛时,没准这个东西就会慢慢的推广开来,大家需要有个接受的过程。

张澄宇:未来 1-3 年,机器视觉可能会出现哪些技术创新或者演进方向?

郑慧伟:从感知层面的维度,我认为单纯的把图像采集回来的阶段已经过去,下一阶段一定会迈向计算成像,结合着 2D/3D 传感器的信号来综合生成多维度的数据信息。另外从算法的维度,包括从语言大模型到图像大模型一直在演变,像 Meta 推出的 SAM(分割一切模型)的开源成果,都在让大家对于这些算法创新充满了期待。

余彦武:和应用中遇到一些困境有关,就是常常会面临大家在认知上的一些判断。所以我们现在从做数据标注、数据集的建设开始,用新的数据格式采集回来数据,做完标注训练看出来的是一个什么样的效果。 我们在上游供应链硬件和下游很多的市场方向上都做了一些尝试,其实本来是客户要做的事情,我们来做,我认为是非常值得的,这些都是你作为一个创新者,必须要去解决的问题。能让大家认识到新的传感器,也可以通过训练新的数据去更好的解决问题。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

阿丘 ai 机器视觉 创始人 制造业
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论