VR陀螺 04-22
在开发社区,这些“野生”AI/AR眼镜应用让我大开眼界
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 /VR 陀螺 万里

AI 眼镜目前可谓是明星 AI 硬件产品,一众企业下场,Ray-Ban Meta 销量爆火并受到了很多瞩目。

由于 AI 眼镜还属于一个新兴品类,背后仍有很多有待挖掘的需求。本文将聚焦于一些 AI 眼镜开发者以及极客玩家,并从中一窥这些用户为眼镜所构建的创新用例。

  封闭的 Ray-Ban Meta,如何获得第三方应用体验?

Ray-Ban Meta 无疑是 AI 眼镜市场的典型代表,销量已经破两百万,产品主打第一视角拍照 / 录像、AI 以及音乐播客功能,这些功能获得了普通消费者的众多好评。但另一边,Ray-Ban Meta 系统偏封闭,直到现在 Meta 都没有对外推送相应的 SDK,这导致了开发者无法为这款设备开发更多第三方应用。

即便如此,市面上还是出现了一些绕过 Ray-Ban Meta 硬件权限从而实现软件开发的案例。去年曾有两名哈佛学生基于 Ray-Ban Meta 实现了自动获取陌生人姓名、家庭住址、电话号码以及亲属姓名等功能。由于这背后涉及到了与每个人息息相关的隐私安全问题,当时还引起了一阵社会热议。

前面提到,Ray-Ban Meta 并未向开发者开放眼镜的摄像头权限,他们之所以能够实现这一点,实际上是用了一个讨巧的解决方案:Ray-Ban Meta 支持通过 Facebook、Instagram 等社交平台直播,因而可以设计一款检测直播流画面的软件。当 AI 识别相应的人脸信息后便可通过眼镜的蓝牙输出语音反馈。(Ps:Ray-Ban Meta 支持单次直播时长为 30 分钟)。

图源:X

除了相机权限外,Ray-Ban Meta 第三方大模型的缺失也是很多用户的一大遗憾。目前该设备运行的是自家的 Meta AI,但暂不支持 ChatGPT、Gemini 等其他主流 AI 工具。

曾有用户对比了 Meta AI 与 ChatGPT 的 AI 能力,他认为 ChatGPT 在分析图像时很细致,并且回复问题时可以做到更加全面,错误率更低。而 Meta AI 回复内容会相对简练,这可能对于语音交互会相对友好。在这种情况下,为 Ray-Ban Meta 引入 ChatGPT 想必能够一定程度改善使用体验并丰富用户的选择面。

注:对比方式为记录 Meta AI 的后台图片反馈,并将相同的图片传到 ChatGPT 进行处理。

图源:Medium

所幸的是,对于 Ray-Ban Meta 的第三方 AI 调用问题,市面上也出现了一些解决方案。

其中最简单的方式莫过于将 Ray-Ban Meta 充当为蓝牙耳机使用,手机端打开第三方 AI 大模型的 Live 模式,然后就可以进行对话了。

如果想要更进一步,我们可以参考来自 Medium 用户 Gorjan Jovanovski 的解决方案:

眼镜可以通过语音指令向 WhatsApp 等 APP 联系人发送语音、照片消息;

通过第三方程序检测社交 APP 的消息动态,并转交 ChatGPT 进行处理;

将 AI 生成内容发送回聊天界面,眼镜可以朗读最新消息。

该方案可以顺利实现 Ray-Ban Meta 对于 ChatGPT 的调用,但是局限在于整个链路较长使得时延会明显增加。

值得一提的是,对于国内 AI 眼镜,它们的 AI 大模型的选择面以及丰富性简直完爆 Ray-Ban Meta。很多硬件厂商试图发挥中台一类的角色,并通过接入各类模型以满足用户的不同需求。

如果再延伸来看,笔者认为后续 AI 眼镜可能会分为两类:模型厂商、硬件厂商,它们产品的 AI 能力将会是封闭与开放的两个代表。

  开放式 AI 眼镜崭露头角,开发者构建了哪些内容?

虽说当前 AI 眼镜多以封闭为主,但市场上也已经出现了一些主打开放的操作系统:

Android XR:这是一个由谷歌打造的 AR/MR 系统,发布于去年 12 月,后续将会搭载于谷歌、XREAL 等眼镜新品当中。由于该系统仍属于早期,目前暂未发现有相应的眼镜 SDK 发布。

Snap OS:Snap 曾于去年九月发布了 AR 眼镜新品 Spectacles 5,并同步推出了 Snap OS 以及 Lens Studio 开发工具,眼镜聚焦于部分国家的内容开发者,设备订阅价格为 99 美元 / 月 (美国)/110 欧元 / 月(欧盟)。

图源:Snap

Project Aria:这是一个 Meta 推出的 AI 眼镜研究项目,已经累计发布两代硬件产品,并对外开放了相应的研究套件,根据官网信息,产品主要面向 " 探索机器感知技术或其应用的研究人员 "。

AugmentOS:这是一个开源操作系统,由去中心化社区构建而成,该系统已经应用于 Even Realities G1、Vuzix Z100、Mentra Mach1 等产品,开发者可以购买相应的设备进行内容开发。

据介绍,AugmentOS 是一个基于云的操作系统,云端会接收并处理眼镜端的数据,第三方 APP 则可以 " 外挂 " 于这个系统之上,这样能够有效简化应用开发流程。

图源:AugmentOS

Brilliant Labs:这是一家开源 AR 眼镜开发商,去年 2 月曾推出了 AR 眼镜 Frame,产品聚焦于内容开发者,并相应推出了 Frame SDK 开发套件。

Brilliant Labs 官网信息指出,"Frame 没有自己的应用启动器或传统的应用安装系统。要与他人分享您的 Frame 应用,请通过 App Store、Google Play 或开源代码库等常规分发渠道发布您的应用。"

图源:Brilliant Labs

除了以上,AR 眼镜厂商雷鸟创新、Rokid、星纪魅族、影目、XREAL 等也曾对外推送了 AR 眼镜 SDK,这里不再进一步赘述。

虽说以上所提到的这些轻量化 AI/AR 眼镜以及操作系统仍属于初期阶段,不过即便如此,还是有不少开发者在此基础之上构建了不少应用内容。以下是笔者在社区论坛找到的部分案例。

全天候记忆能力

下图中,名为 @Lucas Builds The Future 的 YouTuber 基于 Frame 开发出了一款具有全天候记忆能力的 AR 眼镜应用。它的工作原理是眼镜每十五分钟拍摄一张照片,而后照片信息将会交由 AI 处理并形成类似于日记本的数据。

后续如果用户有需要,则能够根据这些信息回溯曾经所做过的事情,如快速想起 " 上周三的下午去了哪些地方 "。

在笔者看来,设法补齐 AI 眼镜的 " 记忆 " 能力,会是一个长期的方向,同时这也是我最为期待的功能之一。@Lucas Builds The Future 的低成本解决方案让我们提前看到了未来。

图源:YouTube @Lucas Builds The Future

AR 眼镜与机器狗进行联动

此前分体式 AR 眼镜的一大卖点在于可以连接无人机从而实现 FPV 飞行,现如今,开发者 David K. 更进一步,基于 Frame 实现了对宇树机器狗 Go 1 的控制。

如下图所示,AR 眼镜屏幕会显示当前机器狗所看到的画面,然后玩家可以基于手势让机器狗前后左右转向,并实现击落纸杯等操作。当然,由于 Frame 的显示分辨率不佳(640x400,彩色 OLED 屏幕),这是阻碍体验的一环。

David K. 在介绍中指出,Brilliant Frames 通过低功耗蓝牙 ( BLE ) 进行通信,每个像素 4 位,最多可渲染 16 种颜色。在这种资源受限的环境中,图像质量和色彩之间总是需要权衡取舍。"

图源:Linkedin @David K.

热狗检测器

同样基于 Frame 平台开发,开发者 CitizenOne 开发了一款让人有点摸不着头脑的应用:眼镜可以检测眼前的物品并辨别究竟是不是热狗。

AR 滤镜

提到 AR 滤镜,这几乎已经成为了 Snap 的代名词。实际上,自从 Spectacles 5 发布以来,再配备 Snap 的一些激励计划,平台已经吸引了不少开发者并为之构建了很多优质 AR 滤镜内容。

以下是个人比较喜欢的一个投篮 AR 滤镜,它可以显示投篮轨迹以及记录分数。

图源:Snap

引入拍照手势

今年年初,AugmentOS 举行了一场黑客马拉松活动,开发者 @Philippe 实现了 AR 眼镜屏幕实时显示取景框、基于手势实现拍摄 / 画面缩放等功能。

早些时候,AI/AR 眼镜只能拍摄特定画面,如果需要调整参数规格则需要通过 APP 进行处理,后续引入手势可能会是一个提升体验的方式。

图源:X 平台用户 Philippe

脏话检测

程序员 Roger 开发了一款 " 脏话罐 "APP,它的玩法很简单,当设备检测到用户正在说某些不文明用语时,屏幕会自动弹出警告信息。(AI 眼镜界的手工耿)

图源:X 平台用户 Roger

运行小游戏、播放视频

目前一体式 AR 眼镜多会倾向于采用 Micro-LED 屏幕,而它在画面色彩以及分辨率等方面还不足以支撑游戏、视频等体验,因而这两项功能会被很多人下意识忽略。即便如此,一些开发者依旧试图探索这方面的可能性。

下图中,开发者 Kevin 实现了在单色 Micro-LED 屏幕的 AR 眼镜中播放《Bad Apple》。

图源:X 平台用户 Kevin

开发者 Abeer Vaishnav 则成功实现了在 AR 眼镜运行 Chrome 浏览器经典的恐龙小游戏,它需要通过点击镜框进行操作。

图源:X 平台用户 Abeer Vaishnav

  写在最后  

AI/AR 眼镜仍处于早期阶段,不过从开发者的响应来看,产品的硬件并不能局限软件的想象空间。

眼镜的性能、续航、重量不可能三角依然成立,但也希望后续产品能加速迭代,从而给消费者提供更丰富的内容生态体验。

  第一时间了解 XR 资讯  

  关注 VR 陀螺官网(vrtuoluo.cn)

VR 陀螺的联系方式:

商务合作 | 投稿 :

六六(微信号 13138755620)

寻求免费曝光:

六六(微信号 13138755620)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai facebook instagram 社交平台 语音交互
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论