手机中国 05-14
苹果智能眼镜或将搭载FastVLM AI处理速度提升85倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【CNMO 科技消息】几个月来,关于苹果计划推出 AI 智能穿戴设备的传闻和报道层出不穷。目前看来,苹果的智能眼镜有望在 2027 年左右发布,这将是 Meta Ray-Bans 的直接竞争对手,同时还将推出带有摄像头的 AirPods,这些设备都将具备一系列 AI 功能。尽管目前尚不清楚这些设备的具体外观,但苹果已经向我们展示了其 AI 模型可能的工作方式。

2023 年,苹果机器学习研究团队发布了 MLX,这是苹果专为其芯片设计的开源机器学习框架。简而言之,MLX 为开发者提供了一种轻量级的方式,可以在苹果设备上本地训练和运行模型,同时保持与传统 AI 开发框架和语言的一致性。

苹果的新型视觉模型 FastVLM,能够快速准确地识别用户举起的手指数量、屏幕上显示的表情符号以及手写文字。

如今,苹果推出了 FastVLM,这是一种视觉语言模型(VLM),它利用 MLX 实现近乎即时的高分辨率图像处理,同时对计算资源的需求远低于同类模型。正如苹果所说:" 基于对图像分辨率、视觉延迟、标记数量和 LLM 大小之间相互作用的全面效率分析,我们推出了 FastVLM ——这是一个在延迟、模型大小和准确性之间实现优化权衡的模型。"

FastVLM 的核心是一个名为 FastViTHD 的编码器,该编码器 " 专为高分辨率图像的高效 VLM 性能而设计 "。与类似模型相比,它速度高达 3.2 倍,体积小 3.6 倍。如果设备需要在本地处理信息,而不是依赖云端来生成用户刚刚询问(或正在查看)的内容的响应,这一点至关重要。

此外,FastVLM 在设计时还考虑了减少输出标记数量,这在模型解释数据并生成响应的推理阶段也至关重要。据苹果称,其模型的首次标记响应时间比类似模型快 85 倍,即用户发送第一个提示并收到第一个标记答案所需的时间。更少的标记、更快且更轻量的模型意味着更快的处理速度。

FastVLM 的代码已在 GitHub 上发布,相关报告可在 arXiv 上找到。虽然阅读起来有一定难度,但对于对苹果 AI 项目技术细节感兴趣的人来说,绝对值得一读。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 智能眼镜 智能穿戴 机器学习 分辨率
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论