苹果智能眼镜或将搭载FastVLM AI处理速度提升85倍

【CNMO 科技消息】几个月来，关于苹果计划推出 AI 智能穿戴设备的传闻和报道层出不穷。目前看来，苹果的智能眼镜有望在 2027 年左右发布，这将是 Meta Ray-Bans 的直接竞争对手，同时还将推出带有摄像头的 AirPods，这些设备都将具备一系列 AI 功能。尽管目前尚不清楚这些设备的具体外观，但苹果已经向我们展示了其 AI 模型可能的工作方式。

2023 年，苹果机器学习研究团队发布了 MLX，这是苹果专为其芯片设计的开源机器学习框架。简而言之，MLX 为开发者提供了一种轻量级的方式，可以在苹果设备上本地训练和运行模型，同时保持与传统 AI 开发框架和语言的一致性。

苹果的新型视觉模型 FastVLM，能够快速准确地识别用户举起的手指数量、屏幕上显示的表情符号以及手写文字。

如今，苹果推出了 FastVLM，这是一种视觉语言模型（VLM），它利用 MLX 实现近乎即时的高分辨率图像处理，同时对计算资源的需求远低于同类模型。正如苹果所说：" 基于对图像分辨率、视觉延迟、标记数量和 LLM 大小之间相互作用的全面效率分析，我们推出了 FastVLM ——这是一个在延迟、模型大小和准确性之间实现优化权衡的模型。"

FastVLM 的核心是一个名为 FastViTHD 的编码器，该编码器 " 专为高分辨率图像的高效 VLM 性能而设计 "。与类似模型相比，它速度高达 3.2 倍，体积小 3.6 倍。如果设备需要在本地处理信息，而不是依赖云端来生成用户刚刚询问（或正在查看）的内容的响应，这一点至关重要。

此外，FastVLM 在设计时还考虑了减少输出标记数量，这在模型解释数据并生成响应的推理阶段也至关重要。据苹果称，其模型的首次标记响应时间比类似模型快 85 倍，即用户发送第一个提示并收到第一个标记答案所需的时间。更少的标记、更快且更轻量的模型意味着更快的处理速度。

FastVLM 的代码已在 GitHub 上发布，相关报告可在 arXiv 上找到。虽然阅读起来有一定难度，但对于对苹果 AI 项目技术细节感兴趣的人来说，绝对值得一读。

宙世代

一起剪

相关标签