今年已经是 TWS 耳机出现的第十个年头,从最初普通的无线耳机,到骨传导、开放式形态的创新,再到 AI 技术加持的翻译耳机。如今更硬核的来了,在耳机上增加摄像头,为其赋予从未有的拍照或视觉感知功能。
图片来自网络,非商业用途
耳机带摄像头有必要吗?截至目前至少 9 家公司爆出在造带摄像头的耳机,苹果、谷歌、OpenAI、Meta 巨头集体入局。最近光帆科技发布号称「全球首款搭载摄像头的 AI 耳机」,再次把热度推向新高峰。这种新形态的耳机,正在市场上掀起一场热议风暴。
TWS 耳机的持续演进
TWS 耳机演进的这十年,大致划分为普通 TWS 耳机、AI 耳机、带摄像头耳机。
TWS 耳机浪潮最初开始于 2016 年,当时有线耳机已盛行近百年,为了摆脱有线束缚,人们利用 BLE 低功耗蓝牙和音频编解码技术实现无线音频传输。
手机巨头苹果取消 3.5mm 耳机孔,并推出第一代无线耳机 AirPods,彻底将 TWS 耳机市场引爆。
2022 年底 ChatGPT 大模型石破天惊地问世,在国内外掀起来一股大模型的浪潮。大模型强大的生成式 AI 能力,迅速点燃了将其接入耳机硬件终端的竞赛。
2024 年华为、字节跳动、科大讯飞等公司接连发布 AI 耳机。字节跳动推出的首款 AI 耳机 Ola Friend,接入了自己研发的豆包大模型。华为 FreeBuds Pro 3 内置 " 小艺 " 语音助手并接入了盘古大模型。
后来上海的掌禅科技站在大模型的肩膀上,研发出了 NebulaBuds 翻译耳机 APP,获多款耳机广泛采用,普通 TWS 耳机秒变 AI 翻译耳机。
从普通 TWS 耳机向 AI 耳机演进,仍主要依靠语音识别。在形态上耳机向骨传导、开放式方向创新。但在交互方式上,耳机在近些年发展周期里缺乏颠覆性创新。
直到 2024 年 5 月,Meta 爆出开发配备摄像头的 AI 耳机,市场上才首次出现语音 + 视觉双重交互的耳机。普通 TWS 耳机解决了用户摆脱有线束缚的需求,AI 耳机解决了实时翻译、提高音质的需求,它们都已经成功通过了市场的验证,获得消费者的青睐和认可。
9 大公司 " 逐鹿 " 带摄像头的耳机
我爱音频网整理发现,截至目前已经有 9 大公司在造带摄像头的 AI 耳机,其中 4 家甚至已向市场推出真实可用的产品。
在这之中有三家中国公司,光帆科技、深圳睿宝智能(VibeLens)、牧之音科技(Mozin)较海外大厂率先搞定带摄像头的耳机,展现了中国企业从概念跟进到产品落地的快速。这些公司发布的带摄像头的耳机,在摄像头核心定位、功能、目标场景上有所差异。
光帆科技和牧之音科技(Mozin)在同一天都发布了带摄像头的耳机。其中,光帆 Lightwear 带摄像头的 AI 耳机创新性地加入视觉摄像头、GPS 定位、多功能指纹模组,并与智能手表联动。
在表格的对比中,我们可以看出摄像头核心定位上,仅光帆科技一家公司将耳机上摄像头用作 AI 环境感知。发布会上,光帆科技创始人董红光也同样强调," 摄像头只做感知,不做拍照用。"
耳机带摄像头并不是一个全新概念,早在 2024 年 5 月 Meta 就被爆出在开发配备摄像头的 AI 耳机,想要用于识别物体和翻译外语,命名为「Camera Buds」。
不过 Meta 公司的高管担心将隐蔽摄像头集成在耳机上,可能引发像谷歌眼镜当年类似的隐私担忧,仍在反复推敲产品设计和体验,导致产品一直没面世。
苹果传出 2026 年要推出带摄像头的 AirPods,但所走的路径有所不同,它是为了耳机与 Vision Pro 联动,增强 Vision Pro 的空间音频体验。
今年 OpenAI 也流出一款搭载摄像头的 TWS 耳机概念设计图,造型像树杈,在耳柄处设计向外凸起的摄像头。这种设计,可以让摄像头跟用户的自然视线接近。
Google X 实验室也正在孵化一款 AI 蓝牙耳机 Iyo One,它能听能看能翻译,为了装下更大的电池,以圆形设计,比普通带摄像头的耳机体型更大一些。
三星也在研发带摄像头的耳机,但目前产品效果图还没有流传出来。
字节也集体入局探索带摄像头的耳机,它采用入耳式设计,摄像头的位置在耳塞主体与耳柄的衔接处,没有凸起来,看起来相对更自然。据说字节带摄像头 AI 耳机,由歌尔股份代工,产品已基本定型了,将亮相罗永浩 30 号十字路口的 " 科技春晚 "。
但在这些大厂反复推敲带摄像头的耳机产品设计、体验、环境感知难题的时候,韩国的 Wisezone 公司率先实现了从概念猜想到产品落地,其推出的 ZONE HSS1 支持实时翻译、语音记事、手势拍照等功能。
紧接着深圳睿宝智能(VibeLens)也快速跟进,将带摄像头的耳机实现落地,推出集成摄像机、耳机和录音功能为一体的 AI 耳机,即 MusicCam,引起市场的广泛关注。
消费者真的需要在耳机上加摄像头?
TWS 耳机行业同质化严重,低端机型绝大部分采用公版方案。谷歌任意耳机秒变 AI 同声传译的方案推出后,实时翻译 / 转写功能将不再能支撑 TWS 耳机的差异化。
2025 年在耳机上加摄像头,成为各大厂商探索 TWS 耳机差异化的重要方向。大厂们扎堆造带摄像头的耳机时,一个问题被反复追问:消费者真的需要在耳机上加摄像头吗?
从众筹平台的数据看,市场最先接受那些将摄像头用于拍照、录制视频的 TWS 耳机。MusicCam 这个将摄像机、耳机、录音三合一的耳机,在 kickstarter 众筹平台上获超过 2300 名支持者,完成众筹资金高达 53 万美金,原目标只是 5000 美金,结果最终的众筹资金超过目标预期 100 倍。
以往在潜水、骑行等户外活动或者旅游时,用户想要记录下一些珍贵的画面,都需要掏出手机,手动打开相机,一大通操作才能完成。而 MusicCam 这类耳机,把摄像头当做拍摄用,它们切实解决用户在户外运动、旅行时解放双手的拍摄需求。
而将摄像头作为视觉感知使用,这一技术路径引起的争议相对较多。光帆科技是第一家将摄像头作为感知,并成功推出真实可用的带摄像头 AI 耳机的公司。众多投资机构看好这一方向,宁德时代、韶音、歌尔等产业龙头都投了光帆科技,该公司刚创立 3 个月就完成了两轮累计 1.3 亿人民币的融资。
光帆 Lightwear 开创性地将摄像头当做感知使用,实时识别和理解用户周围环境,官方称解决了餐厅推荐、机票预定、车位查找等部分场景问题。但有人鼓掌,也有人吐槽这款产品外观设计粗糙、功能定义混乱、产品体验过于形式。
一产品经理犀利点评道,「谁会拿耳机买东西比价?拿耳机订机票酒店、看餐厅评价?」可见光帆 Lightwear 在产品体验上仍需要持续打磨,但从技术路径上看,市场是需要摄像头作为视觉感知的。
耳机在过去很长的一段时间都是依靠语音交互的,那时语音已经能完全满足用户对音乐播放、唤醒语音助手的需求。但在 AI 时代下,用户的需求转向主动式 AI,它们更需要 AI 主动理解周围的环境,并提前帮用户解决问题。
视觉是人类信息的第一大来源,它占比了约 70%~80% 的信息处理量,这是听觉的四到六倍。对于用户的一些模糊需求,仅靠语音指令,耳机无法理解上下文与环境背景。当用户说出 " 这个看起来不错 " 时,没有视觉感知的耳机只能陷入 " 一头雾水 " 的尴尬。而摄像头带来的视觉交互,可以精准执行这种模糊指令。
更重要的是,视觉感知让耳机实现了从 " 被动响应 " 到 " 主动理解 " 的跨越。比如,在餐厅门口主动推荐菜品、在停车场记录车位信息、在下厨时实时指导操作步骤。这种主动式服务能力,让耳机不再是需要唤醒才工作的 " 工具 ",而是真正帮用户解决工作和生活问题的 " 个人助理 "。
我爱音频网总结
带摄像头的耳机趋势已在市场徐徐展开,Meta、苹果、谷歌、三星、字节跳动、光帆科技、Mozin、VibeLens 等九大公司集体入局。在耳机主动式 AI 未到来之前,市场似乎先认可了将摄像头作为拍摄用的耳机。光帆科技 Lightwear 耳机,创新性地将摄像头作为感知使用,但产品体验仍需打磨。此外,这种耳机在隐私方面也需要进一步为用户优化。作为消费者,你觉得耳机需要加上摄像头吗?
文中部分图片来自于网络采集,仅作说明使用,非商业用途。


登录后才可以发布评论哦
打开小程序可以发布评论哦