36氪 昨天
理想也做AI眼镜了,小鹏、蔚来、小米还不速速跟进?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

整个行业从乏人问津到人头攒动,恍如隔世。

带显示的 AI 眼镜,难度还是太高。AI 音频和拍摄眼镜,技术上没有障碍,Meta Rayban 200 多万销量榜样在前,PMF 也已被验证。

1 到 100 向来是中国企业的拿手好戏。理想 Livis 立项背后动机外人无法洞察,但按捺不住闯进风口等待被吹上天的企业很多,它们一个个走窄门,鱼贯而入。

AI 眼镜潜力在哪

20 年前我们很难想象,身边没有智能手机几乎无法出门。智能手机发展历史,演绎了一种随着技术进步和新品类渗透,生活和工作产生了「范式转移」,而且拉长时间来看,「范式转移」一旦开启几乎无可避免,所有人都被迫卷入其中。

李楠之流聒噪的 KOL 在体验完市面上的 AI 眼镜后,给出了 " 鸡肋 "、" 伪需求 " 的判断。嗓门是很大,但是见识似乎有点浅短:用户为什么需要一副 AI 眼镜?放在三十年前,你同样可以拷问,用户为什么需要一部智能手机?

戴眼镜是因为近视看不清,手机最早是因为有移动通信的需求。从产品起点看,眼镜的「刚需」程度是超过手机的。

眼镜出现了超过一千年,手机到智能手机,还不到百年。智能手机创造一个全新品类并且完全改变用户习惯,相比在已被用户适应的眼镜上叠加高阶功能,明显 AI 眼镜的难度更低。智能手机能成为主流消费电子,AI+AR 眼镜难道就不行?

AI 眼镜恰恰有有很大的潜力,开启新一轮的「范式转移」。

理想为什么做 AI 眼镜,Livis 发布会这一段洞察非常精彩:「从车内到车外,什么形态才能做到又自然、又不打扰、又持久的陪伴?眼镜。眼镜是一个日常佩戴时间非常长,存在感很低,对舒适要求又非常高的终端形态。它离语音非常近,而且稳定性很好,又不需要用户改变什么已有的习惯。它是我们智能体验带出车内的最佳载体。」

眼镜的第一个特性,每天使用的频次,用户 Always on(实时在线)时长是超过手机的,它天然就是下一代消费电子的候选者。

AI+AR 眼镜还有第二个特殊之处,它彻底解决了更大的交互界面和移动性的矛盾。

从 IBM 占满一个房间的巨型计算机到个人电脑,PC 出现台式机之后还发展出 laptop 笔记本电脑、Pad 平板电脑、智能手机,这背后驱动力是用户不仅需求更大的显示 & 交互界面,也要更高的移动便携性。在 AI+AR 眼镜出现之前,这是无法解决的。

XREAL、雷鸟、Rokid、Viture 的 BirdBath 眼镜,在大屏游戏和观影上已被验证。微显示屏发出的图像光经过几何光学的光路设计,虚像在眼前固定区域对焦、成像,我们可以看到等效 120 英寸的高清画面。只是 BirdBath 的透光率只有 25%,还不能全天候全场景的佩戴,场景受限。Meta Orion 不计成本使用碳化硅波导基底的光波导二维扩瞳眼镜,视场角已经能做到 70 度,画幅更广且透光率超过 90%,已突破了日常使用的临界点。

而且 AI+AR 眼镜双目合目的空间照片和空间视频,有深度感知,更加栩栩如生,这是平面物理显示屏完全无法做到的。目前消费电子主流内容还是基于 2D 平面「定制」,这并不代表用户不需求更高阶的 3D 内容,按照 VITURE 创始人姜公略的说法:当我们眼镜的交互带宽可以达到人类感官的上限的时候,我们就可以用数字技术重塑真实世界。

姜公略举了一个真实案例:VITURE 推出的 Immersive 3D 功能一经推出就收到过很多感动的帖子,有一个用户发帖说到,他的父亲刚刚去世,他收拾遗物时找到一个旧的硬盘,里面都是小时候和父亲的照片与视频,他每次戴上 VITURE 眼镜用转 3D 技术去看,就会潸然泪下,仿佛年轻时的父亲此刻就活在自己眼前。

AI+AR 眼镜还有第三个关键变量,大模型的发展和 AI Agent 的渗透。

OpenAI 的 ChatGPT 已经是互联网历史上用户增长最快的产品。OpenAI 平台从 2022 年约 1900 万月访问量增长至 2025 年 9 月的约 59 亿次,已经是全球访问量前五的网站,与 Instagram 的 65 亿次月访问量处于同一量级。Similarweb 披露的数据显示,2025 年 9 月全球 AI 服务月访问量达到约 70 亿次,流量规模已可与主流社交网络匹敌。

当所有人都被卷入 AI 的工作和生活「范式转移」,普通人每天和 AI 交互的次数、频率、时长突破临界点,达到稳态,这时候以眼镜作为 AI 终端特性会越来越凸显:不需要教育和新建用户习惯,眼镜有 Always on 超长的实时在线,以及更短链路的操作、响应、交互 。AI 眼镜 Hands-Free 意味着更快的即时响应,不需用再掏出手机,解锁、点击 App、交互。

理想 Livis 发布会上展示了几个数据,控车不需要掏出手机,体验非常丝滑顺畅。理想汽车产品部高级副总裁范皓宇描述:" 自从有了眼镜的车控功能,我已经很久没有从兜里掏出手机,解锁屏幕,然后再打开应用,点击按钮再等待启动了。这一系列动作加起来,也需要 7 到 8 秒,使用 Livis 眼镜,只需要一句话。"

眼镜对手机的替代,一定是随着眼镜使用的增加,手机使用时间开始减少。

眼镜是第一视角,Hands-Free,可以成为人本体器官的延伸,智能手机则是需要额外做功和适应的工具。眼镜的特殊在实时获取眼前三维空间真实世界的多模态数据,用户随时随地 " 生产 " 的语音、图片、视频流,眼动和头动的数据,凝视内容的偏好,这种全天候获取和积累的个性化数据,不仅对于训练个人专属 AI Agent 意义很大,还有巨大的商业化潜力。

AI 和眼镜,天然契合,深度共振。

AI 音频和拍摄眼镜,理想 Livis 在车端的几点启发

「我们并不想仓促做一款产品去赚快钱,蹭个热点,而是实打实地想做一个高可用,不给用户带来额外负担,能够陪伴用户很长时间的产品。能让用户真正体会到,工作、生活因为它而变得更好了点。」

理想自述了做 AI 眼镜的「理想」,Livis 眼镜在车端场景,确实有一些启发:

把车控从手机端转向眼镜,更快,并且解放双手光致变色,强化 HUD 显示功能流式智能语音框架多模态,时间流的记忆能力

理想洞察到眼镜是比手机更好的控车工具。

" 一句话,就能控车 "。在车内,鼻梁上的眼镜 mic 比车机 mic 更近,声音识别和语音命令更清晰,而且眼镜的扬声器可以定向播放,又不影响其他乘车人,能与车内的影音播放平行进行互不干扰。

在车外,Livis 眼镜不需要再掏出手机解锁、点击 App、再进行控车操作,用户控车非常平滑自然,节省了手机 App 程式化颇为繁琐的几秒时间,用户能够腾出双手可以拿取物品、行李。

" 自适应 " 的光致变色,也能与驾驶者产生真实需求联结。不少司机喜欢在开车远行时佩戴墨镜,避免日间强光和夜晚远光灯照射,HUD 抬头显示也日益成为智能汽车标配,理想 Livis 眼镜同时做到了视野清晰,强化 HUD 信息显示,适时应对开车途中短时致盲的强光、炫光。

理想 Livis 对 AI 的打磨也确实超过了一般的车企。Livis 团队应用了「实时流式」的多模态模型,大模型公司才深入了解的技术范畴,被一个车企吸收和应用,让我眼前一亮。

传统的语音交互,是等用户说完了一个问题,积累了一堆文本,再生成回答,AI 需要遵循一问一答,固定节奏的输入输出。而实时流式,最接近人与人的自然交互方式,难度颇高:模型可以边问边答,随时打断,模型在接收用户提问同步也进行感知、理解和思考回答,甚至提问开始前就在进行语音、图片、视频流的理解。

实时流式,意味着模型的思考和交互同时进行,不需要一方等待另一方,就像思维是连绵流动的而不是离散分割问答。今年年初面壁智能发布的端侧全模态模型,就很好解答了何为「实时流式」。

MiniCPM-o 2.6 模型在一边思考回答、生成回复的时候,模型一边又能接收你新的语音 prompt,并且实时进行多模态感知。用户也可以随时打断模型当前的生成。模型在生成你上一段提问答案同时,也在接收你中间打断插进来的新的输入,思考新的答案。

实时流式难在用户新的语音提问不影响模型正在进行的理解和生成,模型的输入和输出能够解耦。这背后关键是模型对环境视频和音频流进行实时抽帧、建模,在你提问的时候就同步或提前进行这种多模态理解。

理想 Livis 宣称它是目前世界上唯一一个使用了流式智能语音框架的软硬一体产品,这种 PR 说辞不做评价,但是这家车企对大模型的深入是超出我的预期。

发布会上,理想宣称 Livis 为穿戴量身定制恒玄 2800 芯片,它不仅能够带来低功耗、长续航,还能带来非常快的响应速度,语音唤醒只需 300 毫秒。Livis 眼镜从硬件到软件到模型的全链路优化,只为更快、更自然的语音对话。

更流畅、更快速响应的语音交互对 AI 眼镜非常重要,全链路优化难度很高,但量变能够产生质变。

理想对 AI 的深入在另一个层面也展现出了野心——多模态,时间流的记忆能力。

理想号称自研 MindGPT,但以我在大模型公司的考察学习经历看,从数据清洗、配比,数据集的采集,再到算法设计,模型开始巨量算力卡互联进行预训练,这中间耗时且成本高昂,预训练有太多的细节且面临软硬一体的调教,AI Infra 靠谱的人也不是这么容易找到的。模型预训练时不时就会遇到硬件和数据通信问题而崩溃,要么参数没法收敛,要么模型泛化能力差。

预训练之后,还有强化学习后训练、思维链涌现和数学推理能力强化。Deep Research 这种多步骤循环推理,并行调用搜索在内的复合工具链,整合多个模型、打通底层架构统一数据格式,以端到端训练出来的 AI Agent,对于车企完全超纲了。

理想要实现用户多模态内容时间流的记忆能力,在现阶段会遭遇本质困难。Attention 机制的算法复杂度是随着上下文的输入呈平方增长,大模型公司都在解决的长时记忆难题,理想居然也想试一试。

了解大模型应该知道,模型一旦训好,知识就会固化,参数一般不会改变,外挂 RAG 进行所谓个性化生成,治标不治本。以 AI 眼镜沉淀用户数据,以车控附件和定制模型来增强用户粘性,打造车内到车外的无缝、实时、全天候的高阶智能体验,在技术上还是过于乐观和「理想」主义了。

发布会上理想居然还公布了大模型的评测集分数。行业里,针对数据集进行强化学习 " 跑分 ",这种作弊其实没有啥意义。

Livis 眼镜的蔡司镜片、重量控制、人机工学、材质运用,只要真正用心就不会差,这里就不做过多的评价。

总体来看,理想 Livis 算得上一次认真的尝试,AI 眼镜与车端用户在未来是能产生 PMF 交集。

AI 眼镜,还能有更多场景

AI 音频和拍照眼镜,第一个大爆的 Meta Ray-Ban,它首先是一个奢侈品属性的高端眼镜品牌,先有一定的消费用户基础,流行文化元素,再叠加科技的东西在上面。

这意味着,其他厂商盲目的模仿和跟随,可能不得要领。

而且根据第三方资料,第一代 2021 年 9 月发布的 Ray-Ban Stories 整个生命周期只销售 40 万副,用户月活不足 10%。2 年之后发布的第二代产品 Ray-Ban Meta,两个季度卖出超 100 万副,突然爆发。

Ray-Ban 两代产品一样有高端品牌调性,同样庞大的消费用户基础,两代眼镜的宣传和推广资源相差不大,结果却截然不同。事后来看,二代产品 Ray-Ban Meta 相机质量和音质得到质的提升,交互延迟大大降低,解决了用户普遍不满的交互卡顿、延迟高的问题。

Ray-Ban Meta 同时做到了:

一个 40 多克全天佩戴的高端时尚眼镜一个达到了 OWS 耳机水准的 AI 耳机一个能替代手机 + 自拍杆的视频直播工具

特别是摄像改进和分享链路的打通。12MP 摄像头 +1080P 视频 +60 FPS 配置,还彻底打通了社交媒体 App,缩短了分享链路,能够在 Facebook 和 Instagram 上实时直播,根据第三方说法,直播 6 分钟大约消耗约 10% 电量,产品推出时间也正好撞上了 5G 普及后全民短视频和直播的浪潮。

除了 Meta Ray-Ban 的榜样,AI 眼镜还有更有趣的形态,36g 的 Even Realities 眼镜。它跟 Meta 的产品方向完全相反——砍掉了扬声器和摄像头,只强调显示和信息提示,从销量看也是有一定市场。

根据《晚点 LatePost》对 Even Realities 创始人王骁逸的采访,"Even G2 眼镜定义的目标用户是 CEO、企业高管,他们的时间一直被占据,但同时又需要高密度的信息量,需要辅助的信息呈现方式。 "

Even 更轻量化、强调同步显示的 AI 眼镜,"(实时信息)能直接呈现在眼前,又能够保证隐私,这就是最核心的价值。" 按照王骁逸的说法,当 CEO 和企业高管在开会或者与客户交谈,使用 Even G2 眼镜,飞书、微信、邮件提示随时都能看到,如果有足够重要的信息提示,就能及时处理。而如果用手机、用手表,会打扰某个正在专注的进程,中断正在做的事情。

王骁逸说,"Even G2 另外一个核心需求是演讲提词器,不管是上台、采访还是对内对外的讲话,如果有一个悬浮的稿件、哪怕只是一些总结的关键词,对企业高管这类目标用户来说都会很有帮助。"Rokid Glasses 一度火热出圈,也是 Misa 在政府主持的会议演讲中实际使用,让人印象深刻。

AI 眼镜并不鸡肋。更终局的专属 AI Agent 不说,目前的 AI 眼镜,作为全天候佩戴的高端时尚眼镜,就有了非常广泛的用户基础,它同时还可以是车控附件,TWS 耳机,实时直播的手机 + 自拍杆的省力平替,CEO 演讲的隐私提词器,Plaude AI 录音机 ... 产品优化,功能组合,能够持续挖掘长尾场景,创新空间巨大。

理想也做 AI 眼镜了,其他人还不速速跟进。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 智能手机 界面 中国企业 ibm
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论