智东西 05-17
“天猫精灵之父”创业打造「鼻尖上的GPT」,扫射豆包、Kimi盲区
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 三北

编辑 | 漠影

拥有一款 "鼻尖上的 GPT" 是一种什么体验?

近期,杭州李未可科技公司推出了首款 AI 眼镜 Chat,支持用户通过语音与眼镜中的智能助手进行交互,比如答疑解惑、日程安排、语音导航、英语翻译等,都不在话下。

同时,这款 AI 眼镜背后的多模态 AI 大模型平台 WAKE-AI也随之开放。据悉,这是国内首个面向 AI 眼镜等可穿戴设备的大模型平台,既支持李未可科技内部团队做开发,同时也为广大 AI 开发者伙伴提供技术共享。

当下,市面上已经有豆包、Kimi等多款支持大模型语音交互的平台,但它们大多以匹配PC、手机为主;WAKE-AI则率先切入AI 眼镜这一新形态,试图为用户带来更自然的交互、更人性化的陪伴、更场景化的精准服务

李未可科技创立于 2021 年 10 月,创立之初便聚焦 "AI+AR" 眼镜赛道,公司成立仅三个月便拿下字节跳动的融资,其创始人茹忆曾是阿里AI 实验室智能终端负责人、天猫精灵硬件 & 产品总经理,也是这波大模型浪潮中最具代表性的创业者之一。

▲李未可科技创始人兼 CEO 茹忆

当下,随着Ai Pin、Rabbit R1AI 新硬件产品在国外崭露头角,掀起大模型智能终端的新风口,国内 "天猫精灵之父" 带队的新锐团队也交出了答卷,成为智能硬件产业关注的一个焦点。

AI 智能眼镜是否会成为一种主流的 AI 新硬件 ? 面向 "AI+ 终端 " 的多模态 AI 大模型平台 WAKE-AI 有什么过人之处?通过对话李未可科技创始人兼 CEO 茹忆、AI 首席架构师庄博宇,本文对此进行了深入探讨。

一、在豆包、Kimi 的射程盲区,打造 " 鼻尖上的 GPT" 陪伴助手

尽管豆包、Kimi 等各种大模型 App 风靡手机端,但它们却迟迟未攻入智能眼镜等可穿戴设备。

背后的一大 " 拦路虎 " 是时延问题。庄博宇告诉智东西,用户在眼镜上对机器时延的容忍度比在手机上更低,1.8 秒是一个容忍时间,如果超过这个时间点,用户就会感到交互不流畅自然。然而,包括豆包等市面上的多个大模型落地眼镜都需要5 秒左右。

为此,李未可科技自研了 WAKE-AI 大模型平台,试图为用户打造一个随叫随到的 " 鼻尖上的 GPT" 陪伴助手。

据悉,该平台专门面向可穿戴设备等终端优化研发,能在500 毫秒内快速精准地识别用户指令,且将大模型实时回答反馈控制在2 秒左右,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。

从体验来说,这意味着用户将可以在 AI 智能眼镜上享受到自然流畅的 AI 交互,比如让眼镜搜索新闻、导航目的地或增加日程,都不会太费功夫。AI 智能眼镜可能取代手机的部分功能,让用户真正体验到 AI 融入生活。

"技术的一小步,用户体验的一大步" 茹忆说。从 2016 年 3 月阿尔法狗打败李世石到 2022 年的 12 月份 ChatGPT 发布,中间经历了六年六个月时间,AI 算法架构从 CNN、BERT 改进到 Transformer,模型参数扩展带来智能涌现,茹忆对此感到很兴奋,认为这将为语音交互体验带来巨大提升

与在上一波 AI 浪潮中押准智能音箱风口不同,这一次,茹忆认为,眼镜将成为 AI 落地的最佳载体之一。这与 Meta 首席科学家、图灵奖得主杨立昆的观点不谋而合,杨立昆在前不久也曾提到:"通过智能眼镜访问的 AI 助手是未来的趋势。"

面向这一趋势,李未可科技近期推出的AI 智能眼镜 Chat是其小试牛刀之作。

以低至699 元的价格让用户低门槛地迈入 AI 体验大门,Chat 可以说非常亲民。这款 AI 眼镜的外形与日常佩戴的眼镜几乎没有差异,但简约却不简单,一个贴身陪伴助手的雏形已经出现。

二、自研 WAKE-AI 大模型平台,三大技术护城河打造交互新体验

可以预测,大模型未来将重新定义智能眼镜等可穿戴设备。可穿戴设备将不再只是工具,而是好像有一个真人助理在用户旁边,或者一个虚拟人在用户鼻尖上的眼镜里,帮用户解决各种复杂的问题。

WAKE-AI 大模型平台推出的意义,则是将大模型运用到 AI 硬件设备上的诸多畅想落地实际,不仅实现更自然的交互,还带来更人性化的陪伴,更精准的服务。

那么从技术角度来看,WAKE-AI 大模型平台究竟有什么过人之处?

据悉,李未可科技通过三种方式提升 WAKE-AI 大模型平台的效果:

第一,使用定向优化的分发大模型,帮助 AI 助手能快速地分发用户的指令,打造更自然的交互。

第二,基于情感大模型,使用户和设备产生深度信任,让 AI 助手形成更有温度的陪伴。

第三,针对室外场景需要大量的数据,使用多模态的 VQA(视觉问答)模型,让用户可以指哪问哪,获得更精准的服务。

1、分发大模型 +Agent,让交互更自然

作为一款 C 端产品,AI 智能眼镜的交互体验被李未可科技放在首位。WAKE-AI 大模型平台能提供更丰富的交互功能,同时耗时比同行更低。

庄博宇谈道,比如当用户与豆包语音聊天,往往需要 2 秒才能完成语音交互,时间主要花在语音与文本相互转化及大模型推理上。但这一交互体验仅限于聊天,而不能执行网络搜索、导航等更复杂的任务。

但是,基于 WAKE-AI 大模型平台,用户在 AI 智能眼镜上调用大模型的时延大大降低,一般对话时延控制在 1.8 秒左右、2 秒以内;同时,用户还可以体验主动搜索、语音导航、眼镜操控等多样化的功能,复杂的交互反应也能缩短至 3-5 秒。

背后,李未可科技团队使用分发大模型,通过语音输入来快速分发用户意图,为用户提供反馈;同时,大模型支持不同的AI Agent的能力,能快速执行用户的导航、买票、备忘录等可能存在的刚需意图。

此外,团队也在降噪技术、收音、ASR(自动语音识别)技术等方面也做了大量优化,从而使得用户能与智能助手更丝滑地进行交互。

2、情感大模型 + 超拟人 TTS,让陪伴更人性化

茹忆和庄博宇都提到了《她》(Her)这部科幻电影,片中的机器人由于与主人公建立了情感连接,从而能进行更有深度的聊天和陪伴,这是李未可科技希望打造的智能助手的一个理想形态。

基于这样的愿景,李未可科技与市面上同行的一大差异化是做情感搭配

为了让 AI 眼镜产品具备更拟人化的特征,李未可科技团队一是基于情感大模型研发了长记忆系统情感类的 Agent,二是打磨了拟人化的 TTS(文本转语音)技术,以此打造用户能够天天使用 AI 智能眼镜的核心基础

在情感大模型方面,对标国内外的 Claude 等相关模型,庄博宇及其团队发现了一个行业核心的问题:大模型的记忆力是有上限的,不利于长时间陪伴用户。

为此,李未可科技团队通过核心记忆长期记忆,不断更新用户的画像,从而使得智能助手在对话中能够更充分地理解用户想要什么,更懂用户

而在打造拟人化的语气方面,目前市面上能上线情感表述的文本转语音 TTS 能力的厂家并不多,因为它有一个延时的考量,AI 抽取、理解和表述会耗费大量的时间,所以速度上面需要优化;第二是成本上的优化,比如豆包虽然在 App 上能够提供情感表达,但它并没有把这个 API 能力开放出来,智能终端厂商无法获取。

但是,李未可科技率先将超拟人 TTS 上线,把它轻量化到时延和成本都可承受的范围,然后开放出来,供自己的团队和合作伙伴使用。

3、多模态 +LBS 能力,让服务更精准

多模态大模型 +LBS(基于位置的服务)会产生什么样的化学反应 ?

李未可科技已经找到了验证场景。Citywalk(城市漫步)是当下备受年轻人青睐的室外项目,多模态大模型可以让 Citywalk 的人做到 " 指哪儿问哪儿 ",比如指着岳王庙里的碑问 " 碑上写的到底是什么 ",一套精准的智能导览服务就诞生了。

据悉,李未可科技已经打造了 " 旅游助手 + 城市漫游系统 ",核心是数据内容,以景区作为核心供给,现在大概有2000 多个景区数据。

结合这些景区数据,团队已经打造了景点游玩导览、自动巡航系统、地点弹幕等多个服务,而多模态大模型的加持则让 " 指哪儿问哪儿 "、自动生成路线、自动生成游记等更多丰富功能涌现,从而为用户提供更精准的服务。

庄博宇告诉智东西,大模型使得原本碎片化的场景走向大一统,从而使精准服务的成本大大降低。一方面,WAKE-AI 大模型可以更好地理解和消化海量的景区数据,另一方面,Agent 可以对数据进行更加自动化地处理,这使得团队能够在精准度和信息数量基础上提供更好的服务。

可以看到,通过从模型了解意图、搜索资料、转化风格、分析情绪、转化声音的各个环节去做优化,李未可科技试图打造交互更自然、陪伴更人性化和服务更精准的 AI 眼镜设备,从而交出其大模型应用创业的 " 答卷 "。

三、Meta 苹果看中的新赛道," 天猫精灵之父 " 带领国产抢跑

当下,已经有不少大厂盯上了"AI+AR"眼镜赛道。比如Meta与雷朋合作的 AI 智能眼镜已经在测试多模态大模型,并在近期宣布将推出首副 "AI+AR" 眼镜;苹果近期也传出正研究端侧大模型,可能将落地 Vision Pro……

与此同时,也有一些知名企业似乎在抽火。比如近期OPPO被传出了暂停 XR 探索,相关人员将转向 AI 设备方向的开发,或许意味着其 "AI+XR" 眼镜业务踩下了刹车。

对此,茹忆认为这是由于产业发展仍处于初级阶段,大家还未形成共识。这就考验创业者对事情的认知,以及如何与自身优势做结合。

站在李未可科技的角度来看,"AI+AR" 眼镜的发展已经处于一个临界点,即将突破用户体验差,为此团队进行了积极布局。

李未可科技打法的一大特点是不强行创造出一种产品形态,而是在已存在的产品上进行 AI 升级,从而在存量市场基础上拓展出新的增量市场。根据知名数据分析机构 Statista 数据,2023 年全球眼镜市场总规模超 1400 亿美元,2015-2025 年全球眼镜市场规模从 1183 亿美元提升至1552 亿美元

" 未来我们的眼镜都会智能化,就像手表智能化一样。" 茹忆说," 它的标志是体验成本大大降低,用户买一副 AI 智能眼镜和买一副传统眼镜价格也差不多,那为什么不买一个 AI 智能眼镜?现在手表就是这样。"

AI 智能眼镜市场的发展壮大需要生态共融。目前,李未可科技已经将 WAKE-AI 大模型平台面向伙伴开放,与伙伴一起来建设 AR 眼镜 +AI 能力、在室外等多个场景的生态。

结语:大模型卷入设备端,AI 智能眼镜或成室外最佳载体

当下,大模型加速落地端侧,我们可以看到 AI PC、AI 手机、AI 智能眼镜以及各色的 AI 新硬件如雨后春笋般冒了出来。凭借便携、可扩展等多重优势,眼镜或许成为大模型在室外落地的一大最佳载体。

现阶段大模型在端侧落地应用仍处于初级阶段。可以预测,未来云边端异构架构将发展得更加庞杂,同时多模态交互变得更加丰富,这对速度、性能和成本的平衡会提出新的要求,也将成为 AI 硬件赛道玩家需要直面的新挑战。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai kimi 智能眼镜 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论