全天候科技 3小时前
Claw智能体的语音入口战悄悄打响
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前,小米宣布基于 MiMo 大模型推出 "miclaw" 并部署于音箱等终端,支持语音唤醒与多轮对话。

这有望突破小爱同学 " 听不懂、接不上 " 的理解瓶颈,通过近乎 " 零门槛 " 的自然语义交互,推动大众市场的 AI 体验实现实质性提升。

依托庞大的 IoT 设备基数,小米有望规模化捕获高价值的 " 决策轨迹数据 ",为 MiMo 大模型的调用提供训练场;

从行业层面来看,这一趋势并非个例。除了小米,华为、百度等都在积极接入 claw 音频互动功能,以此提升用户调用 Agent 的积极性。

在 " 入口驱动数据生成、交互反哺模型优化 " 的逻辑下,一场围绕语音入口、执行能力与数据闭环的竞争正在加速展开。

轨迹数据的稀缺性

智能音箱或语音助手早已不是新物种。

行业面临的现实尴尬是," 小爱同学 " 等语音助手受限于传统技术,过去往往只能充当执行 " 定闹钟 "、" 切歌 " 等单向指令工具。

一旦用户的表达模糊或需求复杂,这些语音助手就容易暴露出 " 听不懂、接不上 " 的短板,导致智能体验大打折扣。

随着大模型技术的应用,这一行业现状正在发生实质性改变。

小米基于 MiMo 大模型推出的 "miclaw",不仅覆盖了 PC 与 Mac 端,还将其部署在其有屏音箱上。

音频版的 "miclaw" 首要解决的痛点便是提升产品体验的智能化程度。

小米音箱计划最新上线的 miclaw 已支持用户通过一句话下达复杂任务指令,具备语音唤醒与多轮对话的功能,并支持调用手机、PC 执行。

这意味着,未来的小米音箱将不再只是机械的 " 一问一答 " 式指令接收器,有望结合上下文记忆,深度挖掘并理解用户的 " 言外之意 ",进而在复杂、日常甚至口语化的语境中,执行更为复杂的任务。

除了小米,百度小度音箱、华为的小艺 claw 等均已在不同维度上接入了语音交互功能。

在不少行业人士看来,大厂相继在硬件中接入音频版 claw 底层的商业逻辑是这种不需要学习菜单,不需要注视屏幕的近乎 " 零门槛 " 交互,可以最大限度地降低 AI 的交互门槛,真正打入大众市场的基本盘。

" 这样的话会使得整个入口更加自然,使用门槛降低,相当于家庭成员都可以体验,AI 能够尽快融入到生活日常中。" 北京某大厂的架构师向全天候科技解释。

事实上,为了支撑这种近乎 " 零门槛 " 的自然交互,小米本身也在积极加入对音频等多维度数据的底层训练。

早在小米 2025 年 12 月发表的一篇名为《Xiaomi MiMo-VL-Miloco Technical Report》的文章中就明确指出:未来,小米将进一步依托其硬件生态,将音频、毫米波信号等更多感知模态纳入统一的多模态学习框架。通过对多类异构感知输入进行联合推理,最终实现全方位的家居场景理解与精细化空间感知。

要实现从多模态感知到端侧部署的全面落地,离不开海量硬件设备所提供的数据土壤与应用环境,而这确实是小米的优势。

截至 2025 年末,小米 AIoT 平台已连接的 IoT 设备数(不包括智能手机、平板及笔记本电脑)达到 10.79 亿台,同比增长 19.3%,同期米家 APP、小爱同学的月活跃用户数分别 1.13 亿、1.6 亿。

庞大的设备基数所带来的规模效应,使得小米更有利于实现对高价值 " 决策轨迹数据 " 的规模化抓取与持续沉淀。

在真实的物理世界中,Agent 调用工具、执行设备控制的决策轨迹数据极为稀缺。

传统的软件系统或基础智能家居,往往只记录最终的 " 执行状态 ",但真正能够驱动 AI 自主运行的是捕捉 " 为什么这么做 " 的决策链条。

高价值的决策轨迹数据不仅包含执行结果,更涵盖了触发该动作的完整上下文。

例如理想情况下,系统记录下 " 由于光线传感器识别到环境变暗,且门锁日志显示用户刚刚归家,因此决定开启客厅灯光并拉上窗帘 "。

这种融合了多模态环境输入、触发规则和动作输出的完整信息,是指导 Agent 进行复杂决策的关键素材。

要获取这类数据,系统必须身处用户的 " 执行路径 " 之中,才能在决策发生的第一时间完成捕获。

小米庞大的 AIoT 设备网络,实质上构成了消费级物理世界中覆盖面极广的执行路径。通过海量设备的日常协同,这些单次的决策轨迹被持续沉淀,有望交织成一张动态的 " 上下文图谱 "。

这能够客观呈现用户在不同时空下的作息规律、温度偏好及跨设备调用习惯。随着数据闭环的不断完善,系统便具备了更高的预判能力。

不过有效数据的实际产出率仍然取决于用户的使用情况,例如用户是否有足够的动力设置复杂自动化场景等。

新的入口战

围绕语音等交互入口,各类 claw 产品正加速落地。

百度 claw、华为小艺 claw 等均在不同硬件上实现了语音交互能力的接入,并逐步从单轮指令响应,向多轮对话与任务执行能力演进。

阿里旗下的天猫精灵虽未冠以 "claw" 之名,但也在其全屋智能 2.0 方案中深度融合通义大模型能力,构建出 " 空间智能 Agent",进行智能化决策。

当语音入口逐渐被 Agent 化,缺席即意味着在下一代人机交互体系中失去关键位置。

这一轮集中布局背后是一次围绕 " 使用门槛与数据积累 " 的前置竞争。

作为最接近自然语言的交互方式,语音本质上承担着降低用户使用成本、提升渗透率的角色,让设备交互变得更加无缝。

只有当用户在日常场景中频繁使用 Agent,各家厂商的模型才能持续获得真实的任务请求与执行反馈,从而不断优化决策与执行能力。

正因如此,当前阶段的核心在于是否能够让用户 " 先用起来 ",通过高频使用形成数据闭环,再反向推动能力迭代。

在这一过程中,入口演化为连接用户行为与模型进化的关键基础设施,这已经在部分产品形态中出现苗头。

在一些头部厂商的实践中,语音不再只是触发单一设备或功能,而是开始承接跨设备的连续任务。

例如,用户用一句相对模糊的表达发起请求,系统会在后台拆解意图,并联动多个终端完成一整套动作。

在这一过程中,被调用的不再是某一个具体设备,而是一整条由系统组织起来的执行链路。

当交互从 " 点状指令 " 转向 " 任务链路 " 后,语音的角色不仅局限于降低使用门槛的入口,还成为实际承担任务调度的起点。

用户不再显式选择应用或设备,而是将需求交由系统统一分发。

这也使得入口竞争的重心发生偏移。厂商争夺的不仅限于用户是否开口使用语音,而是这些请求最终由谁来拆解、由谁来决定调用路径。

一旦这一环节被第三方承接,即便硬件仍在原厂商手中,服务分发与用户决策路径也可能逐步外移。

不过,在多方竞逐之中,不同厂商的底层禀赋差异开始放大。

和小米类似,华为的重要优势在于更加自研化的操作系统与硬件生态,早在 2024 年鸿蒙生态设备规模便已进入 9 亿级量级,小艺能力覆盖手机、平板、可穿戴及智能家居等多类终端,形成跨设备的统一交互网络。

这种 " 入口即数据、设备即执行 " 的竞争逻辑也在反向塑造互联网厂商的策略选择。

例如字节跳动在大模型与应用层具备优势,但在终端入口与系统级调度能力上相对薄弱。

由于在 Agent 逐步从 " 对话能力 " 走向 " 执行能力 " 的过程中,仅依赖 App 形态难以深度嵌入用户的日常决策路径,也难以获取高频、连续的任务反馈数据,字节跳动去年以来便频繁与手机厂商洽谈 " 豆包手机 " 的合作路径。

2026 年,AI 能力的比拼正在从 " 交互竞争 " 走向 " 执行竞争 "。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小米 ai 语音助手 华为 百度小度
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论