Claw智能体的语音入口战悄悄打响

日前，小米宣布基于 MiMo 大模型推出 "miclaw" 并部署于音箱等终端，支持语音唤醒与多轮对话。

这有望突破小爱同学 " 听不懂、接不上 " 的理解瓶颈，通过近乎 " 零门槛 " 的自然语义交互，推动大众市场的 AI 体验实现实质性提升。

依托庞大的 IoT 设备基数，小米有望规模化捕获高价值的 " 决策轨迹数据 "，为 MiMo 大模型的调用提供训练场；

从行业层面来看，这一趋势并非个例。除了小米，华为、百度等都在积极接入 claw 音频互动功能，以此提升用户调用 Agent 的积极性。

在 " 入口驱动数据生成、交互反哺模型优化 " 的逻辑下，一场围绕语音入口、执行能力与数据闭环的竞争正在加速展开。

轨迹数据的稀缺性

智能音箱或语音助手早已不是新物种。

行业面临的现实尴尬是，" 小爱同学 " 等语音助手受限于传统技术，过去往往只能充当执行 " 定闹钟 "、" 切歌 " 等单向指令工具。

一旦用户的表达模糊或需求复杂，这些语音助手就容易暴露出 " 听不懂、接不上 " 的短板，导致智能体验大打折扣。

随着大模型技术的应用，这一行业现状正在发生实质性改变。

小米基于 MiMo 大模型推出的 "miclaw"，不仅覆盖了 PC 与 Mac 端，还将其部署在其有屏音箱上。

音频版的 "miclaw" 首要解决的痛点便是提升产品体验的智能化程度。

小米音箱计划最新上线的 miclaw 已支持用户通过一句话下达复杂任务指令，具备语音唤醒与多轮对话的功能，并支持调用手机、PC 执行。

这意味着，未来的小米音箱将不再只是机械的 " 一问一答 " 式指令接收器，有望结合上下文记忆，深度挖掘并理解用户的 " 言外之意 "，进而在复杂、日常甚至口语化的语境中，执行更为复杂的任务。

除了小米，百度小度音箱、华为的小艺 claw 等均已在不同维度上接入了语音交互功能。

在不少行业人士看来，大厂相继在硬件中接入音频版 claw 底层的商业逻辑是这种不需要学习菜单，不需要注视屏幕的近乎 " 零门槛 " 交互，可以最大限度地降低 AI 的交互门槛，真正打入大众市场的基本盘。

" 这样的话会使得整个入口更加自然，使用门槛降低，相当于家庭成员都可以体验，AI 能够尽快融入到生活日常中。" 北京某大厂的架构师向全天候科技解释。

事实上，为了支撑这种近乎 " 零门槛 " 的自然交互，小米本身也在积极加入对音频等多维度数据的底层训练。

早在小米 2025 年 12 月发表的一篇名为《Xiaomi MiMo-VL-Miloco Technical Report》的文章中就明确指出：未来，小米将进一步依托其硬件生态，将音频、毫米波信号等更多感知模态纳入统一的多模态学习框架。通过对多类异构感知输入进行联合推理，最终实现全方位的家居场景理解与精细化空间感知。

要实现从多模态感知到端侧部署的全面落地，离不开海量硬件设备所提供的数据土壤与应用环境，而这确实是小米的优势。

截至 2025 年末，小米 AIoT 平台已连接的 IoT 设备数（不包括智能手机、平板及笔记本电脑）达到 10.79 亿台，同比增长 19.3%，同期米家 APP、小爱同学的月活跃用户数分别 1.13 亿、1.6 亿。

庞大的设备基数所带来的规模效应，使得小米更有利于实现对高价值 " 决策轨迹数据 " 的规模化抓取与持续沉淀。

在真实的物理世界中，Agent 调用工具、执行设备控制的决策轨迹数据极为稀缺。

传统的软件系统或基础智能家居，往往只记录最终的 " 执行状态 "，但真正能够驱动 AI 自主运行的是捕捉 " 为什么这么做 " 的决策链条。

高价值的决策轨迹数据不仅包含执行结果，更涵盖了触发该动作的完整上下文。

例如理想情况下，系统记录下 " 由于光线传感器识别到环境变暗，且门锁日志显示用户刚刚归家，因此决定开启客厅灯光并拉上窗帘 "。

这种融合了多模态环境输入、触发规则和动作输出的完整信息，是指导 Agent 进行复杂决策的关键素材。

要获取这类数据，系统必须身处用户的 " 执行路径 " 之中，才能在决策发生的第一时间完成捕获。

小米庞大的 AIoT 设备网络，实质上构成了消费级物理世界中覆盖面极广的执行路径。通过海量设备的日常协同，这些单次的决策轨迹被持续沉淀，有望交织成一张动态的 " 上下文图谱 "。

这能够客观呈现用户在不同时空下的作息规律、温度偏好及跨设备调用习惯。随着数据闭环的不断完善，系统便具备了更高的预判能力。

不过有效数据的实际产出率仍然取决于用户的使用情况，例如用户是否有足够的动力设置复杂自动化场景等。

新的入口战

围绕语音等交互入口，各类 claw 产品正加速落地。

百度 claw、华为小艺 claw 等均在不同硬件上实现了语音交互能力的接入，并逐步从单轮指令响应，向多轮对话与任务执行能力演进。

阿里旗下的天猫精灵虽未冠以 "claw" 之名，但也在其全屋智能 2.0 方案中深度融合通义大模型能力，构建出 " 空间智能 Agent"，进行智能化决策。

当语音入口逐渐被 Agent 化，缺席即意味着在下一代人机交互体系中失去关键位置。

这一轮集中布局背后是一次围绕 " 使用门槛与数据积累 " 的前置竞争。

作为最接近自然语言的交互方式，语音本质上承担着降低用户使用成本、提升渗透率的角色，让设备交互变得更加无缝。

只有当用户在日常场景中频繁使用 Agent，各家厂商的模型才能持续获得真实的任务请求与执行反馈，从而不断优化决策与执行能力。

正因如此，当前阶段的核心在于是否能够让用户 " 先用起来 "，通过高频使用形成数据闭环，再反向推动能力迭代。

在这一过程中，入口演化为连接用户行为与模型进化的关键基础设施，这已经在部分产品形态中出现苗头。

在一些头部厂商的实践中，语音不再只是触发单一设备或功能，而是开始承接跨设备的连续任务。

例如，用户用一句相对模糊的表达发起请求，系统会在后台拆解意图，并联动多个终端完成一整套动作。

在这一过程中，被调用的不再是某一个具体设备，而是一整条由系统组织起来的执行链路。

当交互从 " 点状指令 " 转向 " 任务链路 " 后，语音的角色不仅局限于降低使用门槛的入口，还成为实际承担任务调度的起点。

用户不再显式选择应用或设备，而是将需求交由系统统一分发。

这也使得入口竞争的重心发生偏移。厂商争夺的不仅限于用户是否开口使用语音，而是这些请求最终由谁来拆解、由谁来决定调用路径。

一旦这一环节被第三方承接，即便硬件仍在原厂商手中，服务分发与用户决策路径也可能逐步外移。

不过，在多方竞逐之中，不同厂商的底层禀赋差异开始放大。

和小米类似，华为的重要优势在于更加自研化的操作系统与硬件生态，早在 2024 年鸿蒙生态设备规模便已进入 9 亿级量级，小艺能力覆盖手机、平板、可穿戴及智能家居等多类终端，形成跨设备的统一交互网络。

这种 " 入口即数据、设备即执行 " 的竞争逻辑也在反向塑造互联网厂商的策略选择。

例如字节跳动在大模型与应用层具备优势，但在终端入口与系统级调度能力上相对薄弱。

由于在 Agent 逐步从 " 对话能力 " 走向 " 执行能力 " 的过程中，仅依赖 App 形态难以深度嵌入用户的日常决策路径，也难以获取高频、连续的任务反馈数据，字节跳动去年以来便频繁与手机厂商洽谈 " 豆包手机 " 的合作路径。

2026 年，AI 能力的比拼正在从 " 交互竞争 " 走向 " 执行竞争 "。

宙世代

一起剪

相关标签