首销备货3万台豆包AI手机要卖给谁

12 月 1 日，字节跳动豆包团队发布豆包手机助手技术预览版。

据介绍，豆包手机助手，是在豆包 APP 的基础上，和手机厂商在操作系统层面合作的 AI 助手软件。基于豆包大模型的能力和手机厂商的授权，豆包手机助手能够为用户带来更方便的交互和更丰富的体验。

现阶段，开发者和科技爱好者可以在豆包与中兴合作的工程样机 nubia M153 上，体验豆包手机助手的技术预览版本。目前该版本已面向开发者和科技爱好者少量发售，售价 3499 元。

豆包手机助手的出现，是在试图用 AI Agent 打通 APP 之间，重构移动互联网的交互逻辑。

尽管当前的演示仍需面对技术「不确定性」的免责声明，但这种深入操作系统底层、追求「意图直达服务」的尝试，可能比单纯的 Chatbot 更具革新意义。

或许，谁能率先解决「操作手机」的稳定性难题，谁就能定义 AI 时代的「iPhone 时刻」。

据业内人士向「极客公园」介绍，字节跳动与努比亚为这款工程机的首销备货量为 3 万台，并为此订购了对应数量的手机关键元器件。

从「对话框」到「行动派」

过去两年，我们见惯了能写诗、能画图的 Chatbot，但对于普通用户而言，手机上最痛的痛点往往是繁琐的操作流。豆包手机助手这次的大看点，在于它试图从「对话」跨越到「行动」。

在技术预览版的演示中，豆包展示了一种在此前 GUI Agent（图形用户界面代理）研究中常被提及的能力——它能像人类一样「看懂」屏幕，并直接模拟点击操作。

这种「看懂屏幕」并模拟人类操作的底气，则源自豆包大模型在多模态能力上的积累。

据官方透露，该模型在视觉理解、推理以及图像创作等维度的性能已处于国际第一梯队。正是因为模型具备了精准的图形界面（GUI）识别能力，它才能在多项权威评测中拿到高分，从而像人类一样理解「按钮」和「输入框」的含义，而不仅仅是识别一堆代码。

据豆包手机官方使用文档介绍，豆包会根据意图自动判断是否调用 AI Agent 能力，若用户对话开头包含「帮我操作手机」，则会 100% 通过 AI 操作手机完成任务。

任务描述越详细，它的执行效率越高，执行效果越好。例如：" 打开美团外卖帮我把最近几个订单的好评写了 "。此外，AI 操作手机是在虚拟屏操作的，不会在前台默认展开，也不会影响正在进行的其他任务，你可以随时返回桌面使用其他应用。

用户也可以直接跟豆包对话，讲出需求，豆包可根据需求自动判断是否通过操作手机功能完成，以及在豆包对话框底部功能按钮中找到 " 操作手机 "，点击按钮可手动描述需求，也可以设定定时等条件任务。

试想这样一个场景：你在社交媒体上被种草了一款好物，过去你需要截图、退出应用、打开电商平台、搜索、比价。

而在豆包的演示中，你只需说一句「帮我在全平台比价下单」，AI 就能自动跨应用跳转，搜索同款、对比价格规格、领券，甚至帮你选好最低价的商品填入购物车。

图片来源：豆包手机使用指南文档

虽然出于安全考虑，支付环节仍需人工确认，但前面那一系列机械的点击和切换，AI 已经代劳了。

甚至复杂任务也可以执行。在官方演示的旅行规划场景中，当用户提出「下个月去巴黎，帮我把收藏的餐厅标在地图上，看看哪天有展并订票」这样一句包含多重意图的指令时，AI 能够迅速将需求拆解为 6 个子任务：从查询社交媒体收藏、到高德地图标记、再到携程订票，最后整理进备忘录。

这种跨应用、多步骤的「任务链」执行能力，可以说是 AI 从「玩具」迈向「工具」的关键分水岭之一。

为了实现这种「类人」的交互，豆包打通了系统层面的多项权限。

在系统层面，豆包手机为 AI 能力设计了多种交互方式，用户可以通过侧边键、语音甚至耳机唤醒它；在相册里，它能直接听懂「把路人 P 掉」的指令并执行。

图片来源：豆包手机使用指南文档

在更复杂的「Pro 模式」下，它还能调用系统工具，结合记忆功能，直接完成「推荐礼物并放入购物车」这种需要多步推理的复杂任务。

图片来源：豆包手机使用指南文档

当然，将屏幕控制权和个人喜好交给 AI，隐私安全始终是绕不开的话题。所以豆包团队也强调，这一功能支持按需开启，并承诺严格保护数据隐私。

作为「技术预览版」，豆包团队也在视频结尾特别提示，受限于大模型技术的不确定性，演示中的「丝滑」体验目前还无法百分百复现，产品距离团队的最终预期仍有差距。

这也体现了 AI Agent 目前最真实的状态：方向极度性感，但落地仍需时间打磨。

2 不造硬件的「第三条路」

在 AI 手机的浪潮中，一直存在两种流派：一种是像 Google / Pixel 手机这样，自研模型以及整套 AI 软件产品体验，并植入自家系统；另一种则是纯软件厂商，试图通过超级 APP 抢占入口。

图片来源：Google

豆包选择了第三条路：不做硬件，只做生态。

在发布预览版的同时，豆包方面明确表示「没有自研手机计划」。他们的策略非常务实——通过与多家手机厂商洽谈，以「操作系统层面合作」的形式，将豆包的大模型能力植入不同品牌的机型中。

这种「手机厂商 + 大模型厂商」的深度耦合，正在成为行业的一股新趋势。

就像谷歌 Gemini 与三星的合作一样，术业有专攻正逐渐成为共识。

对于手机厂商而言，从零打造一个具备顶级推理、视觉理解和复杂任务规划能力的模型成本极高；而对于字节跳动这样的互联网巨头，缺乏硬件载体则会让 AI 始终隔着一层 APP 的玻璃墙，无法触达用户最核心的数据和场景。

目前的 nubia M153 工程机只是一个开始。售价 3499 元的门槛或许更多是面向开发者和极客人群的「邀请函」，旨在验证这种跨界合作的技术可行性与用户反馈。

或许，谁能率先解决「操作手机」的稳定性难题，谁就能定义 AI 时代的「iPhone 时刻」。

光做一个 APP，在 AI 时代已经不够了

豆包手机助手的出现，本质上或许是一次对移动互联网交互逻辑的重构。

大模型的能力越来越强，单纯做一个 APP，在 AI 时代已经不够了。

AI Agent 需要接管更复杂的任务、感知更丰富的上下文，发挥一些真实的功能，才有更落地的价值，这意味着它必须走出软件的围墙，向下沉淀，与操作系统的底层权限和硬件能力进行深度整合。

过往，字节跳动一直是一支强大的 " 空军 " ——拥有极致的算法和庞大的应用生态，但在操作系统和终端硬件上，相比拥有 Android 的谷歌或拥有全场景终端的华为，字节始终缺少一块落地的 " 阵地 "。

在移动互联网时代，这或许不是问题，但在 AI 需要深度介入用户场景的当下，缺乏硬件载体可能意味着丧失对场景的感知力。

豆包手机助手的推出，像是字节在当下阶段抛出的一次探索。

从 Pico 到 Ola Friend，再到如今深入手机 OS 层的助手，字节正在小心补齐 " 硬件触点 " 这块短板。

这或许并不是未来两三年行业的最终形态，但至少可以确认的是：字节已经意识到，想要让 AI 真正跑通，必须迈出 " 软硬结合 " 的这关键一步。

宙世代

一起剪

相关标签