极客公园 2小时前
首销备货3万台 豆包AI手机要卖给谁
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

12 月 1 日,字节跳动豆包团队发布豆包手机助手技术预览版。

据介绍,豆包手机助手,是在豆包 APP 的基础上,和手机厂商在操作系统层面合作的 AI 助手软件。基于豆包大模型的能力和手机厂商的授权,豆包手机助手能够为用户带来更方便的交互和更丰富的体验。

现阶段,开发者和科技爱好者可以在豆包与中兴合作的工程样机 nubia M153 上,体验豆包手机助手的技术预览版本。目前该版本已面向开发者和科技爱好者少量发售,售价 3499 元。

豆包手机助手的出现,是在试图用 AI Agent 打通 APP 之间,重构移动互联网的交互逻辑。

尽管当前的演示仍需面对技术「不确定性」的免责声明,但这种深入操作系统底层、追求「意图直达服务」的尝试,可能比单纯的 Chatbot 更具革新意义。

或许,谁能率先解决「操作手机」的稳定性难题,谁就能定义 AI 时代的「iPhone 时刻」。

据业内人士向「极客公园」介绍,字节跳动与努比亚为这款工程机的首销备货量为 3 万台,并为此订购了对应数量的手机关键元器件。

从「对话框」到「行动派」

过去两年,我们见惯了能写诗、能画图的 Chatbot,但对于普通用户而言,手机上最痛的痛点往往是繁琐的操作流。豆包手机助手这次的大看点,在于它试图从「对话」跨越到「行动」。

在技术预览版的演示中,豆包展示了一种在此前 GUI Agent(图形用户界面代理)研究中常被提及的能力——它能像人类一样「看懂」屏幕,并直接模拟点击操作。

这种「看懂屏幕」并模拟人类操作的底气,则源自豆包大模型在多模态能力上的积累。

据官方透露,该模型在视觉理解、推理以及图像创作等维度的性能已处于国际第一梯队。正是因为模型具备了精准的图形界面(GUI)识别能力,它才能在多项权威评测中拿到高分,从而像人类一样理解「按钮」和「输入框」的含义,而不仅仅是识别一堆代码。

据豆包手机官方使用文档介绍,豆包会根据意图自动判断是否调用 AI Agent 能力,若用户对话开头包含「帮我操作手机」,则会 100% 通过 AI 操作手机完成任务。

任务描述越详细,它的执行效率越高,执行效果越好。例如:" 打开美团外卖帮我把最近几个订单的好评写了 "。此外,AI 操作手机是在虚拟屏操作的,不会在前台默认展开,也不会影响正在进行的其他任务,你可以随时返回桌面使用其他应用。

用户也可以直接跟豆包对话,讲出需求,豆包可根据需求自动判断是否通过操作手机功能完成,以及在豆包对话框底部功能按钮中找到 " 操作手机 ",点击按钮可手动描述需求,也可以设定定时等条件任务。

试想这样一个场景:你在社交媒体上被种草了一款好物,过去你需要截图、退出应用、打开电商平台、搜索、比价。

而在豆包的演示中,你只需说一句「帮我在全平台比价下单」,AI 就能自动跨应用跳转,搜索同款、对比价格规格、领券,甚至帮你选好最低价的商品填入购物车。

图片来源:豆包手机使用指南文档

虽然出于安全考虑,支付环节仍需人工确认,但前面那一系列机械的点击和切换,AI 已经代劳了。

甚至复杂任务也可以执行。在官方演示的旅行规划场景中,当用户提出「下个月去巴黎,帮我把收藏的餐厅标在地图上,看看哪天有展并订票」这样一句包含多重意图的指令时,AI 能够迅速将需求拆解为 6 个子任务:从查询社交媒体收藏、到高德地图标记、再到携程订票,最后整理进备忘录。

这种跨应用、多步骤的「任务链」执行能力,可以说是 AI 从「玩具」迈向「工具」的关键分水岭之一。

为了实现这种「类人」的交互,豆包打通了系统层面的多项权限。

在系统层面,豆包手机为 AI 能力设计了多种交互方式,用户可以通过侧边键、语音甚至耳机唤醒它;在相册里,它能直接听懂「把路人 P 掉」的指令并执行。

图片来源:豆包手机使用指南文档

在更复杂的「Pro 模式」下,它还能调用系统工具,结合记忆功能,直接完成「推荐礼物并放入购物车」这种需要多步推理的复杂任务。

图片来源:豆包手机使用指南文档

当然,将屏幕控制权和个人喜好交给 AI,隐私安全始终是绕不开的话题。所以豆包团队也强调,这一功能支持按需开启,并承诺严格保护数据隐私。

作为「技术预览版」,豆包团队也在视频结尾特别提示,受限于大模型技术的不确定性,演示中的「丝滑」体验目前还无法百分百复现,产品距离团队的最终预期仍有差距。

这也体现了 AI Agent 目前最真实的状态:方向极度性感,但落地仍需时间打磨。

2 不造硬件的「第三条路」

在 AI 手机的浪潮中,一直存在两种流派:一种是像 Google / Pixel 手机这样,自研模型以及整套 AI 软件产品体验,并植入自家系统;另一种则是纯软件厂商,试图通过超级 APP 抢占入口。

图片来源:Google

豆包选择了第三条路:不做硬件,只做生态。

在发布预览版的同时,豆包方面明确表示「没有自研手机计划」。他们的策略非常务实——通过与多家手机厂商洽谈,以「操作系统层面合作」的形式,将豆包的大模型能力植入不同品牌的机型中。

这种「手机厂商 + 大模型厂商」的深度耦合,正在成为行业的一股新趋势。

就像谷歌 Gemini 与三星的合作一样,术业有专攻正逐渐成为共识。

对于手机厂商而言,从零打造一个具备顶级推理、视觉理解和复杂任务规划能力的模型成本极高;而对于字节跳动这样的互联网巨头,缺乏硬件载体则会让 AI 始终隔着一层 APP 的玻璃墙,无法触达用户最核心的数据和场景。

目前的 nubia M153 工程机只是一个开始。售价 3499 元的门槛或许更多是面向开发者和极客人群的「邀请函」,旨在验证这种跨界合作的技术可行性与用户反馈。

或许,谁能率先解决「操作手机」的稳定性难题,谁就能定义 AI 时代的「iPhone 时刻」。

做一个 APP,在 AI 时代已经不够了

豆包手机助手的出现,本质上或许是一次对移动互联网交互逻辑的重构。

大模型的能力越来越强,单纯做一个 APP,在 AI 时代已经不够了。

AI Agent 需要接管更复杂的任务、感知更丰富的上下文,发挥一些真实的功能,才有更落地的价值,这意味着它必须走出软件的围墙,向下沉淀,与操作系统的底层权限和硬件能力进行深度整合。

过往,字节跳动一直是一支强大的 " 空军 " ——拥有极致的算法和庞大的应用生态,但在操作系统和终端硬件上,相比拥有 Android 的谷歌或拥有全场景终端的华为,字节始终缺少一块落地的 " 阵地 "。

在移动互联网时代,这或许不是问题,但在 AI 需要深度介入用户场景的当下,缺乏硬件载体可能意味着丧失对场景的感知力。

豆包手机助手的推出,像是字节在当下阶段抛出的一次探索。

从 Pico 到 Ola Friend,再到如今深入手机 OS 层的助手,字节正在小心补齐 " 硬件触点 " 这块短板。

这或许并不是未来两三年行业的最终形态,但至少可以确认的是:字节已经意识到,想要让 AI 真正跑通,必须迈出 " 软硬结合 " 的这关键一步。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 字节跳动 chatbot 努比亚 移动互联网
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论