飞象网 5小时前
智元彭志辉:当AI走出屏幕,谁在消耗下一个万亿Token?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

飞象网讯 ( 孙迎新 / 文 ) " 未来最大的 Token 消耗者,将是现实世界里的具身智能体。"

对具身智能体拥有如此巨大 " 胃口 " 这个结论,是在 MWC2026 世界移动通信大会上,智元机器人联合创始人、总裁兼 CTO 彭志辉提出的。

之所以能把 Token 消耗,与具身智能体联系起来,不仅源于彭志辉对机器人的深度觉知,更得益于他的长期深耕,用实践为我们阐述了 AI 是如何实现从 " 答题机器 " 到 " 自主机器人 " 的转变。

用彭志辉的话说,这不仅是一场技术的革新,还是一场关于生产力、商业模式及整个产业生态的重塑。

AI 下一站:从数字世界走向物理世界的具身智能

在大模型技术成熟的今天,喜欢它的人,或许和恐惧它的人一样多,未来究竟怎样,很大程度上取决于当下。

大家同时都面临一个现实问题,AI 如何突破数字屏幕的限制,在充满不确定性的物理世界中实现大规模落地?如何从类似于早期波士顿动力翻跟头跳舞的单纯炫技,转向对消费(883434)者友好、用户真正关心的生产力创造?

坦率地说,用户真正关心的,是 AI 与机器人有用,而不仅仅是看起来有用。但这种最终评价,会指向一个根本性问题:AI 如何从数字世界真正走向物理世界?

彭志辉认为,从数字世界走向物理世界,是一次标志性的转变。

这意味着 AI 不再是一次性的文本内容生成,而是要从回答问题走向在物理世界中自主完成任务。它需要持续运行、持续学习,并持续创造生产力。当大模型、本体硬件的可靠性与真实场景数据,在同一个窗口期收敛时,AI 的落地方式将发生根本性变化。

我们还发现 Byte 与 Token 更多的不同,尽管这种发现有时候表现得不情不愿。

而这种不同就在于,Byte 定义了信息的存储与传输价值,Token 则定义了智能的生成与消耗价值。或许将来的人工智能(885728)教材里会这样写,但请记住,这全是当今时代出的命题。

当然,我们想真正定义 Token 并不容易,这道题难就难在,Token 不仅能够衡量具身智能体发生的转变,还是 AI 时代的终极货币。

彭志辉表示,对于移动通信领域的听众而言,过去移动通信连接的是人、手机和终端;但在未来,越来越多的连接对象将是自主运行的智能体。它们在真实世界中感知、决策、执行并反馈,且长期在线。

数字世界到物理世界的关键:三智一体

从某种角度看,智能体长期在线并不是一件令人感到美好的事情,毕竟人会一天天衰老,但智能体却不会。很多时候这种感觉会让人感到沮丧,但好在目前,我们讨论的 Token 多用于聊天 AI、代码助手或视频生成,而这些任务边界清晰,频次有限,并不会让人觉得是对年龄与容貌的冒犯。

虽说具身智能体什么时候看起来都像是你第一眼看到时那般年轻,但具身智能体在物理世界持续运行时,每时每刻都在感知环境、规划动作、执行反馈并修正下一步动作。其任务空间是 " 数字世界 + 物理世界 " 的总和,面对的是连续、多模态的不确定性。

如果从最终用户的角度出发,会是另外一番情形。

我们看到,未来最大的 Token 消耗者,将是现实世界里的具身智能体,也就是人形机器人(886069)。它既是执行器也是流量入口,既是劳动者也是模型与物理世界连接的端口。这不仅是我们的判断,也是行业趋势。

彭志辉指出,基于对行业趋势的判断,智元机器人提出独有的 " 三智一体 " 范式。具身智能不是单一技术的突破,而是四个维度的协同进化。

" 三智一体 " 的 " 体 " 指的就是具身智能的本体,它决定了进入什么样的场景。常规地看,双足机器人适合与人交互,轮式机器人适合工厂那种效率、成本、安全性更优的场景,而四足机器人则更加适合特种场景。

作为 " 三智 " 中的运动智能,有着明确的边界。它决定了机器人能否稳定、可靠、高效地运行。这也是具身智能通往物理世界的基础,毕竟若无法在开放环境中稳定行走,就不具备部署条件。

第二个 " 智 " 主要针对的是作业智能,它决定了机器人能否创造劳动生产力价值。而这正是商业化的核心所在,机器人只有自主闭环完成搬运、装配等任务,并且比人更快、成本更低,才更加具有价值。

第三个 " 智 " 指的是交互智能,它决定了机器人是否能融入到人类工作流当中。从管理的角度看,机器人只有实现与人协作、沟通,并清晰理解意图,才谈得上交互智能。毕竟在机器人没有获得真正的人权之前,它还只是一种工具而非真正意义上的伙伴。

在谈及智元机器人 " 三智一体 " 范式时,彭志辉强调,目前智元是全球唯一一家,同时具备这四层全栈能力且完成万台量产的公司。

跨越鸿沟:从实验室 Demo 到工业级量产与商业化

在具身智能从实验室推向工业与生活的过程中,一系列问题接踵而至,甚至你想避都避不开。

机器人是如何从昂贵的玩具或者展品变成了可靠的工业品(850100)?如何解决机器人在真实场景中面对长尾问题时的泛化能力,以及如何降低企业的使用门槛?

彭志辉表示,机器人要成为生产力基础设施,首先必须是可靠的工业品(850100)。我们非常重视量产验证,从早期的几台样机,到 2024 年突破 1000 台,去年底 5000 台,本月突破 15000 台。这背后检验的是系统工程能力、制造一致性和质量体系。

在商用场景上,智元沿着环境复杂度和任务复杂度两个维度逐步升级。2024 年,智元完成了接待讲解、科研教育、数据采集;2025 年,智元进入高价值场景,如安防(885423)巡检、物流分拣、工业制造。

彭志辉谈到一个具体的案例。智元在南昌的一条产线上部署了机器人,任务是抓取易碎的平板玻璃放入工装检测。以往这项工作传统机械臂无法完成,需靠人工手感。现在智元通过数据驱动的方式,实现了近乎 100% 的成功率,且节拍比人类更快。

在谈及如何打造数据飞轮与模型能力等技术底座时,彭志辉表示,具身智能需要解决感知、决策、动作、反馈的系统闭环,这依赖三大智能能力,也就是我们刚才所定义的 " 三智 ",但在这里有更清晰的界定。

首先在运动智能的表现上,智元推出了自研运控基座模型 AGE。它让机器人的 " 小脑 " 学习统一的泛化动作分布,而非单一动作。结合生成式模型,机器人就可根据语音或上下文自主生成肢体语言,实现感控一体。

在作业智能方面,智元推出了 AgiBot World,它是一个具身智能数据集和 VRA 机座的模型。智元可以通过世界模型进行仿真评估,结合在线分布式强化学习系统,也就是 SOP,形成 " 真实采集 - 仿真训练 - 部署执行 - 数据回流 " 的闭环。

在交互智能方面,智元自研了端到端的机器人原生交互模型 Vita-Only。不同于传统模型缺失动作和表情模态,Vita-Only 能够将看、听、动、说这些能力表现有机结合,赋予机器人连续存在感和人格感。

有了这些能力的加持,具身智能体看起来会更加像人,行为上也会更加可靠、可信、可以接受。虽说目前机器人看起来没那么机灵,既呆板又昂贵,但以后肯定不是这个样。

生态共建:构建具身智能时代的操作系统与基础设施

面向未来,我们还需要面对一些更具有开放性的问题,具身智能产业如何避免碎片化发展?如何降低开发者的门槛,让运营商、云服务商和开发者,能够共同参与到物理世界智能基础设施的建设中来?

彭志辉指出,为了推动产业繁荣,智元致力于构建一个开放的生态。这个生态包含三方面内容:

Emma 架构:智元推出业界首个开放完整的智能生态技术体系 Emma,融合 " 三智一体 " 构建标准化开发底座。

灵犀 OS:智元布局了具身时代原生操作系统灵犀 OS,这避免了底层被卡脖子。

生态计划:智元启动了原生生态发展计划,未来五年将投入 22 亿元,涵盖科研、教育等。

在谈及商业模式创新时,彭志辉表示,智元推出了机器人租赁(WLFC)模式,即 RaaS。可以让用户有更多的选择,与其买断机器人,不如像雇佣员工一样租赁(WLFC)其工作时间。通过子公司的运作,智元将构建起全球化的机器人租赁(WLFC)网络。

彭志辉认为,智元机器人的核心价值就在于:用多形态本体和万台级量产验证了工程化落地,通过 " 三智一体 " 能力和真实场景数据验证了数据闭环,通过开源数据集、模型和操作系统实践了生态共建。在生态共建方面,彭志辉倡议,智元希望用 " 三智一体 " 的全栈能力和开放生态,与运营商、云服务商、开发者和客户一起,大家共同开启物理世界智能基础设施的新阶段。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 彭志辉 物理 机器人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论