36氪 7小时前
清华系团队做分布式预测世界模型、获数亿元A轮融资,落地终端设备达十万量级
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_caijing1.html

 

作者|黄楠

编辑|袁斯来

硬氪获悉,具身智能世界模型公司「千诀科技」日前完成数亿元 A 轮融资,本轮由京铭资本领投,山东新动能、山东财金资本、元禾厚望、芯能创投、南创投、英诺天使基金、尚势资本、仁爱集团、玄素投资等机构共同投资,投资方阵容汇集了国家队、产业方、市场化基金及家族办公室。Maple Pledge 枫承资本长期出任私募股权融资顾问。

资金将重点用于自研世界模型的架构搭建、算法迭代与场景落地,同步扩充核心研发与项目交付团队,完善商业化落地配套能力。

千诀科技创立于 2023 年 6 月,核心团队孵化自清华大学类脑研究中心,长期聚焦具身智能决策与规划大模型研发落地,突破传统设备任务局限,以帮助机器人实现环境动态自适应与全自主作业。

世界模型的热潮正迅速卷向具身智能领域,成为通用人工智能落地物理世界的核心突破口。卷积神经网络之父 Yann LeCun(杨立昆)率先提出世界模型核心理论,其创办的 AMI 团队持续专注抽象表征空间建模、物理世界规律预测的技术方向研究,为行业奠定了核心理论基础。

从因果推理到空间智能,从物理仿真到生成式预测,基于不同技术范式、不同理论底座的研究在业内正同步展开。这是个尚未收敛、想象力巨大的赛道。各路探索者都在试图回答同一个问题:如何让机器真正理解并预知物理世界的变化。

在主流的生成式路线中,典型做法是通过像素级重构来预测下一帧画面。但千诀科技 CTO 章天任向硬氪指出,这种方法往往存在一个容易被忽视的问题——特征污染。

" 真实物理世界的图像输入信息量极大,包含大量与任务无关的噪声,比如光影、纹理。" 章天任解释,模型为了追求像素级的无损重构,不得不把有效特征和无效信息强行绑定在一起,结果可能导致模型内部表征不再 " 纯净 "," 它确实能从现实数据中提取出具有泛化性的特征,但这些特征里混入了干扰项。"

这种污染会直接影响模型对物理世界的理解能力。世界模型的本意是让模型学会符合物理规律的预测,而不是单纯地拟合图像。一旦特征被污染,模型就很难提炼出真正的因果关系和物理不变性,泛化能力自然受限。

" 人看一张图时,不会平均分配注意力在每个像素上,而是快速锁定与任务相关的区域。" 章天任说," 但生成式模型与其说是理解世界,却更容易发生复刻表象的情况。"

面对生成式路线存在特征提取的这一局限,预测式世界模型提供了另一种思路。 其核心逻辑是,让机器人真正理解物理世界,不是靠还原每一帧像素,而是靠预测物理状态的低维演化轨迹。

千诀科技 CEO 高海川用一个案例解释了两者的本质区别:人在打球时,不会在脑中想象一帧帧清晰的画面,而是直接挥拍,依靠对球轨迹的低维预测。这种预测不包含像素信息,只包含物理规律的状态演化。" 人类在物理世界中玩球类游戏,不可能去想象清晰完整的像素画面,来不及,而且这种信息不稳定。" 高海川说。

同样的逻辑适用于具身智能。执行任务时,机器人需要的不是 " 未来会长什么样 " 的想象,而是 " 下一个状态该往哪走 " 的预判。预测式模型的核心输出不是视频帧,而是低维抽象特征,这些特征可以直接解码为动作轨迹或规划指令,从而绕开像素重构带来的计算负担和特征污染问题。

在预测式路线基础上,千诀科技还进一步提出了分布式预测架构。其架构采用了类人脑的脑区连接方式,大脑不同区域各司其职,连接紧密的区域内部协同,区域之间则相对独立。

对比传统方法把所有信息揉在一起压缩处理,分布式预测架构会先把信息分到不同的区域里,再分别压缩和预测,从而实现样本效率更高,推理速度更快。" 同样一个任务,从零开始可能需要 1000 个‘状态 - 动作’对;有了好的表征,100 个就够了,有效减少了机器人适应新场景所需的示教数据。" 章天任说。

通过这种分布式架构,可以帮助模型在抽象表征空间中学习物理状态的演化规律,而非仅仅是像素的时序关联,更好地服务于下游的规划与控制。当机器人面对新环境时,可以更快地理解 " 什么会导致什么 ",对真实场景落地尤为关键。

搭载千诀世界模型的机器人在餐厅打工(图源 / 企业)

具体到应用端,千诀科技将具身大脑与小脑解耦,由其世界模型负责感知、预测与规划,不绑定具体的执行动作空间。只要共享同一模态,模型就能将其观察到的环境变化作为统一的数据来源进行训练。这意味着,同一个 " 大脑 " 可以快速迁移到不同本体上,解耦设计有效降低了迁移成本,并加速了真实场景中的数据飞轮闭环。

据硬氪了解,千诀科技自研具身大脑已完成轮式、四足、双足人形、无人机、清扫机器人等多品类硬件适配,落地酒店保洁、商用服务、精密室内作业等实景项目,当前接入终端设备规模达十万台。依托海量终端持续产生的真实交互数据,未来将反哺世界模型进一步迭代优化。

搭载千诀世界模型的机器人在咖啡店自主配送(图源 / 企业)

以下为硬氪与千诀科技 CEO 高海川、CTO 章天任的访谈节选(略经编辑):

硬氪:开环预测场景下,世界模型的长时推理误差会随步数累积。千诀的预测式架构如何应对这一问题?具身任务的闭环反馈机制能在多大程度上抑制误差放大?

章天任:这个问题分几个层面。第一,累积误差的大小取决于应用场景是否具备闭环反馈。视频生成模型是纯开环的,一次性预测未来很多帧,中间没有任何外部信息校正,所以误差容易累积。但具身不同在于它有闭环反馈,我们不会让机器人一次性预测 1000 步、把整个任务全部规划完再执行,而是先预测 50 步,选出动作去执行,执行完后环境会给出新的状态作为反馈,基于反馈修正后续预测。

这种 " 执行 - 观测 - 修正 " 的循环,是具身任务与视频生成最本质的区别,能有效抑制误差放大。

第二是关于记忆模块。千诀目前已经在一些平台上尝试搭建 Memory 系统,但还没有与视觉中心直接融合。原因在于,既然已经有了闭环反馈,很多场景下暂时不需要显式的长期记忆。

第三,千诀的模型支持多步预测,模型预测的 " 一步 " 不一定对应底层的一个控制指令,而可以对应一个完整的语义动作,比如 50 个底层 step。预测步数越少,累积误差发生的概率和幅度就越小。

总的来说,我们认为世界模型的能力上限挑战在于完全开环的超长时规划,比如机器人还没开始行动,就要一次性规划好未来几百步的所有细节。但这种使用场景在真实的具身任务中很少见,更自然、更现实的做法还是 " 边做边看 ",发现问题随时调整。

硬氪:千诀已实现十万台级别的规模化部署。在实际落地过程中,客户反馈中有哪些超出预期的发现?对你们的产品迭代有什么影响?

高海川:千诀目前已有十万台机器在真实场景中运行,用户把机器人当真实产品使用,给出的反馈也是真实的。因此,我们训练的模型与落地场景之间不存在 "real-to-real gap"。

搭载千诀世界模型的机器人自主清洁桌面(图源 / 企业)

市场反馈中有两个点超出了我们的预期。

一个是响应速度的敏感度。 不同场景对延迟的容忍度差异很大。生成式模型 4 秒级的响应,在机器人场景中基本不可用。我们的预测式模型虽然推理速度快、可以在 0.5 秒内返回结果,但部分机器人需要云端传输延迟在 1 秒左右,客户仍然反馈 " 卡顿 "。当我们把延迟降低 0.5 秒,用户体验就有了质的飞跃,这种毫秒级的延迟优化,往往比模型能力的提升更能直接转化为用户满意度。

另一方面在于主动性的价值。 大多数时候,客户并不希望机器人只是一个被动执行指令的工具,而是期待它能 " 眼里有活 " ——主动感知环境、自主决策,而不是逐条等人类发令。比如在酒店场景中,机器人主动发现地面有污渍并启动清洁,比接到指令再执行,更能让客户感受到 " 智能化 "。这种从 " 被驱动设备 " 到 " 智能体成员 " 的体验跃迁,正在成为产品差异化的关键维度。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

物理 融资 污染 山东 规律
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论