清华系团队做分布式预测世界模型、获数亿元A轮融资，落地终端设备达十万量级

作者｜黄楠

编辑｜袁斯来

硬氪获悉，具身智能世界模型公司「千诀科技」日前完成数亿元 A 轮融资，本轮由京铭资本领投，山东新动能、山东财金资本、元禾厚望、芯能创投、南创投、英诺天使基金、尚势资本、仁爱集团、玄素投资等机构共同投资，投资方阵容汇集了国家队、产业方、市场化基金及家族办公室。Maple Pledge 枫承资本长期出任私募股权融资顾问。

资金将重点用于自研世界模型的架构搭建、算法迭代与场景落地，同步扩充核心研发与项目交付团队，完善商业化落地配套能力。

千诀科技创立于 2023 年 6 月，核心团队孵化自清华大学类脑研究中心，长期聚焦具身智能决策与规划大模型研发落地，突破传统设备任务局限，以帮助机器人实现环境动态自适应与全自主作业。

世界模型的热潮正迅速卷向具身智能领域，成为通用人工智能落地物理世界的核心突破口。卷积神经网络之父 Yann LeCun（杨立昆）率先提出世界模型核心理论，其创办的 AMI 团队持续专注抽象表征空间建模、物理世界规律预测的技术方向研究，为行业奠定了核心理论基础。

从因果推理到空间智能，从物理仿真到生成式预测，基于不同技术范式、不同理论底座的研究在业内正同步展开。这是个尚未收敛、想象力巨大的赛道。各路探索者都在试图回答同一个问题：如何让机器真正理解并预知物理世界的变化。

在主流的生成式路线中，典型做法是通过像素级重构来预测下一帧画面。但千诀科技 CTO 章天任向硬氪指出，这种方法往往存在一个容易被忽视的问题——特征污染。

" 真实物理世界的图像输入信息量极大，包含大量与任务无关的噪声，比如光影、纹理。" 章天任解释，模型为了追求像素级的无损重构，不得不把有效特征和无效信息强行绑定在一起，结果可能导致模型内部表征不再 " 纯净 "，" 它确实能从现实数据中提取出具有泛化性的特征，但这些特征里混入了干扰项。"

这种污染会直接影响模型对物理世界的理解能力。世界模型的本意是让模型学会符合物理规律的预测，而不是单纯地拟合图像。一旦特征被污染，模型就很难提炼出真正的因果关系和物理不变性，泛化能力自然受限。

" 人看一张图时，不会平均分配注意力在每个像素上，而是快速锁定与任务相关的区域。" 章天任说，" 但生成式模型与其说是理解世界，却更容易发生复刻表象的情况。"

面对生成式路线存在特征提取的这一局限，预测式世界模型提供了另一种思路。其核心逻辑是，让机器人真正理解物理世界，不是靠还原每一帧像素，而是靠预测物理状态的低维演化轨迹。

千诀科技 CEO 高海川用一个案例解释了两者的本质区别：人在打球时，不会在脑中想象一帧帧清晰的画面，而是直接挥拍，依靠对球轨迹的低维预测。这种预测不包含像素信息，只包含物理规律的状态演化。" 人类在物理世界中玩球类游戏，不可能去想象清晰完整的像素画面，来不及，而且这种信息不稳定。" 高海川说。

同样的逻辑适用于具身智能。执行任务时，机器人需要的不是 " 未来会长什么样 " 的想象，而是 " 下一个状态该往哪走 " 的预判。预测式模型的核心输出不是视频帧，而是低维抽象特征，这些特征可以直接解码为动作轨迹或规划指令，从而绕开像素重构带来的计算负担和特征污染问题。

在预测式路线基础上，千诀科技还进一步提出了分布式预测架构。其架构采用了类人脑的脑区连接方式，大脑不同区域各司其职，连接紧密的区域内部协同，区域之间则相对独立。

对比传统方法把所有信息揉在一起压缩处理，分布式预测架构会先把信息分到不同的区域里，再分别压缩和预测，从而实现样本效率更高，推理速度更快。" 同样一个任务，从零开始可能需要 1000 个‘状态 - 动作’对；有了好的表征，100 个就够了，有效减少了机器人适应新场景所需的示教数据。" 章天任说。

通过这种分布式架构，可以帮助模型在抽象表征空间中学习物理状态的演化规律，而非仅仅是像素的时序关联，更好地服务于下游的规划与控制。当机器人面对新环境时，可以更快地理解 " 什么会导致什么 "，对真实场景落地尤为关键。

搭载千诀世界模型的机器人在餐厅打工（图源 / 企业）

具体到应用端，千诀科技将具身大脑与小脑解耦，由其世界模型负责感知、预测与规划，不绑定具体的执行动作空间。只要共享同一模态，模型就能将其观察到的环境变化作为统一的数据来源进行训练。这意味着，同一个 " 大脑 " 可以快速迁移到不同本体上，解耦设计有效降低了迁移成本，并加速了真实场景中的数据飞轮闭环。

据硬氪了解，千诀科技自研具身大脑已完成轮式、四足、双足人形、无人机、清扫机器人等多品类硬件适配，落地酒店保洁、商用服务、精密室内作业等实景项目，当前接入终端设备规模达十万台。依托海量终端持续产生的真实交互数据，未来将反哺世界模型进一步迭代优化。

搭载千诀世界模型的机器人在咖啡店自主配送（图源 / 企业）

以下为硬氪与千诀科技 CEO 高海川、CTO 章天任的访谈节选（略经编辑）：

硬氪：开环预测场景下，世界模型的长时推理误差会随步数累积。千诀的预测式架构如何应对这一问题？具身任务的闭环反馈机制能在多大程度上抑制误差放大？

章天任：这个问题分几个层面。第一，累积误差的大小取决于应用场景是否具备闭环反馈。视频生成模型是纯开环的，一次性预测未来很多帧，中间没有任何外部信息校正，所以误差容易累积。但具身不同在于它有闭环反馈，我们不会让机器人一次性预测 1000 步、把整个任务全部规划完再执行，而是先预测 50 步，选出动作去执行，执行完后环境会给出新的状态作为反馈，基于反馈修正后续预测。

这种 " 执行 - 观测 - 修正 " 的循环，是具身任务与视频生成最本质的区别，能有效抑制误差放大。

第二是关于记忆模块。千诀目前已经在一些平台上尝试搭建 Memory 系统，但还没有与视觉中心直接融合。原因在于，既然已经有了闭环反馈，很多场景下暂时不需要显式的长期记忆。

第三，千诀的模型支持多步预测，模型预测的 " 一步 " 不一定对应底层的一个控制指令，而可以对应一个完整的语义动作，比如 50 个底层 step。预测步数越少，累积误差发生的概率和幅度就越小。

总的来说，我们认为世界模型的能力上限挑战在于完全开环的超长时规划，比如机器人还没开始行动，就要一次性规划好未来几百步的所有细节。但这种使用场景在真实的具身任务中很少见，更自然、更现实的做法还是 " 边做边看 "，发现问题随时调整。

硬氪：千诀已实现十万台级别的规模化部署。在实际落地过程中，客户反馈中有哪些超出预期的发现？对你们的产品迭代有什么影响？

高海川：千诀目前已有十万台机器在真实场景中运行，用户把机器人当真实产品使用，给出的反馈也是真实的。因此，我们训练的模型与落地场景之间不存在 "real-to-real gap"。

搭载千诀世界模型的机器人自主清洁桌面（图源 / 企业）

市场反馈中有两个点超出了我们的预期。

一个是响应速度的敏感度。不同场景对延迟的容忍度差异很大。生成式模型 4 秒级的响应，在机器人场景中基本不可用。我们的预测式模型虽然推理速度快、可以在 0.5 秒内返回结果，但部分机器人需要云端传输延迟在 1 秒左右，客户仍然反馈 " 卡顿 "。当我们把延迟降低 0.5 秒，用户体验就有了质的飞跃，这种毫秒级的延迟优化，往往比模型能力的提升更能直接转化为用户满意度。

另一方面在于主动性的价值。大多数时候，客户并不希望机器人只是一个被动执行指令的工具，而是期待它能 " 眼里有活 " ——主动感知环境、自主决策，而不是逐条等人类发令。比如在酒店场景中，机器人主动发现地面有污渍并启动清洁，比接到指令再执行，更能让客户感受到 " 智能化 "。这种从 " 被驱动设备 " 到 " 智能体成员 " 的体验跃迁，正在成为产品差异化的关键维度。

宙世代

一起剪

相关标签