量子位 19小时前
MoE不够看了,腾讯推出MoT:2B具身模型22项评测16项最佳
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

让大模型真正走进现实世界,是当下最迫切的需求之一。

但美好的愿景,在真实的物理环境面前却屡屡碰壁。

那些在文本世界里对答如流的通用视觉语言模型(VLM),一旦装进机器人脑子里,常常显得笨手笨脚。

原因很简单——物理世界容不得半点含糊。通用模型平时看图 " 大差不差 " 就行,但具身智能需要的是极度精细的三维空间感知,以及涉及到真实物理交互的预测和规划。拿着 " 做题家 " 的脑子去干真实的体力活,自然水土不服。

面对这个行业痛点,腾讯混元团队联合腾讯 Robotics X 实验室开发的HY-Embodied-0.5系列基础模型交出了一份相当硬核的答卷。这并非是一次在通用大模型上的简单 " 微调 ",而是一场从底层架构到训练范式,完全为 " 具身智能 " 量身定制的重构。

这一次,HY-Embodied 团队推出了两款主力模型:

MoT-2B(总参数 4B,仅激活 2B),采用创新的混合 Transformer(MoT)架构,主打端侧部署和实时响应。

MoE-32B(总参数 407B,激活 32B),追求复杂推理与极致性能。

为了让 AI 真正 " 看懂 " 物理空间并做出准确反应,团队在架构、数据组织和训练流程上做出了大量创新。

他们不仅采用了原生分辨率的视觉编码器,还针对性地采用了 Mixture-of-Transformers(MoT)架构,并引入视觉潜在 Token 机制,进一步强化了视觉与语言空间的对齐。

在训练端,模型先由超过 100M 的高质量具身专属数据打底,并引入迭代式后训练范式,应用了拒绝采样微调、强化学习、在线蒸馏等方案,驱动模型思维链自主进化,并将大模型的能力高保真地 " 压缩 " 传授给仅有 2B 激活参数的轻量级变体。

HY-Embodied 系列模型不仅在开源 Benchmark 上达成了断层式的领先,更在物理实操中证明了自己绝非纸上谈兵:通过将 VLM 底座应用在 VLA(视觉 - 语言 - 动作)模型,直接让其接管现实世界中的机器人控制。

在涵盖感知、推理、规划的 22 项权威评测榜单中,HY-Embodied-0.5 展现了极其恐怖的战斗力。小身板的 MoT-2B 模型共取得 16 项最佳,超越参数更大的通用底座 Qwen3-VL-4B 和具身专属模型 RoboBrain2.5、MiMo-Embodied 等。

  HY-Embodied-0.5 2B 参数量评测结果

而完全体的 MoE-A32B 在具身测评标准下的综合成绩与目前的行业标杆 Gemini 3.0 Pro 等抗衡。

  HY-Embodied-0.5 旗舰模型评测结果

除了领先的评测性能,2B 小模型也有不错的使用体验。在视觉感知和具身任务上,不仅有准确的结果,还有清晰合理的推理过程。

将更强的 VLM 基座应用到机器人实机任务上也能取得更好的效果。预训练的 HY-Embodied-0.5 基座(右图)相比基线模型(左图)。

使用相同动作训练数据,在打包、堆叠、悬挂三个实机任务上,HY-Embodied 基座相比于 pi0 和 pi0.5 初始化的模型能取得更好的效果。

视觉 + 语言混合 MoT 架构

多模态训练中,由于视觉信号信息量极大,模型在拼命 " 看懂 " 图像时,往往会挤占原本属于语言的参数空间,导致 " 看图厉害了,说话变笨了 " 的灾难性遗忘,这在 2B 规模的端侧模型上尤为明显。

HY-Embodied-0.5 在架构上致力于实现模态自适应与无损感知。也就是说,端侧模型(如 HY-Embodied-0.5-MoT-2B)不仅要在不丢失信息的前提下看清输入,还要让视觉和语言 " 各司其职 ",在互不干扰中实现性能翻倍。

  HY-Embodied-0.5 MoT-2B 架构图

为了打破端侧小模型的性能瓶颈,HY-Embodied 在基础 VLM 架构上进行了深度重构,其核心包含三个关键部分:

HY-ViT 2.0(原生分辨率视觉编码器)

HY-ViT 2.0 不仅原生支持任意分辨率输入,还针对端侧专门打造了 400M 参数的高效版本。它通过从更强大的内部大模型进行知识蒸馏,并引入视觉重建监督和微型 LLM 的语言监督,确保喂给大语言模型的视觉信号做到信息损失最小化。

MoT 计算与双向注意力(混合 Transformer 架构)

为了让视觉和语言不打架,模型引入了 MoT 机制,为视觉分支赋予了非共享参数。具体而言,它复制了语言模型的 FFN 和 QKV 参数并用预训练权重初始化,专门交由视觉 Token 计算。这使得模型参数量翻倍但推理效率几乎不受影响。

同时,由于图像不具备语言那种单向序列的特性,模型专门为视觉 Token 解锁了独立的全向(双向)注意力机制,并引入视觉 Next-code 预测任务(利用将每个 8x8 图像块压缩为单一代码的 2k 离散词表作为监督),提供更强的视觉监督信号。

Visual Latent Tokens(视觉潜在视语桥梁)

受潜在思维机制的启发,HY-Embodied-0.5 在每一个视觉输入序列(如图片或视频帧)的末尾,都追加了一个专属的 " 视觉潜在 Token"。在预训练阶段,这些 Token 会直接接受来自超大 ViT 全局特征的监督。它们就像是连接视觉与文本内容的桥梁,极大地拉升了端侧小模型的整体感知容量和细粒度理解能力。

大规模高质量具身 + 空间数据

  HY-Embodied-0.5 训练数据组成

HY-Embodied-0.5 团队希望模型能够像真实的物理智能体(Agent)一样,建立从 " 立体空间感知 " 到 " 逻辑规划执行 " 的完整认知链路。为了给模型注入真实的物理直觉,HY-Embodied-0.5 摒弃了零碎的数据堆砌,将海量基础视觉数据与高度专业的具身、空间认知数据进行了深度整合:

视觉感知

视觉感知数据系统性地为模型构筑了全方位、多维度的 " 底层视觉理解 " 能力。从宏观的二维与三维全维检测、感知物理环境的深度估计,到微观的高分辨率语义分割,乃至极具挑战的密集目标指向与精确计数。这些数据让模型不仅建立起了对复杂场景像素级的精准把控,更为后续精细化的具身物理操作奠定了坚实可靠的视觉锚定基础。

空间感知

空间感知数据系统性地注入了专为三维环境打造的 " 空间感 "。从几何深度、空间拓扑,到跨视角的物理对应,乃至严苛的绝对物理度量。这些数据让模型彻底打破了二维像素的局限,建立起了真实的立体几何直觉。

具身感知

HY-Embodied-0.5 将真实世界的物理操作数据拆解为严密的三个层级:感知、语义理解与高级规划。它涵盖了从基础的视觉锚定、可供性预测,到提取自真实机械臂第一视角的长视野动作推理与轨迹预测。通过这些数据,模型不仅学会了评估当前的任务状态,还能在包含视觉谜题和直觉物理规律的复杂场景中,精确生成下一步的动作序列。

多阶段长链推理后训练

HY-Embodied-0.5 在训练范式上致力于实现 " 从基础感知到深度思考,再到端侧部署 " 的完美闭环。也就是说,模型不仅要在海量数据中打好视觉和语言的地基,还要通过自我演化真正掌握长链条逻辑推理能力。

  HY-Embodied-0.5 训练流程

为了培养出既懂常识又具备强悍具身推理能力的模型,HY-Embodied 设计了一套多阶段、渐进式的深度训练配方。

首先,模型在海量多模态语料,以及空间和具身数据中提升自身感知能力,按照数据质量和规模分为预训练(Pre-train,超过 600B token)和中程训练(Mid-train,超过 30M 条数据)两部分,打好模型的认知地基。紧接着的监督微调(SFT)更在高质量的推理数据中激发模型的推理能力。

为了让模型在复杂的具身任务中找到最优行动策略、获得自我进化的推理能力,HY-Embodied-0.5 引入了一系列专为具身任务优化的后训练流程。

在训练过程中,先利用强化学习鼓励模型自由探索出更好的行为模式,而后引入迭代式的自我演化范式。模型通过拒绝采样微调(RFT),将模型评判出的高质量推理过程保留下来,巩固了模型的思维模式,将偶然的成功转化为可靠的能力。

更进一步,HY-Embodied-0.5 通过引入在线蒸馏策略,让端侧小模型自己先尝试输出,大模型则直接针对小模型 " 犯错的节骨眼 " 进行实时指导,将大模型的能力转移给更紧凑的端侧模型。

结语

基座模型是通向真实世界 Agent 的重要基础。

LLM Agent 在解决复杂抽象问题上已经展现出了惊人的推演能力与想象力,但我们更迫切地希望,模型能在更广阔的物理现实中大展拳脚。正如 HY-Embodied 系列模型所探索的那样,大模型的认知链路正在被成功延伸至物理实操与机器人控制中。

期待在未来,随着具身智能基座的不断演进,AI 能够真正跨越虚实边界,在真实世界中落地更广泛、更深远的应用。

GitHub:

https://github.com/Tencent-Hunyuan/HY-Embodied

Huggingface:

https://huggingface.co/tencent/HY-Embodied-0.5

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

评论
大家都在看