3D生成告别「穿模」噩梦！VASTx清华将蒙皮权重Token化，统一生成骨骼与权重，GRPO微调形变平滑

3D 模型生成容易，让它 " 动起来 " 却很难——骨骼不准、蒙皮扭曲，一动就穿模。

SkinTokens换了个思路：把连续的蒙皮权重 " 离散化 " 成一串 Token，让骨骼和蒙皮在同一个自回归框架里生成，再拿 GRPO 强化学习打磨。结果蒙皮准确率比现有方法提升近一倍，面对非常规模型也更稳了。

随着 3D 生成模型的快速发展，生成精美的 3D 静态模型变得越来越容易。但要让这些模型在游戏或动画中动起来，还需要经过一道复杂的工序——绑定（Rigging），这包含生成骨骼（Skeleton）和绘制蒙皮权重（Skinning）。

在传统的自动化管线中，现有的 AI 绑定算法往往将 " 骨骼生成 " 和 " 蒙皮预测 " 拆分为两个孤立的模型。这导致生成的骨骼缺乏对表面蒙皮形变的感知，而预测蒙皮时又只能基于固定的骨架去推算。当模型进行较大动作时，经常会出现体积塌陷、穿模拉扯等问题，难以达到实际动画生产线的要求。

近期，一项名为SkinTokens的研究提出了一种新思路。该工作将连续的蒙皮权重预测转化为 " 离散 Token 生成 " 问题，构建了统一的自回归生成框架TokenRig。此外，研究还引入了GRPO 强化学习算法进行模型优化，显著提升了 AI 自动绑定的精度，使其能够更好地服务于实际的动画生产。

△ 上图展示了 SkinTokens 如何将静态的 3D 模型一键转化为高质量、可直接驱动的动画资产核心痛点：传统 AI 蒙皮算法的局限

在动画管线中，蒙皮权重（Skinning Weights）决定了骨骼在运动时，模型表面的顶点该跟随哪个骨骼移动以及移动的比例。这是一个处于 0 到 1 之间的连续值。

以往的 AI 算法试图通过高维回归（如基于图神经网络）直接预测这个矩阵。但高维连续空间较为庞大，AI 难以准确学习这种高度稀疏又关键的权重分布。结果往往是预测出的蒙皮权重边界模糊，绑定到动画后，模型的关节处（如手肘、膝盖）容易发生不自然的扭曲和折叠，难以满足实际动画蒙皮绘制的标准。

解决思路：SkinTokens ——将蒙皮离散化

针对连续回归的难点，研究团队提出了一种新方法：将蒙皮权重离散化（Tokenize）。

这是SkinTokens的核心机制：

1. 采用有限标量量化变分自编码器（FSQ-CVAE）进行训练。

2. 将原本庞大、连续且稀疏的蒙皮权重矩阵，压缩为一小段离散的 Token 序列。

3. 通过这一步，传统的 " 高维连续回归 " 任务被转化为了类似语言模型的 " 序列预测 " 问题。

△ t-SNE 可视化结果显示，SkinTokens 能够有效地在离散潜空间中捕捉并聚类不同的蒙皮权重分布特征 TokenRig：骨骼与蒙皮的统一自回归框架

基于 SkinTokens 这种离散表达，研究团队进一步提出了统一自回归（Autoregressive）框架TokenRig。

在 TokenRig 中，骨骼和蒙皮不再是独立的模块，整个绑定过程被建模为一个序列生成过程：前半部分为骨架的拓扑结构和位置（Skeleton Sequence），后半部分为对应的蒙皮权重（SkinTokens）。

二者在同一个 Transformer 模型中进行顺序生成，使模型能够更好地理解 " 骨骼位置 " 与 " 皮肤形变 " 之间的关联。这种统一建模方式提升了生成的骨架与表面几何的契合度，为生成高质量的动画资产提供了技术保障。实验数据显示，SkinTokens 使蒙皮准确率相比现有方法提升了98%～133%。

强化学习微调：引入 GRPO 增强泛化能力

在强化学习领域，GRPO（Group Relative Policy Optimization）算法近期在推理大模型中表现出色。TokenRig 同样引入了该强化学习算法来进行模型的自我迭代与完善。

由于包含高质量 " 骨骼 + 蒙皮 " 标注的 3D 数据集相对稀缺，仅依靠监督学习的模型在面对非常规的 " 野生模型 "（Out-of-Distribution assets）时容易出现偏差。为此，研究团队设计了四项奖励函数（Reward Functions）：

体积关节覆盖率（Volumetric Joint Coverage）

骨骼 - 网格包围度（Bone-Mesh Containment）

蒙皮覆盖率与稀疏度（Skinning Coverage and Sparsity）

形变平滑度（Deformation Smoothness）

借助这些基于几何与物理规则的奖励函数，TokenRig 使用 GRPO 在无标注的 3D 数据集上进行了自我完善。经过强化学习微调后，TokenRig 的骨骼预测性能提升了17%～22%，在面对复杂或非常规的 3D 资产时表现出了更强的泛化能力，其形变也更为平滑自然。

△ 经过 GRPO 强化学习后，模型在未见过的复杂资产上表现出了更好的泛化性和更自然的形变结语：助力 3D 动画自动生产

长期以来，3D 内容的生成与实际动画驱动之间存在着断层。自动绑定和蒙皮质量往往成为阻碍 AI 生成模型落地的一大瓶颈。

SkinTokens 与 TokenRig 框架通过 " 蒙皮 Token 化 "、统一自回归生成以及强化学习等技术手段，提升了 AI 自动化绑定的准确性和稳定性，使其具备了高保真、抗扭曲且可直接用于动画生产的潜力。这一工作为 3D 创作者和游戏开发者优化工作流提供了一种有价值的新方案。

了解更多技术细节与动画演示，可访问项目。

主页：

https://zjp-shadow.github.io/works/SkinTokens/

代码：

https://github.com/VAST-AI-Research/SkinTokens

Demo：

https://huggingface.co/spaces/VAST-AI/SkinTokens

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签