林俊旸的新公司，卖的可能不是模型，而是“想象力”

文 | 字母 AI

前通义千问负责人林俊旸在 5 月成立的新公司，连名字都还没起，只知道研究的是世界模型和具身智能，估值就已经到 20 亿美元了，还拿到了腾讯 2000 万美元的投资。

此前有人根据林俊旸的推文推断，说他现在做的是 " 预测 "，Next State Prediction，也就是预测下一帧会发生什么。

这句话没说错，然而说了等于没说。

为什么呢？因为现在所有大模型都是在预测，预测下一个 token 的内容是什么。

而且如果只是状态的预测，那 OpenAI 的视频生成模型 Sora，它其实干的也是预测各个事物的物理状态，你再开一家公司去干相同的事情，完全没有意义。

我认为，林俊旸想要卖的是一套更深的东西——想象力。

AI 在行动之前，把事情在脑子里过一遍。

我给你举个例子，我让机器人去举起一个水杯，它会在脑子里想 " 这水杯的摩擦力是如何，我的机器手臂会不会打滑？"、" 这小子是不是坑我，水杯有可能是带电的，我碰一下把我给电坏了咋办 "、" 万一我把水杯给摔了，把我卖了够不够赔的？"

把所有可能都想好，再去行动，整个过程，就叫做 " 想象力 "。

你别不信，听我慢慢给你讲。

林俊旸的拼图

我们先从最基本的开始说起。

林俊旸参与过的研究非常多，最知名的肯定是 M6。

M6 的全称是 Multi-Modality to Multi-Modality Multitask Mega-transformer，翻译过来是从多模态到多模态，多任务，巨型 Transformer。

M6 的核心，是把所有模态、所有任务，都塞进同一个大模型框架里。让模型不仅能处理纯文本、纯图像的单模态任务，也能处理跨模态任务，还能做文本引导的图像生成。

M6 是 " 想象力 " 的起点，物理世界本身很复杂，有文字、图像、声音、空间位置、物体状态、动作过程和结果反馈。AI 想要去理解这个世界，第一步就是把这些不同类型的信息放进同一个模型里处理。

林俊旸很早关心的就不是单个任务，而是如何把不同来源、不同形态的经验统一成模型可学习的格式。

光有框架还不够，你还得让模型能明白。所以就有了 Qwen 和 Qwen-VL。

Qwen 我们都很熟悉了，它可以写代码、调用 API、使用工具，把一个目标拆成多步行动，并根据工具返回的结果继续调整下一步。

也就是说，Qwen 让模型有了比较清楚的行动流程：先理解目标，再选择手段，再执行，再看反馈。

到了，Qwen-VL，它让 AI 的眼睛不只是看，还能指。看图说话大家都会，但 Qwen-VL 还能做 grounding，把图片里的物体框出来，读图上的文字，回答 " 图中右下角的红色杯子在哪个位置 " 这种问题。

这两篇放在一起看，Qwen-VL 让模型知道物体在哪，Qwen 让模型知道怎么动手。

相当于是让模型从观众席，走到了赛场上。

2026 年春节前后，林俊旸参与了一篇论文，名为 WebWorld。这篇论文讲的是造一个假的网页世界，让 Agent 在里面练手。

它用超过一百万条真实网页交互数据训练了一个网页模拟器，能支撑三十步以上的长序列模拟，支持推理、多格式数据。

在当时，WebWorld 的模拟质量已经能跟 Gemini-3-Pro 打平。并且用 WebWorld 合成数据训练的 Qwen3-14B，在 WebArena 上直接涨了 9.2%，性能追上了 GPT-4o。

而且这套模拟能力还能跨领域泛化，代码、GUI、游戏环境都适用。

为什么要造模拟世界？因为真实世界太慢了。网页有加载延迟、有访问频率限制、有风控拦截。你让 Agent 在真实网页上试错一千次，可能八百次都卡在网络延迟上，剩下两百次还有一半被当成爬虫封了。

训练本身需要的是大量多样化的交互经验。既然如此那就在模型内部再造一个世界。Agent 在这个虚假世界里怎么摔跟头都行，零成本，零风险。

这就是 " 想象力 " 的本质，我是为了要降低后续的风险成本，所以我现在才让机器人 " 大脑 " 内进行模拟训练，训练好了以后才能少给我闯祸。

模式有了，那我该让机器人在脑内训练什么呢？VideoAgentTrek。它做的是从人类操作视频里，自动挖出 Agent 可以学习的操作轨迹。

VideoAgentTrek 从 YouTube 上扒了三万九千个屏幕录制的教程视频，全是无标注的原始视频，然后自动解析出了一百五十多万条 GUI 交互步骤。

这篇论文颠倒了整个认知逻辑。一般人看到教程，想到的是 " 我跟着学 "。林俊旸看到的是训练数据。

教程视频里藏着最精准的操作轨迹，鼠标从哪移到哪、点了什么按钮、打了什么字，全是现成的标注。他想的是怎么把这种 " 人演示给机器看 " 的视频，逆向拆成 " 机器能学的经验 "。

这个思路一旦成立，数据就取之不竭。每天有无数人在网上录教程，每一个教程都是一条隐形的训练轨迹。

说句题外话，这篇论文还有个非常有意思的地方，那就是林俊旸（Junyang Lin）和香港大学的杨俊霖（Junlin Yang）一起出现在了作者的位置。

再然后，就到了 CUA-Gym。

如果你让一个 Agent 在模拟世界里做一百次尝试，但是没有人告诉它哪次对哪次错，那这一百次就等于白做。CUA-Gym 做的事情就是自动安插一个裁判，自动出题，自动批卷。

想象力如果没有像代码那样可以被验证的奖励信号，那就是纯消耗算力。只有有了裁判、有了分数、有了回放，模拟里跑过的每一步才真正算数。要想把 " 想象力 " 放进现实里去，就得有答案、反馈和复盘的系统。

最后，或者说一切的一切，都要落到 " 执行 " 二字。因此来到了 Qwen-VLA 和 Qwen-RobotWorld。这两篇论文是物理世界的双生子。

Qwen-VLA 做了一件事，它在 Qwen 的基础上加了一个 DiT 架构的动作解码器，把文本、图像的理解直接输出为连续的动作轨迹。

为了支持不同形态的机器人，它引入了一个机器人描述符机制，换一个身体就换一个描述文本，同一套大脑不变。效果很猛，LIBERO 上 97.9%，Simpler-WidowX 上 73.7%，真实世界的 ALOHA 实验中 76.9% 的跨分布泛化。

Qwen-RobotWorld 则是另一个维度，它训练了一个语言条件视频世界模型，通过 860 万条视频文本数据，两亿多帧画面，涵盖二十多种机器人和五百多种动作类型。

这个模型能根据当前观察和一句指令，预测未来会发生什么画面，在 EWMBench 和 DreamGen Bench 上都排到了第一。

所有研究成果连起来看，" 想象力 " 从理念到执行，实现了完整的闭环，一环扣一环。

李飞飞和杨立昆

如果只拿林俊旸的研究来说事，可能有些站不住脚。但是如果把李飞飞和杨立昆也拉进来，你就发现一切成立了，每个人做出来的世界模型，本质上都是他们一生研究成果的终极大融合。

先说 AI 教母李飞飞，她从 ImageNet 起家，她从那时候起研究的就是 "AI 如何看见世界 "。

ImageNet 让机器学会了辨认物体，之后的二十年她都在往更深处挖，从识别走向理解，从理解走向生成，从二维走向三维。

她创立的 World Labs，首款产品叫 Marble，能让用户从文字、图片或视频直接生成可进入的三维场景。她的世界模型本质上卖的是一样东西，空间。一个 AI 可以感知、生成、编辑、交互的三维世界。

她把这个方向叫 " 空间智能 "，说它是语言智能之后的下一个前沿。World Labs 在 2025 年 11 月推出 Marble，2026 年 2 月估值已经冲到 50 亿美元，也融了 10 亿美元。

杨立昆也是做世界模型的，但是他的世界模型和李飞飞的世界模型是根本上的两个物种，究其原因是他俩的研究方向不同。

杨立昆从自监督学习出发的，他的核心执念是让 AI 不靠海量标注数据，像人一样通过观察来理解世界。他的 JEPA 架构不生成像素，转而在潜空间里预测世界的抽象状态变化。

V-JEPA 2 用了一百万小时互联网视频做预训练，然后加上不到 62 小时的机器人视频，就能让 Franka 机械臂在零样本条件下完成拾取放置。

2026 年 3 月，杨立昆发布了世界模型 LeWorldModel，把端到端的 JEPA 稳定训练做到了只用两个损失项，一千五百万参数在一张 GPU 上跑几个小时就能做规划。

杨立昆的世界模型卖的是基于逻辑推演的认知结构。他要让 AI 在潜空间里理解世界如何演化，不靠背语言、不靠记模式。他对世界模型的理解就成了 "AI 怎么理解看见的东西 "。

比如这有一把椅子，它不能凭空出现，它得立在地面上才站得住。那么通过椅子的质量，就能推演出地面给了多少支撑力。

所以，这也是为什么我觉得，" 想象力 " 比 " 世界模型 " 更接近林俊旸这家公司的真实命题。世界模型只是工具，真正值钱的，是让机器少用现实犯错的能力。

宙世代

一起剪

相关标签