树莓派上流畅运行大模型！让终端具备自主学习与记忆能力

2022 年初，彼时 OpenAI 还未发布 ChatGPT，RockAI 就已经选择押注非 Transformer路线。

这一在当时看来非主流的选择，如今正逐渐显现出前瞻性。

他们打造的端侧大模型已经可以在树莓派这样的微型设备上流畅运行，首批搭载 Yan 架构大模型的具身智能机器人也已经面世。

当下 AI 算力竞赛愈演愈烈之际，他们的" 低算力 "" 群体智能 "之路正在获得更多关注。

本期「大模型创新架构」主题访谈，量子位邀请到RockAI CEO 刘凡平，聊聊他们选择非 Transformer 架构路线背后的故事，以及通过架构及算法创新实现 AGI 的技术愿景。

△RockAI CEO 刘凡平

以下为量子位与RockAI CEO 刘凡平的对话实录整理：

非 Transformer 逆势选择

量子位：介绍一下 RockAI 的创立背景吧，当时为什么选择做非 Transformer 架构？

刘凡平：RockAI 成立的工商登记的时间是 2023 年 6 月，但其实我们很多年前就在做这些事情了，当时 ChatGPT 还没有火。

我最早在 2016、2017 年研究 Attention 机制时就认识到 Transformer 存在很多问题。2022 年初创业时，我们就坚定走非 Transformer 路线，主要是因为意识到 Transformer又耗算力又耗数据。

在此之前，我们其实也探索过 Transformer 架构的优化方向，做了线性 Attention 等改进，但发现这些都没有解决根本问题，所以索性放弃，直接走非 Transformer这条路。

量子位：当时设想的应用场景是什么？

刘凡平：最初做的其实是搜索引擎，当时我们的搜索引擎是 " 所搜即所得 "，能够直接给出答案，而不是给一堆网页链接。这有点像现在的Kimi或Perplexity那种模式，但我们当时做得很早。

那时候就发现 Transformer 满足不了我们的需求，首先是幻觉问题非常严重，另外我们希望 AI 能实现个性化的自主学习和记忆，这两点都是当时 Transformer 基本上做不到的，甚至到现在都无法做到。

量子位：为什么从做搜索引擎转变成现在做端侧 AI 和群体智能？

刘凡平：其实是很自然的选择和转变。搜索引擎帮助用户获得信息，但它对用户的了解比较浅，只能通过用户的 query、点击链接和我们给的结果来了解用户。

这种方式对记忆和自主学习的影响偏小，仅停留在传统机器学习的用户画像这个很浅的层面。我们想走得更远，让 AI 与用户之间产生更多粘性，所以想到让设备走进来。

我们当时判断 AGI（通用人工智能）会和设备有强关联，而不仅仅是互联网的模式。搜索引擎只是通往 AGI 的一个工具，并没有成为基建，而人工智能要成为基建，就一定要和设备关联起来。

其实 2022 年底 GPT 火了之后，很多人不理解我们为什么要做非 Transformer 架构大模型。甚至到 2023 年，很多人都不太理解，现在随着越来越多人看到了 Transformer 之外的可能性，大家开始慢慢理解了。

量子位：能不能介绍一下什么是群体智能？

刘凡平：我们对群体智能有一个定义，具备自主学习的若干智能单元，通过环境感知、自我组织、互动协作共同解决复杂问题，并在不断变化的环境中实现整体智能提升。我们还定义了群体智能的四个阶段：

第一阶段是创新性基础架构，摒弃传统架构、研发低算力需求的创新架构和算法。

第二阶段是多元化硬件生态，构建跨平台、低功耗、多模态兼容的模型，实现在各类终端设备的灵活部署。

第三阶段是自适应智能进化，赋予智能单元自主学习能力，建立持续进化体系，实现自我优化和迭代。

第四阶段是协同化群体智能，构建智能单元间的高效信息交换与协作机制，形成既独立又整体的智能生态系统。

整个过程我们希望是从互联网模式走向物理世界的，让物理世界的每一种交互都成为数据，而这种数据能更了解用户，同时 AI 对数据的学习也能反馈到用户身上，我们认为这才是最有价值的。

△RockAI 群体智能发展理念 MCSD 与类脑激活

量子位：能不能介绍一下 Yan 架构大模型的核心技术 MCSD？

刘凡平：其实 MCSD 只是我们模型的一个模块，这个模块降低了时间复杂度和空间复杂度。

举个例子，Transformer 中的 Attention 机制就像燃油汽车的发动机，是最核心的部分。现在很多人在优化它，相当于把发动机从自然吸气变成涡轮增压，但无论怎么改，它就是一个燃油发动机。

我们的 MCSD 相当于把它变成了新能源汽车的电机。Attention 机制建立了一个大矩阵去计算 token 与 token 之间的关联关系，时间复杂度是O ( n ² ) ，性能损耗非常大。

而我们的 MCSD 可以通俗理解为，对输入内容中的 token 进行动态的增强和衰减。

比如我想预测 " 今天北京的温度是多少 " 这个句子的下一个 token 是什么，是问号还是句号。其中的 " 今天 " 两个字对后面用问号还是句号影响很小，所以对它进行衰减；而 " 多少 " 对下一个 token 影响比较大，所以进行增强。

这个过程只需要算一次，就把计算复杂度从O ( n ² ) 降为了O ( n ) ，推理就更快，基本上做到一个稳定常量级的推理。

△《MCSD: An Efficient Language Model with Diverse Fusion》论文

量子位：除了 MCSD，Yan 架构大模型还有什么核心技术？

刘凡平：我们还提出了类脑激活机制，它是在 MCSD 基础上扩展的横向内容。这个类脑激活机制我们内部称为" 动态神经元选择驱动算法 "。

人的大脑是动态激活的。开车时，视觉皮层被大量激活；休息时，视觉皮层被抑制；考试时，逻辑区被激活；回忆问题时，记忆区被激活。而传统 Transformer 架构，哪怕算 1+1，所有神经元都会参与运算，这是非常不合理的。

MoE（混合专家模型）虽然减少了参与计算的参数，但它在模型初始化前就定义好了分支数量，并不是真正动态激活的。我们的做法是，当用户输入 query 时，会动态组建一个神经网络，这个网络是根据需要临时建立的，不是预设好的。

形象地说，MoE 相当于在河上提前修好五座桥，用户来了后选择一座过河；而我们是没有现成的桥，只提供一堆工具（神经元），用户需要过河时，这些工具动态地创建出一座桥，问题解决后这个桥就消失了。

△MCSD 与类脑激活机制示意

量子位：这种计算复杂度为 O ( n ) 的模型能在现实中提供什么新的可能性？

刘凡平：最典型的是设备端应用。很多设备厂商找我们，是因为我们的模型能在他们设备上跑起来。Transformer 架构如果要在骁龙 6 的手机上运行，参数量需要降得很低，而我们可以直接运行。

像树莓派这样的低端设备，我们也能运行起来，这对物联网设备很重要。还有无人机、具身智能机器人等，如果它们需要联网才能对话，那用户体验是很糟糕的。我们能让模型部署在设备上，实现离线智能，这是非常大的优势。

量子位：计算复杂度的下降和模型性能的提升可以兼得吗？

刘凡平：我认为是可以的。这不是拍脑袋的感觉，而是基于两方面原因：

一是我们做了很多实验，发现标准 Attention 机制的 O ( n ² ) 计算复杂度有部分是浪费算力的；二是从脑科学角度看，即使是神经元很少的简单生物，也能拥有一定的智能。

我们认为关键是底层算法的问题。我们不仅在做架构创新，还有基础算法的创新。如辛顿所说，反向传播算法本身也存在问题。要进一步发展人工智能，底层算法必须要做大量创新。

底层算法决定了上层架构，底层算法如果不行，架构层的创新就会越来越有限。

训推同步与端侧革命

量子位：能不能描绘一下群体智能最终的场景是什么样子？

刘凡平：人类社会的发展一定会伴随着新设备的产生，未来可能每个人都会有一个新的设备，这个设备可能不再是手机，因为手机的场景有限。

这个设备会是什么样现在不清楚，但我认为它更多会在物理世界帮助你，且不一定是机器人形式。会帮你解决日常生活中的绝大部分问题，具有高度隐私性，完全忠于你且不会泄露隐私。

更重要的是，这些设备具备自主学习能力。比如你告诉它做个蛋炒饭，它暂时还不会做，但它会在物理世界中自己学习怎么做。设备之间也会相互关联，在人类社会之外，还有人与机器的社会、机器与机器的社会。

不过这不是说硅基生命会产生，而是服务人类社会的过程。我是个务实主义者，不会幻想非常科幻的场景。未来社会只要人存在，就是为人服务的社会，没那么科幻，但一定会让人更简单、更高效地思考和行动。

量子位：目前我们是在群体智能四个阶段里的哪个阶段？

刘凡平：第一个阶段" 创新性基础架构 "已经完全实现。第二个阶段" 多元化硬件生态 "要兼容非常广泛的设备，我们也已经做到了。

现在正迈向第三个阶段" 自适应智能进化 "。因为自主学习和记忆技术还没有正式对外发布，一旦具备后，我们就完全进入第三阶段。第四阶段是" 协同化群体智能 "阶段，所以目前我们处于第二阶段向第三阶段过渡的阶段。

量子位：第三阶段自适应智能进化的门槛是什么，最大挑战是什么？

刘凡平：" 自适应智能进化 " 的两个关键门槛是自主学习和记忆能力。最大挑战是" 训推同步 "，即训练和推理同步进行。

这个挑战非常高，不是说 DeepSeek 或是 OpenAI 就可以轻易做到的。他们做的其实更多还是对 Transformer 的优化，而训推同步在行业内都没有人做过。

Google 最近发表了一篇《Titans: Learning to Memorize at Test Time》的论文，也算是记忆能力的一种探索，但还不够，而我们已经在实施自主学习与记忆能力的路上。

△《Titans: Learning to Memorize at Test Time》论文

我们的技术规划有两个方面：一是从架构层面，通过类脑激活机制改进在记忆过程中让每个神经元能记的东西更多；二是基础算法创新，特别是优化反向传播算法。

推理现在看起来容易，一台 GPU 设备就能完成，但训练却很难，主要是因为反向传播算法。如果训练和推理算法要求都很低，那么就可以在终端设备上直接做训练推理同步，直接从物理世界交互获得数据进行训练，这是理想状态。

量子位：预计第三阶段自适应智能进化和第四阶段协同化群体智能会在多久后实现？

刘凡平：第三阶段我们预计在未来一到两年内实现，不会特别久。

我们内部已经看到了一些效果，去年 6 月份世界人工智能大会上我们对外演示过这个能力，但那还属于实验室版本，没有商用。

第四阶段 " 协同化群体智能 " 需要的时间更长，因为它涉及设备与设备之间的通信，这方面虽然我们有很多研究，但确实还有障碍，预计 2 到 3 年后可能会看到明显进展。

△群体智能示意

量子位：要实现群体智能，不同设备上的多个模型相互协作的挑战大吗？

刘凡平：很大，这正是我们实验室团队正在研究的问题。

协同学习是很难的，它首先需要协同的机制和语言。人与人交流可以通过语言，但机器之间的交流大概率不是语言形式，因为语言交流有时间成本，且语言是具象表达，而非抽象的。

机器之间的协作一定是以更精准的方式进行，而目前我们还没找到很好的方式。我们在研究机器与机器之间的交流模式，包括神经元交换的方式。

举个例子，比如我的模型在开车时知道哪些神经元被激活，那能否把这部分神经元移植到另一个不会开车的模型上？移植后，那个模型无需训练就可以直接开车，实现能力迁移。

同样，当两个模型需要一起完成任务时，如何让它们默契配合？这需要实时同步的文本、视觉、语音的交互。

目前大模型的交互，输入和输出不是实时同步的，用户输入文本后，模型要等待完整输入完成才开始思考再输出。但人与人交流时，对方开始说话之后你同步就在思考了。

量子位：这与传统人与智能音箱的那种交互有何本质区别？

刘凡平：传统智能音箱是单向指令型交互，比如让小度播放音乐，它就播放。我们的模式是，当你刚说 " 帮我播一首 "，还没说到后文时，模型已经开始推理你想听谁的歌，开始理解你的意图并准备结果，这能让设备更像人而非工具。

这需要完全不同的技术实现。传统多模态模型常常是分开训练的，先训练自然语言模型，再训练音频、视频模型，然后做对齐。

而我们的方法更像教婴儿，不是先学文本再学音频再学视觉，而是同时学习，这产生的对世界的认识是完全不同的，改变了大模型的学习模式。

比如教孩子认字，当你指着字母说 " 这是 A" 时，声音和视觉是同步输入给他的。重复几次孩子很快就能认出字母。实时学习不需要海量数据，只需要 few-shot，而传统大模型需要大量样本输入去学习。

当前的大模型由于架构问题和反向传播的限制，导致强依赖数据和算力。而实时模型对数据的要求会大大降低。

一个人从婴儿到大学毕业，并没有看过一万亿 token 的数据，而现在大模型训练动辄需要十几 T 的 token 来训，这显现了现有方法的缺陷。

量子位：RockAI 目前已经摆脱了对海量数据的需求吗？

刘凡平：我们摆脱了一部分，但没有彻底解决。我们希望基于自主学习和记忆能力彻底解决这个问题。

我们在人机交互方面已经取得了进展，但因为自主学习和记忆能力还未产品化应用，所以目前与其他产品的交互体验差异外部感知还不是特别明显，但路线是完全不同的。

量子位：我们目前能在哪些终端设备上实现兼容？与其他小型开源模型有什么区别？

刘凡平：对于推理的话基本上大部分终端都可以兼容，包括树莓派。对于训练，我们测试至少需要英特尔 i7以上水平的处理器。

在兼容性方面，我们应该是走在前面的，至少在2024 年 5 月前就已在树莓派上实现推理，并在 2024 年的世界人工智能大会上公开开放体验。到现在应该还没有哪家公司能做到这个程度。

我们与那些小型开源模型的区别很大。它们是通过缩减参数量来适应设备，而我们不是靠牺牲模型参数量来实现设备端训练，这样做意义不大。

△树莓派示意图

量子位：这种广泛的硬件适配会给我们生活带来什么实际改变？

刘凡平：改变会很多。尤其是自主学习和和记忆能力产品化后，它可以实现高度个性化的交互体验。与你交流的 AI 是完全个性化的，了解你的一切，能给出非常针对性的建议。不像现在的大模型问同样的问题给的回答都是类似的。

比如你是科技媒体人，有自己的写作风格，现在想让主流大模型帮你写作需要做大量 prompt 调整，但一旦端侧能够实现高度个性化后，你设备上的模型会非常了解你的风格，不需要额外调试就能按你的心意和风格写作，且非常隐私安全。

同时我们也不希望是通过长上下文结合历史对话的方式，来实现个性化，这种方式是不持久的。

再比如在家庭场景中，有多模态能力的端侧设备能学习你平时接待客人的习惯是什么，自然知道这种场景该做什么，不需要专门下指令。

它会越来越贴近你的心意，了解你，与你的粘性越来越高，这是一种完全个性化的体验，而不是所有人用同一个产品都得到相似的输出和反馈。

量子位：推理训练并行架构会是未来的大方向吗？会多大程度影响具身智能和人机交互方式？

刘凡平：我认为一定会影响，而且影响非常大。我们和国内很多代表性的具身智能机器人厂家都聊过，现在具身智能有个很大问题。

我们认为具身智能机器人陷入了恶性循环：机器卖不出去，制造成本下不来；成本下不来，机器更加卖不出去。核心在于机器没有真正的智能，卖不出好价格，无法建立正向循环降低边际成本，尤其是制造成本。

问题不是云端大模型不够好，而是云端大模型不适合具身智能厂家。真正适合具身智能的是训练和推理能同步的模型。机器人是个性化服务，具身智能厂家不可能靠预设来满足用户所有的需求。

即使硬件做得再好、再优秀，都不是用户购买的决定性因素，用户购买只会因为它的智能足够好。

几十万元一台机器人，回家只能走路，没人买。但如果能告诉它家里布局，让它做各种家务就不一样了。这些通用云端大模型做不了，因为每个家庭需求不同，每个场景不同，每个机器人也不同。

未来机器人的大脑一定会与机器人强绑定，是完全一对一关系，不像现在云端大模型与机器人是 1 对 n 关系。

这就像人类大脑，出生时相似，但越来越不同。因为每个人的生长环境、后天学习都会影响大脑决策。同样拿水的动作，不同人的大脑发出的指令一定不是完全相同的，因为大家用的不是同一具身体，大脑与身体是绑定运作的。

具身智能也一样，大脑会与机器强绑定，即使机器出厂规格相同，因每个家庭情况不同，使用方式也会不同。云端大模型无法完成这个过程，未来具身智能一定会被训练推理同步的端侧模型技术颠覆和驱动。

△Yan 架构大模型在具身智能机器人的应用

量子位：现在做训练推理并行这方面工作的公司多吗？

刘凡平：没有，现在真正做训练推理并行的只有我们一家。

量子位：目前 RockAI 已经与哪些公司建立了合作？有没有比较激动人心的落地场景可以分享？

刘凡平：具体的公司名字不方便透露，但会有 PC 厂商在产品上离线部署我们的大模型，直接量产使用。

具身智能厂商也有合作，已经有出货，他们很青睐我们模型的离线部署能力。

量子位：您觉得未来端侧和云侧模型会是怎样的关系？会一家通吃还是共存协作？

刘凡平：我认为长期来说是共存的，但云端大模型市场一定会被收窄。

我们讲的端侧大模型可能和行业内很多人的定义不同。现在很多人所谓的端侧大模型只是把 Transformer 通过量化、剪枝等技术让它能在端侧设备上运行，这没有意义。

我们认为的端侧大模型就像人的大脑一样，没有所谓云端大脑，大脑就在终端里，每个设备都拥有自己的智能，这是我们的愿景。云端大模型无法让每台设备拥有自己的智能，这是致命缺陷。

云端大模型可以解决宏观问题，比如需要超算来解决的人类社会极度复杂问题，云端大模型非常有意义。但普通人生活中的高频问题，比如让机器人做会议纪要、拿水，不需要云端大模型，云端大模型也做不到。

另外，云端大模型做不到个性化。它不可能为全球 80 亿人部署 80 亿个模型，能有 10 个模型都不错了。但当设备具备自主学习、记忆、交互能力时，才是人工智能新的突破时刻。

量子位：以后还需要云侧和端侧协同吗？还是端侧直接解决大部分问题？

刘凡平：会有协同，但不是现在理解的协同。我们的端侧大模型是去中心化的，没有中心节点，而云端大模型本身就是中心节点。

未来的端云协同可能更像人类的协同。在公司时，部门 leader 和同事们开会，此时她是中心节点，需要把自己的意思同步给其他人。回到家，父母可能会给她一些叮嘱，这时父母又成了中心节点。

这个过程里中心节点是不断变化的，不是固定唯一的，这种端云协同本质是群体思想不断对齐的过程。就像我们看电视新闻节目，也可理解为一种端云协同，给每个人同步信息让大家信息对齐。

未来端云协同不会再是现在的 " 端侧能力有限所以需要云端支持 " 这种概念。

量子位：未来 5 年 AI 发展的关键拐点将出现在哪些方面？

刘凡平：第一，我认为基础算法和架构一定会有大量改变。可能很多人不愿意相信，因为他们已经在 Transformer 上投入了大量资源。但我认为今明年基础算法和架构一定会有大变化。

第二，端侧 AI 一定会慢慢被人接受和理解，这是实现 AGI 的重要载体。对算力和数据的需求一定会下降。算力是个大坑，我不认为我们真的需要那么多的算力。

新的基础算法和端侧 AI 会被越来越多人接受。最后，5~10 年后，群体智能也会慢慢普及，其价值会远超现在靠堆算力产生的智能。

为什么？因为群体智能会加速智能社会指数级增长，就像工业革命时期的生产力突破也可以理解成是一种群体智能的突破，新的科技和工具让人与人、机器与机器的协作更高效了。

现在机器之间协作还非常弱，手机、电脑基本不存在真正的协作，只是互传文件或跨设备接电话。真正的协作是要一起解决问题，这需要群体智能来实现。

我认为未来五年社会会发生很大变化，可能需要普通人甚至专业人员付出诸多努力才能适应。现在也有类似的趋势，当前还处于缓慢爬坡阶段，以后会从爬坡变成直接上坡。

论文：https://arxiv.org/abs/2406.12230

宙世代

一起剪

相关标签