能效翻5倍！他们复刻人脑双记忆通路，造出能长效记住上下文的类脑AI芯片

当你对手机说 " 帮我设一个明天早上 6 点的闹钟 "，它听懂并设置了一个新闹钟。接着，你又说 " 改成 7 点半吧 "，假如这个设备用的是普通 AI，它可能就会懵掉，因为它不记得你刚才说的是 " 闹钟 "，它可能只听到了 " 改成 7 点半 "。

这个例子反映了 AI 在处理连续信息时的一个软肋，它要么是很短视，只听到了眼前的某一句话；要么就是很费电，必须使用大量算力强行地记住上下文。而且，这个问题在需要处理声音、手势和动作这类随时间变化的信息时显得尤其突出。

帝国理工学院博士后孙鹏飞和苏黎世联邦理工博士后苏哲，以及合作者，从人类大脑皮层里找到了一个解法。他们两人在瑞士苏黎世联邦理工和苏黎世大学神经信息所相识，之后他们合作了这一课题探索，他们发现大脑在处理信息的时候，并非依靠一个统一的速度。

图 | 左起；孙鹏飞、苏哲（来源：资料图）

具体来说：大脑的前额叶皮层处理信息较慢，故能承担起整合长期上下文的责任；大脑的初级感官皮层处理信息较快，故能负责捕捉当下的刺激。正是这种快慢节奏的搭配，让大脑既可以及时响应，又可以记住上下文。

他们把这种机制做成一个名为 " 双重记忆路径 " 的类脑网络，并设计了一款配套的芯片，这颗芯片在处理语音识别任务的时候，能效比此前最好方案高出 5 倍之多。其实他们等于把一项从大脑偷师的技术推到了可以装进芯片的地步，让 AI 不需要太长的上下文也能听说你说的话。

（来源：《自然 · 机器智能》）

孙鹏飞目前在帝国理工学院继续博士后研究，苏哲则加入了美国波士顿的一家芯片公司。近日，他们这一成果的相关论文发表在《自然 · 机器智能》上。

正如文章开头的例子，当下的 AI 在处理时间信息时存在一个 Bug。那就是现在的 AI 处理一张图片非常厉害，比如在著名的看猫实验里，给 AI 看一万张猫的照片，AI 就能学会认猫。然而，处理一段声音或者一段视频就大不一样，声音是一秒一秒地流过来的，上一秒的声音可能会影响下一秒的理解，AI 必须得记住 " 刚才发生了什么 "，才能理解 " 现在到底发生了什么 "。

孙鹏飞和苏哲从大脑里找到了解决上述问题的灵感。人类大脑皮层里不同区域的神经元有不同的时间常数，有些区域处理信息较快，对当下的刺激反应十分迅速；有些区域处理得很慢，故能整合过去几秒甚至更长时间的信息。正是这种快慢分区让大脑不仅可以及时响应环境变化，又能保持对于上下文的感知。

他们在类脑网络的每一层里都加了一个共享的小型慢速记忆模块，这个模块利用一个很低维度的状态向量来概括过去一段时间的信息。低维度意味着它的体积很小，只需占用很少的存储和计算资源。这个状态向量能够通过网络内部的连接反馈给该层的所有神经元，给它们提供 " 刚才到底发生了什么 " 的上下文信息。

这一思路也体现了两位博士对 AI 系统的理解：神经网络模块应当是异构的，对应的部署硬件也应是异构融合的。而为了进一步提升能效，他们还主张将记忆与计算相分离——让记忆模块专注于存储和维持上下文，让计算模块专注于处理当前输入，两者各自独立优化，避免了相互干扰和资源争抢，也使得整体架构更加精简高效。

尽管这个记忆模块的大小只占整个网络参数的 5%-10%，但是效果很出色，在那些需要处理长时程信息的基准测试里，这套网络的准确率从 10% 提升到了 90% 以上。在顺序 MNIST 数据集上，它更是达到 99% 的准确率，比此前最好的同类模型高了将近 30%。

这个架构还有另外一个关键优势，由于记忆模块是共享的，所以它的开销不会随着神经元数量线性增长，这样一来网络越做越大，这个优势就更加明显。在参数量相同的情况之下，双重记忆路径网络在准确率上明显优于传统的循环网络和延时网络。

那么，算法设计好了，硬件该怎么办？类脑计算一直存在这样一个尴尬，那就是算法上的创新往往不考虑硬件能不能跑得动。一些论文固然可以发表出来，但是人们会发现一些精巧的设计在芯片上要么是太耗电，要么是太占面积，以至于只能停留在仿真阶段。

孙鹏飞和苏哲则从一开始就在考虑硬件实现问题，他们在设计算法的时候就在思考：这个记忆模块在芯片上应该怎么存？怎么读？怎么算？苏哲在博士期间研究的就是类脑芯片设计，正是这个背景让他在算法和硬件之间充当了翻译的角色。

基于此他们在算法层面做了几件事来降低硬件开销：

首先，既然记忆模块很小，那么就可以放在芯片的片上存储里，无需频繁访问外部内存；

其次，记忆更新和记忆读取可以开展并行处理，不用花时间排队等待；

再次，让稀疏的脉冲计算和密集的矩阵计算分别采用不同的数据流优化策略策略，让它们自己进行各自优化。

这些设计选择也反映在了芯片架构上，他们研发的芯片采用了近存计算架构，将计算单元和存储单元放得很近，借此减少了数据搬运的距离。在芯片内部存在四条并行的计算路径，分别负责处理脉冲积分、记忆读取、记忆更新和输出，与此同时这四条路径可以同时工作，不用互相地等待。

他们把芯片在 22 纳米工艺上完成了后布局仿真，结果显示这套方案在处理语音识别任务的时候，能效要比同类最好的设计高出 5 倍以上，吞吐量高出 4 倍，面积效率也比循环网络架构高出了 1 倍，原因在于省去了存储循环权重矩阵的空间。

这些数字意味着对于需要长时间连续工作的设备来说，比如智能手表、AR 眼镜和助听器等，只需能效提升 5 倍就能让电池寿命延长数倍之高。对于需要实时响应的场景来说，比如语音助手和手势控制，吞吐量提升 4 倍意味着更短的延迟和更加流畅的体验。

这个芯片架构还有另外一个优势就是不依赖于底层物理实现。不仅可以做到像文章中介绍的直接在特定工艺下实现优化策略以做到效率最大化，还可以把整套优化策略放在编译器层次实现再映射到传统计算芯片上。

但是这篇论文的意义不只在能效上，它其实是展示了一种更根本的思路，那就是算法的设计从一开始就要考虑硬件的限制。而硬件的设计也要能够适配算法的特点，两者实际上是互相塑造的关系。

硬件的限制乍一看是个麻烦，但其实可以推动智能的产生，我们的大脑本身就是在各种约束下进化出来的。我们大脑的能量预算只有二十瓦左右，但却可以完成超级计算机都做不到的事情，可以说正是因为能量有限，大脑才进化出了一些高效的编码方式。

据了解，本次研究的工作还在继续，孙鹏飞未来会继续探索 " 将时间作为一种计算资源 "，研究轴突延迟、系统级异构网络融合及其与异构硬件的适配。苏哲在新公司里也在继续研究异构 AI 系统，类脑计算是其中一个重要的方向。目前，该工作已引起多家美国芯片公司的兴趣。

同时，这篇论文的全部代码和硬件设计已经全部开源，其他同行可以在此基础上继续改进，也可以把它集成到更大的系统之中。这一做法在类脑计算领域并不常见，之前大多数工作只公开算法，硬件设计往往留在实验室里面。对于个人未来发展，孙鹏飞和苏哲对学术圈和工业界也报以开放态度，渴望与优秀的同行共事，均表示并不排斥可能的创业机会。

参考资料：

相关论文 https://www.nature.com/articles/s42256-026-01255-3

运营 / 排版：何晨龙

注：封面 / 首图由 AI 辅助生成

宙世代

一起剪

相关标签