颠覆自我great 9小时前
长短皆相宜
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

瞬悉与 Yan,非 Transformer 路线的 " 两极相遇 ":一篇关于长序列推理与物理世界感知的互补性分析

非 Transformer 架构的类脑智能路线,正在从 " 边缘探索 " 走向 " 主流共识 "。瞬悉(SpikingBrain)与 Yan,作为这条路线上的两个标志性成果,其技术特质显示出天然的互补性。我们可以从它们各自擅长的信息处理维度来理解这种互补。

一、瞬悉:为 " 长序列推理 " 而生的国家级底座

瞬悉系列由中国科学院自动化研究所李国齐团队研发,其技术定位非常清晰:以 " 内生复杂性 " 替代 " 外生复杂性 ",通过借鉴大脑神经元脉冲驱动机制,实现超长序列的高效处理

根据中科院公开的技术参数,瞬悉 1.0 的核心突破在于:

超长序列处理能力:基于线性复杂度的架构,在 400 万 token 的超长序列下,首 token 生成速度相比 Transformer 架构提升超过 100 倍。这使得它在处理法律 / 医学文档、高能物理实验数据、DNA 序列等长文本场景中具备显著优势。

极致的数据效率与低功耗:仅需约主流模型2% 的预训练数据量,即可在多项语言理解任务中达到与开源 Transformer 模型相当的性能。通过动态阈值脉冲化策略,实现了超过 69% 的稀疏度,为低功耗运行提供了基础。

瞬悉 2.0 进一步强化了这些优势:在 400 万 token 长度下实现10.13 倍的首 Token 生成加速;训练数据量从 150B 降至14B,成本降低10 倍以上;模拟显示,其方案可使神经形态芯片面积减小 70.6%,功耗降低 48%。瞬悉的核心能力,本质上是对复杂符号系统与长序列逻辑关系的高效建模。

二、Yan 大模型:扎根于 " 物理世界信号 " 的端侧智能

与瞬悉的 " 国家级底座 " 定位不同,Yan 大模型由岩山科技旗下岩芯数智团队自研,它的能力偏向 " 端侧 " 与 " 物理世界 "。Yan 架构是国内首个非 Transformer、非 Attention 机制的备案大模型,核心采用类脑激活机制MCSD 模块,替代 Transformer 中的注意力机制。

Yan 的技术路线强调:

原生记忆与自主学习:Yan 2.0 Preview 新增 " 记忆模块 ",使模型能够在端侧持续学习并自主优化,实现 " 训推同步 "。这使它区别于只能进行静态推理的传统模型。

端侧部署与离线运行:Yan 模型可在树莓派、无人机、机器人、PC、手机等低算力设备上离线运行,秒级实时响应,不依赖云端算力。它已在乐聚机器人上验证了 " 离线理解模糊指令并驱动机器人运控系统 " 的能力。

贴近物理世界的信号处理:Yan 的设计初衷,正是让 AI" 走向物理世界 ",在真实的、实时的交互中学习和决策,而非被动处理整理好的 " 二手数据 "。

Yan 的核心能力,是对物理世界的第一手信号(传感器数据、实时交互、非结构化环境) 进行快速、低功耗的感知与响应。

三、天然互补:长序列推理 × 物理世界信号

瞬悉与 Yan 的能力差异,不是 " 优劣 ",而是层级的互补

长序列逻辑推理:处理复杂文档、多轮对话、长上下文理解

物理世界信号处理:实时传感器数据、离线决策、环境交互

符号化的 " 二手信息 " 与长序列知识

物理世界 " 一手信号 "(传感器、脑电波、路况)

信息密度高、序列长度大

数据维度多、实时性强

超长序列加速(400 万 token + 100 倍 +)

毫瓦级功耗、端侧离线运行、实时自主学习

正如 RockAI CEO 刘凡平在技术分享中指出,当前大模型 " 需要从物理世界获得海量数据,然后让更大的算力训练它 ",这种做法 " 不太合理 ",而 " 让模型走向现实世界 " 才是根本方向。Yan 承担了 " 走向世界 " 的任务,而瞬悉则为这个世界模型提供了 " 处理复杂背景知识 " 的底座。

2026 年 4 月 28 日,岩思类脑与 " 通用类脑智能大模型北京市重点实验室 "(李国齐团队)签署战略合作协议,双方将 " 重点推动类脑大模型与神经仿真平台的构建 ",并与现有脑电解码、睡眠干预等技术结合。当瞬悉的 " 长序列推理 " 能力与 Yan 的 " 物理世界感知 " 能力融合时,它们共同构成的将是一个既有深度又有广度的类脑智能体系。

四、结论:非 Transformer 路线的 " 两极相遇 "

Yan 与瞬悉的融合,不是简单的 " 技术叠加 ",而是非 Transformer 路线在 " 物理世界信号 " 与 " 长序列逻辑 " 两个维度上的同时突破

这种融合恰好解决了当前大模型的两个核心痛点:

Transformer 无法走向物理世界:它只能在 " 二手信息 " 中推理,对实时交互和环境理解存在结构性缺陷。

Transformer 无法高效处理超长序列:O ( n ² ) 复杂度构成资源消耗的主要瓶颈。

当 Yan 的 " 端侧实时感知 " 与瞬悉的 " 超长序列推理 " 在同一技术体系内实现协同,其能力将覆盖从 " 最贴近物理世界的基本信号处理 " 到 " 最复杂的长序列逻辑分析 " 的完整光谱。这种互补性,或许正是非 Transformer 路线走向成熟的重要一步。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论