钛媒体快报 02-12
面壁智能发布基于稀疏-线性混合架构SALA训练9B模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

钛媒体 App 2 月 12 日消息,面壁智能正式发布稀疏 - 线性注意力混合架构 SALA,以及基于该架构的文本模型 MiniCPM-SALA,模型仅有 9B 参数。据介绍,MiniCPM-SALA 不使用投机采样等加速算法,在云端推理芯片上,当序列长度为 256K 词元时推理速度高达 Qwen3-8B 的 3.5 倍,并支持在云端芯片和消费级端侧 GPU 上进行高达一百万词元上下文长度的推理。(广角观察)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

芯片 钛媒体 广角 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论