IT之家 05-13
研究人员推出 xLSTM 神经网络架构,可同时处理所有 Token
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 5 月 13 日消息,研究人员 Sepp Hochreiter 和 J ü rgen Schmidhuber 在 1997 年共同提出了长短期记忆(Long short-term memory,LSTM)神经网络结构,可用来解决循环神经网络(RNN)长期记忆能力不足的问题。

而最近 Sepp Hochreiter 在   arXiv   上发布论文,提出了一种名为 xLSTM(Extended LSTM)的新架构,号称可以解决 LSTM 长期以来 " 只能按照时序处理信息 " 的 " 最大痛点 ",从而 " 迎战 " 目前广受欢迎的 Transformer 架构。

IT 之家从论文中获悉,Sepp Hochreiter 在新的 xLSTM 架构中采用了指数型门控循环网络,同时为神经网络结构引入了 "sLSTM" 和 "mLSTM" 两项记忆规则,从而允许相关神经网络结构能够有效地利用   RAM,实现类 Transformer" 可同时对所有 Token 进行处理 " 的并行化操作。

团队使用了 150 亿个 Token 训练基于 xLSTM 及 Transformer 架构的两款模型进行测试,在评估后发现 xLSTM 表现最好,尤其在 " 语言能力 " 方面最为突出,据此研究人员认为 xLSTM 未来有望能够与 Transformer 进行 " 一战 "。

参考

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

it之家 一战
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论