中关村在线 04-18
类脑AI技术重要一步!英特尔发布神经拟态系统Hala Point,相当于猫头鹰大脑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作为英特尔首个神经元数量达到 11.5 亿的神经拟态系统,Hala Point 为更高效、规模更大的 AI 开辟了道路。

英特尔发布了代号为 Hala Point 的大型神经拟态系统。Hala Point 基于英特尔 Loihi2 神经拟态处理器打造而成,旨在支持类脑 AI 领域的前沿研究,解决 AI 目前在效率和可持续性等方面的挑战。在英特尔第一代大规模研究系统 Pohoiki Springs 的基础上,Hala Point 改进了架构,将神经元容量提高了 10 倍以上,性能提高了 12 倍。

英特尔研究院神经拟态计算实验室总监 Mike Davies 表示:" 目前,AI 模型的算力成本正在持续上升。行业需要能够规模化的全新计算方法。为此,英特尔开发了 Hala Point,将高效率的深度学习和新颖的类脑持续学习、优化能力结合起来。我们希望使用 Hala Point 的研究能够在大规模 AI 技术的效率和适应性上取得突破。"

Hala Point 在主流 AI 工作负载上展现了出色的计算效率。研究显示,在运行传统深度神经网络时,该系统能够每秒完成多达 2 万万亿次(20 petaops)运算,8 位运算能效比达到了 15TOPS/W,相当于甚至超过了基于 GPU 和 CPU 的架构。Hala Point 有望推动多领域 AI 应用的实时持续学习,如科学研究、工程、物流、智能城市基础设施管理、大语言模型(LLMs)和 AI 助手(AIagents)。

目前,Hala Point 是一个旨在改进未来商用系统的研究原型。英特尔预计其研究将带来实际技术突破,如让大语言模型拥有从新数据中持续学习的能力,从而有望在 AI 广泛部署的过程中,大幅降低训练能耗,提高可持续性。

深度学习模型的规模正在不断扩大,参数量可达万亿级。这一趋势意味着 AI 技术在可持续性上面临着严峻的挑战,有必要探索硬件架构底层的创新。神经拟态计算是一种借鉴神经科学研究的全新计算方法,通过存算一体和高细粒度的并行计算,大幅减少了数据传输。在本月举行的声学、语音与信号处理国际会议(ICASSP)上,英特尔发表的研究表明,Loihi2 在新兴的小规模边缘工作负载上实现了效率、速度和适应性数量级的提升 [ 1 ] 。

Hala Point 在其前身 Pohoiki Springs 的基础上实现了大幅提升,基于神经拟态计算技术提升了主流、常规深度学习模型的性能和效率,尤其是那些用于处理视频、语音和无线通信等实时工作负载的模型。例如,在今年的世界移动通信大会(MWC)上,爱立信研究院(Ericsson Research)就展示了其如何将 Loihi2 神经拟态处理器应用于电信基础设施效率的优化。

Hala Point 基于神经拟态处理器 Loihi2 打造,Loihi2 应用了众多类脑计算原理,如异步(asynchronous)、基于事件的脉冲神经网络(SNNs)、存算一体,以及不断变化的稀疏连接,以实现能效比和性能的数量级提升。神经元之间能够直接通信,而非通过内存通信,因此能降低整体功耗。

Hala Point 系统由封装在一个六机架的数据中心机箱中的 1152 个 Loihi2 处理器(采用 Intel4 制程节点)组成,大小相当于一个微波炉。该系统支持分布在 140544 个神经形态处理内核上的多达 11.5 亿个神经元和 1280 亿个突触,最大功耗仅为 2600 瓦。Hala Point 还包括 2300 多个嵌入式 x86 处理器,用于辅助计算。

在大规模的并行结构中,Hala Point 集成了处理器、内存和通信通道,内存带宽达每秒 16PB,内核间的通信带宽达每秒 3.5PB,芯片间的通信带宽达每秒 5TB。该系统每秒可处理超过 380 万亿次 8 位突触运算和超过 240 万亿次神经元运算。

在用于仿生脉冲神经网络模型时,Hala Point 能够以比人脑快 20 倍的实时速度运行其全部 11.5 亿个神经元,在运行神经元数量较低的情况下,速度可比人脑快 200 倍。虽然 Hala Point 并非用于神经科学建模,但其神经元容量大致相当于猫头鹰的大脑或卷尾猴的大脑皮层。

在执行 AI 推理负载和处理优化问题时,Loihi2 神经拟态芯片系统的速度比常规 CPU 和 GPU 架构快 50 倍,同时能耗降低了 100 倍 [ 1 ] 。早期研究结果表明,通过利用稀疏性高达 10 比 1 的稀疏连接(sparseconnectivity)和事件驱动的活动,Hala Point 运行深度神经网络的能效比高达 15TOPS/W [ 2 ] ,同时无需对输入数据进行批处理。批处理是一种常用于 GPU 的优化方法,会大幅增加实时数据(如来自摄像头的视频)处理的延迟。尽管仍处于研究阶段,但未来的神经拟态大语言模型将不再需要定期在不断增长的数据集上再训练,从而节约数千兆瓦时的能源。

世界各地领先的学术团体、研究机构和公司共同组成了英特尔神经拟态研究社区(INRC),成员总数超过 200 个。携手英特尔神经拟态研究社区,英特尔正致力于开拓类脑 AI 前沿技术,以将其从技术原型转化为业界领先的产品。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 英特尔 深度学习 科学研究 智能城市
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论