芯东西 07-27
把百亿大模型装进终端,存算一体如何“破局”端边算力困局?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

超级 AI 应用爆发前的算力革命已经来了。

作者 |  云鹏

编辑 |  漠影

今天,一场横跨各个产业的算力革命正在 AI 新时代爆发,随着以 DeepSeek 为代表的国产大模型加速走向产业,AI 从云端走向端边,大模型和 AI 应用的落地热潮势不可挡。

在这样的趋势下,AI 推理算力需求的暴涨给产业同时带来了机遇和挑战,根据公开数据预测,未来 3 年,推理算力年复合增速将达到训练算力的近 4 倍。如何把百亿级参数模型落地智能终端、实现云级推理能力走向端边,同时兼顾高性能、高能效、高隐私安全,成为业内关注的核心焦点在。

在昨日刚刚盛大开幕的 2025 世界人工智能大会(WAIC 2025)上,我们看到数十家国内 AI 龙头链主企业亮出了 3000 多项前沿技术和产品,包括 40 多个大模型、50 多个 AI 终端产品和 60 多个机器人,大家对终端产品上各类亮眼的端侧 AI 应用体验兴趣盎然。

作为这场 AI 算力革命核心玩家的芯片企业们,也纷纷在这场盛会上亮出自己的看家本领。比如国内 AI 芯片创企后摩智能就发布了面向端边大模型场景的 AI 芯片后摩漫界 M50,并在展区展示了自家的硬件全家桶和基于存算一体技术的端边大模型落地案例。

后摩漫界 M50 以及基于其打造的算力卡,有着极致能效比、高面效比、低功耗实现的突出能力,让产业看到了解开端边大模型落地 " 算力不足、功耗过高、隐私泄露 " 三大 " 症结 " 的破局之道。

继 2023 年推出首款存算一体 AI 芯片后,这无疑是后摩智能向端边大模型领域再次迈出的关键一步。

01.

端边大模型落地:

高算力、高能效、低功耗、大带宽、强隐私

缺一不可

当下,行业正迫切需要解开端边大模型落地三大死结:算力不够用、功耗降不下来、隐私保不住。用户对于高算力、高能效、低功耗、大带宽、高隐私的需求成为 AI 推理时代的突出特点。

在大模型从云端走向端边设备的过程中,首先要突破算力的瓶颈,端侧设备算力先天远低于云端,目前即使是旗舰消费级 PC 处理器的 NPU 算力通常也只有数十 TOPS。

结合相比云端大幅削减的内存带宽,百亿参数模型端侧推理速度可能只有 10tokens/s 左右,完全无法满足实时交互的需求。与此同时,边缘节点往往需要同时处理海量并发推理需求,GPU 资源利用率较低,响应时间过长,这些都对实际用户体验有较大影响。

此外,端侧先天受制于 " 功耗枷锁 ",绝大部分端侧移动设备电池容量有限,同时受到整机功耗墙限制,不可能以大幅牺牲续航体验来换取 AI 体验的提升。

根据三方实测,手机端运行 7B 模型的 CPU 功耗甚至可以达到 8W,这对续航影响十分显著。

最后,在数据隐私安全方面,需求侧的挑战也越来越明显。端侧 AI 的发展越来越快,尤其在 AI agent 浪潮下,数据成为关键——无数据不个性化。

多模态大模型成为主流,照片、截图、语音、文字、视频,甚至是金融信息、医疗信息、用户使用习惯、用户深度画像都会成为大模型的数据来源。数据安全被提到前所未有的高度,对企业来说尤其如此。

落地侧需求的涌现也不断激励芯片产业寻找和探索新的解决方案,比如通过芯片硬件架构的创新、资源调度算法的优化、各类硬件级加密方式的升级,去提升性能、能效和安全性。

从硬件层技术创新来看,存算一体技术路径已经被后摩智能证明行之有效,此次新品 M50 的落地进一步巩固了这一技术路线,让产业看到了其实际落地能带来的产业价值。

02.

后摩秀出存算一体王炸升级

解密背后核心软硬件技术创新细节

此次 M50 芯片实现的性能突破可以说相当亮眼,同时还兼顾了能效和安全,其最突出的三个特点就是极致能效比、高面效比和低功耗实现。

单个 M50 芯片的典型功耗仅有 10W,但 INT8 算力却直接达到了 160 TOPS,同时有着 48GB 的大内存,这使其可以支持百亿级参数模型的本地推理。

根据官方实测数据,M50 单芯片就可以实现 70 亿参数大模型 25+tokens/s 的推理速度,可用性大幅提升。

值得一提的是,M50 还支持更丰富的混合数据类型,其在 Tensor 上同样支持浮点运算,与此同时,M50 支持通过芯片互联提供更高算力、扩展更多边端场景。

在这样颠覆式升级的背后,存算一体架构的技术创新发挥着关键作用,基于非冯 · 诺依曼架构,存算一体架构可以打破芯片设计的 " 存储墙 " 及 " 功耗墙 ",实现计算单元与存储单元的集成,在存储单元内完成部分或全部的运算,进而解决芯片性能瓶颈、提升能效比。

具体来看,IP 创新是关键一环,后摩智能自主研发了存算一体创新 IP,其可以满足多精度、高能效比、高带宽、低功耗等需求。

M50 用上了后摩智能自研的第二代存算一体 IP,支持双端口的加载和计算的并行,并且解决了大量测试和可靠性难题。此前业内几乎没人做过存算一体芯片在这方面的测试,后摩智能是真正脚踏实地一点点摸索出来的。

此外,在极小芯片面积内实现大算力的同时兼顾电源稳定性也是一大挑战,后摩智能团队在这方面积累了不少技术专利。

在有了高效存算一体 IP 后,如何高效利用并落地实现交付给客户,还要考验 AI 处理器的设计能力,后摩智能针对大模型应用专门设计了新的 IPU 架构,包括对自适应计算或者弹性加速的支持,以及在存算上直接进行浮点运算。

从创始人兼 CEO 吴强博士在演讲中提到,团队从 2023 年就开始研究大模型和存算一体的结合,投入很多资源,在过去两年陆续发表了 30 多篇国际顶刊论文。

此外,后摩智能还自主研发了易于使用的软件工具链,适配存算架构的算子库,可以高效利用存算 IP 所带来的性能、功耗优势,简化部署流程的同时,提升部署能效。

可以看到,在存算一体这条技术路线上,后摩智能做了海量的扎实研发,填补了诸多技术空白,并一步一个脚印地探索出了一条切实可行的落地路径,从学术论文到落地应用,让产品真正 "work",是才最难的,而这些都是表面上所看不到的艰辛。

03.

" 一片口香糖 " 尺寸

解决百亿参数大模型落地

多场景端边设备智能体验 " 质变 "

在 M50 过硬的芯片硬实力基础上,后摩智能推出了丰富产品形态,帮助企业在端边多场景完成大模型在设备端的落地。这些产品已经可以实现消费终端、智能办公、智能工业等诸多场景的覆盖,给这些端边设备的 AI 体验带来显著改善。

当下,AI 手机和 AI PC 是端侧 AI 落地走的最快的两种产品形态,而 PC 相比手机,同时兼顾消费端和产业端应用,适用性更为广泛,AI PC 也是后摩智能 M50 芯片以及相关产品表现颇为亮眼的领域。

其中力擎 LQ50 M.2 卡基于标准 M.2 2280 规格,将 M50 芯片的算力浓缩至 " 单片口香糖 " 尺寸,可以 " 即插即用 ",使用十分便捷,这对于紧凑型移动设备非常重要。

LQ50 M.2 卡基于采用存算一体创新架构,搭配了 48GB LPDDR5 内存,内存带宽 153.6 GB/s,可以直接本地运行百亿级参数大模型,7B/8B 模型推理速度据称可超过 25tokens/s,小尺寸低功耗也令 LQ50 M.2 卡兼顾了无风扇设计,适用性更加广泛。

值得一提的是,在软件兼容和开发生态方面,LQ50 M.2 卡兼容 Windows 11/Linux/Android 等主流操作系统,通过后摩大道平台支持全栈开发,可以灵活部署在 AI PC、AI Stick(AI 计算棒)等移动终端设备中,在消费、办公、工业等场景中提供本地大模型推理加速能力,同时保障数据隐私与低延迟响应。

在场景适配能力方面,M50 支持多芯互联技术,可以动态扩展算力适配未来模型升级,这对更广泛场景的扩展覆盖十分关键。

比如力擎 LQ50 Duo M.2 卡基于 OCP Dual M.2 标准设计,集成了两颗 M50 芯片,通过高速互联技术实现 320 TOP 的算力释放,同时其配备了 96GB 内存,带宽 307GB/s,这样的豪华规格使其可以直接突破 14B/32B 大模型的端侧部署瓶颈。

在边缘复杂场景中,双芯架构既能驱动智能会议系统完成多语种实时翻译和声纹识别会议纪要,也可以支持百亿参数大模型私有化部署,还能本地运行多模态 AI Agent。

基于这些产品和解决方案我们可以看到,M50 系列产品在 AI PC、智能终端、工业边缘设备等场景都具有极高的性能适配性。

在消费领域,M50 系列可以很好地赋能平板、PC、AI Stick 等移动终端设备;智能办公场景中,智能会议系统在断网环境下也能实现多语种翻译、纪要生成,会议内容不上云、不泄露;智能工业领域,产线质检与车路云协同通过本地算力完成实时分析决策,生产数据与运营信息在设备端闭环处理,避免云端传输隐患。

可以看到," 存算一体 + 端边大模型 " 的技术路径是高效可行的。

这一模式真正给解决有限硬件资源上的高效数据处理的难题提供了行之有效的路径。对比传统芯片方案,基于存算一体技术的端边设备在智能体验上是有 " 质变 " 的,给AI 超级应用未来的爆发打牢了端侧算力基础。

可以说,后摩智能存算一体技术和产品,将 AIGC 等大模型能力融入 AI PC、智能终端等场景,也令后摩智能成为推动端边设备从 " 功能型 " 向 " 智能体 " 的范式升级的核心玩家之一。

04.

结语:

从移动终端、智能办公到智能工业

存算一体打破端侧 AI 落地 " 不可能三角 "

成立五年来,后摩智能长期专注深耕存算一体技术,从 M30 到 M50,其已经实现了端边 AI 芯片的良性迭代落地闭环,在诸多场景中实现了对企业的赋能加速,成为推动 AI 普惠落地的关键芯片玩家。

在今年的 WAIC 2025 大会上,国内 AI 芯片玩家作为中国智算产业的核心力量,无疑成为业内关注的焦点,结合当下 " 算力即国力 " 的大背景,夯实智算底座也成为国内不少省份在 AI 领域的重要布局方向之一。

沿着这一大趋势方向,后摩智能无疑在端边大模型 AI 芯片领域跑在了技术力的第一梯队,用硬核技术创新给解决行业顽疾带来新的解法。随着技术的快速迭代,我们相信后摩智能会给产业带来更多有价值的技术创新和优秀产品。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 破局 ai芯片 机器人 世界人工智能大会
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论