快科技 10 月 19 日消息,最近,高通发布了新一代 PC 笔记本平台骁龙 X2 Elite 系列,各方面规格都取得突飞猛进,比如 CPU 频率最高首次达到 5GHz,NPU AI 算力高达 80 TOPS。
要知道,AMD、Intel 新一代平台的 NPU 最高都只有 50 TOPS,这自然让高通鹤立鸡群。
高通技术公司产品管理副总裁 Vinesh Sukumar 在接受媒体采访时解释说,开始设计骁龙 X2 Elite 的时候,目标就是让 AI 算力比第一代骁龙 X Elite 翻一倍,同时在软件层面还能带来 10-15%的提升。
至于为何需要如此之高的 NPU 算力,一是想要提升大模型的首个 Token 生成时间,非常依赖算力,而更高的 TOPS 可以大大降低首个 token 生成时间的时延。
二是对于内容创作者来说同样如此,无论是图像生成还是视频生成,都对计算要求非常高,PC 子系统也需要更强的计算能力,从而降低时延。
最后一点是为了支持音频、视频和文本等多任务并发处理,同样需要更多的 TOPS。
随着手机端侧 AI 应用的发展,大模型的参数量、体积控制,以及内存的挑战,都是迫切需要解决的问题。
Vinesh Sukumar 认为,高通和大多数 OEM 伙伴,包括整个生态系统,都在朝着 30-40 亿参数的模型发展,不仅包括通义千问系列、微软 Phi 系列,甚至苹果的基础模型也都在 30-50 亿参数范围内,可以认为这是在边缘设备上真正推动丰富体验的最佳区间。
当然,可以有多个 30 亿参数的模型,但这是一个起始线。
针对手机内存问题,目前的解决方案就是模型量化,从 16 位整数运算转向 8 位整数运算,再从 8 位转到 4 位,现在高通与微软合作推出了全球首个 INT2 2-bit 模型。
INT2 在带宽和内存占用方面具有优势,对比 INT4 可以节省约 50%的带宽和内存占用,可以更好地支持大语言模型(LLM)、大视觉模型(LVM)等的运行。
INT2 的落地需要软硬两个层面的支持,其中硬件层面由第五代骁龙 8 至尊版支持,而软件层面包括编写专门的库、内核和运算符。
高通预计,随着更多数据类型的创新,可以支持更大规模的模型,同时减少内存占用。
比如说,一个 70 亿参数的模型在 16 位精度下大约占用 14GB 内存,使用 INT4 则是 4GB,而 INT2 精度就只需要 2GB。
当然,2-bit 下的精度控制非常重要,但并不是每一层数据都是 INT2 精度,有的是 INT2,有的是 INT4,有的是 INT8,不一而足,也就是通过支持混合精度以保持准确性。
如果这么做仍然有准确率损失,可以使用量化感知训练,重新训练模型,以确保将损失降到最低。
另外,无论 AI 手机还是 AI PC,很多人都在寻找所谓 " 杀手级应用 ",但是在 Vinesh Sukumar 看来,高通有不同的见解。
当前的 AI 已深度融入用户的日常应用,在影像、视频、音频等领域中无处不在,甚至在用户毫无察觉的情况下自动工作。
高通始终都在追求用 AI 解决下一个重大命题,以此作为奋斗目标,但是提高生产力、改善体验的每一小步,都是关键的一步,因为高通相信,只有从小处着手,才能实现稳健的成长。
登录后才可以发布评论哦
打开小程序可以发布评论哦