在年初的 CES 2025 上,AMD 推出了锐龙 AI Max 系列处理器 Strix Halo,它拥有 2 个 Zen 5 架构 CCD 最多 16 个内核,并拥有最多 40 组 RDNA 3.5 架构 CU 的超大核显,并配备 256 位的 LPDDR5X 内存控制器,当时他们已经演示过用这款处理器使用 llama.cpp 和 LM Studio 在本地运行 Llama 70B 模型,这样轻薄 PC 在本地运行较大的 LLM 模型成为可能。
现在 AMD 宣布对锐龙 AI Max 的可变显存进行重大升级,即将推出的 Adrenalin Edition 25.8.1 WHQL 驱动程序可以让配备 128GB 内存的锐龙 AI MAX 设备划分 96GB 作为显存使用,这让它能够运行 128B 个参数的大模型。
AMD 表示已经成功使用锐龙 AI Max+ 395 处理器成功在本地运行 Meta 的 Llama 4 Scout 109B 模型,成为首款成功运行该模型的 Windows AI 处理器,并支持视觉和 MCP,Llama Scout 采用混合专家模式,所以每次只有 17B 处于活动状态,所以可保持较快的输出,最多可实现 15tokens/s 的生成速度。
锐龙 AI Max 处理器支持最小 1B 的微型模型到最大 128B 的模型,支持包括 GGUF 在内的多种量化格式,使其能够灵活地适用于不同场景。这次升级还增大的对大兴上下文大小的支持,大多数设置的最大令牌数约为 4096 个,但这次升级后锐龙 AI Max 平台可以扩展至 256000 个令牌,这需要开启 Flash Attention 功能,启用 KV Cache Q8,这运行在上下文中保存大量令牌,使其支持更高级的任务,例如解析和汇总整个文档。
当然了这都需要你的锐龙 AI Max 搭载了 128GB 内存,通常来说这样的设备价格都不便宜,而且它使用是 LPDDR5X 内存,也不支持扩展,而目前拥有这类设备的用户可以在AMD 官网上下载预览版驱动提前尝鲜。
登录后才可以发布评论哦
打开小程序可以发布评论哦