快科技 9 月 7 日消息,据报道,NVIDIA 的 RTX 5090 和 RTX PRO 6000 显卡最近被发现存在一个可复现的虚拟化重置漏洞,该漏洞会导致显卡完全无响应,直到主机系统物理重启才能恢复。
CloudRift 是一家 GPU 云服务提供商,他们在生产环境中多个配备 Blackwell 芯片的系统上遇到了这个问题后,详细公布了问题的分析报告,并悬赏 1000 美元,公开征集能够找到解决方案或根本原因的人。
根据 CloudRift 的日志,这个漏洞发生在 GPU 通过 KVM 和 VFIO 传递给虚拟机后。在虚拟机关闭或 GPU 重新分配时,主机系统会发出一个 PCIe 功能级重置(FLR)。
但与正常情况不同的是,GPU 并没有恢复到良好状态,而是停止响应,内核报告称:"FLR 后 65535 毫秒仍未就绪;放弃。"
此时,显卡也变得无法被 lspci 读取,lspci 会抛出 " 未知头部类型 7f" 的错误,CloudRift 指出,唯一恢复正常操作的方法是对整个机器进行断电重启。
AI 初创公司 Tiny Corp 也复现了 CloudRift 的发现,并直接提出了一个问题:"RTX 5090 和 RTX PRO 6000 是否有硬件缺陷?我们已经调查过,但找不到解决方案。"
社区的讨论中,许多家庭用户和其他 RTX 5090 的早期采用者也报告了类似的问题,一位用户表示在关闭 Windows 虚拟机后,整个主机系统挂起,即使操作系统级别的重启后,GPU 也无法重新初始化。
用户证实,切换 PCIe ASPM 或 ACS 设置并不能缓解故障,目前还没有报告称旧型号显卡(如 RTX 4090)存在类似问题,这表明该漏洞可能仅限于 NVIDIA 的 Blackwell 系列。
登录后才可以发布评论哦
打开小程序可以发布评论哦