太平洋电脑网 03-05
彻底玩转2K分辨率游戏大作,影驰 GeForce RTX 5070 12GB 评测
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近几年显示器厂商的价格战愈演愈烈,2K以及4K高清显示器的普及率激增,2k@240Hz或者4K@120Hz的电竞显示器早已走到平常玩家的电脑桌上。

保障2K分辨率下的游戏流畅度成为今年中高端显卡的必修任务,咱们今天要测评的对象是影驰 GeForce RTX 5070 魔刃 OC 12GB(以下简称为影驰 RTX 5070 魔刃 OC),这是英伟达今年中高端的代表作,这张卡显然承载着英伟达新一代显卡如何从容地流畅玩转高分辨率游戏性能的叙事,事不宜迟接下来赶紧看看这张显卡的规格特点吧。

GeForce RTX 5070规格一览

GeForce RTX 5070基于Blackwell架构,由TSMC 4N NVIDIA 定制工艺打造。Blackwell架构搭载了第4代RT Core以及第5代Tensor Core,其CUDA规模达到了6144组。作为OC后缀的非公版,影驰 RTX 5070 魔刃 OC的频率理所当然比公版更高,其基础频率为2325MHz,加速频率来到了2557MHz,而基础TGP功率则与公版持平为250W,MAX工况可达300W。GDDR7是新一代N卡的亮点,该卡配备了频率为28Gbps,容量达12GB的192-bit GDDR7内存,显存带宽高达672GB/s。

查看规格参数表的话会发现一个很有趣的现象,RTX 5070与RTX 5070 Ti之间相差22组SM单元,是目前已经公布的RTX 50家族中规模最小的核心。与此对应的是,这次NV对RTX 5070的官方零售价也做了调整,RTX 4070的发售价是4799元起,而RTX 5070的发售价则来到了4599元起,OC版则是各厂商灵活定价,价格更亲民且性能比RTX 4070更强,加量还减价了属于是。不过还是那句话,目前RTX 50系新品市场价比较混乱,以上提到的仅为理论参考。

游戏性能测试

纸面数据点到即止,接下来我们直奔主题,看看影驰 RTX 5070 魔刃 OC的游戏表现。开始分享数据前先介绍一下咱们的测试平台配置:我们采用了当代游戏神U——AMD锐龙7 9800X3D,与之搭配的主板是微星高端主板MSI MPG X870E CARBON Wi-Fi,以及芝奇T-FORCE XRTEEM ARGB 幻镜 DDR5-8000 C38 24GB*2,这套平台的性能理应能将影驰 RTX 5070 魔刃 OC的游戏性能完全发挥出来。

先看看基础的游戏性能,我们测试了《光明记忆:无限》《古墓丽影:暗影》《战争机器5》等13款游戏,并比较影驰 RTX 5070 魔刃 OC与RTX 4070在2k分辨率下最高/极致画质设置下的平均帧差异。

在不借助DLSS 4的状态下,实测影驰 RTX 5070 魔刃 OC比RTX 4070强12%~48%,平均强29%,除了《黑神话:悟空》《星球大战:法外狂徒》《鸣潮》等对硬件要求特别高的游戏,大部分游戏的平均帧率都在100FPS以上,极个别优化得特别好的,比如《极限竞速:地平线5》的平均帧甚至飙到255 FPS。

以超高负载的新一代硬件杀手《黑神话:悟空》为例,2K分辨率影视级画质设置下,RTX 4070已经难以将平均帧维持在60FPS以上,而影驰 RTX 5070 魔刃 OC的平均帧达到了69FPS,这就意味着大多数场景下,游戏的流畅度是有保障的。我们测试的13款游戏里面只有《黑神话:悟空》出现了这个状况,但随着UE5引擎的游戏逐渐普及,难保以后这类"60FPS分水岭"式的状况会在这两张卡身上频繁上演。

好了,接着我们看看搬出RTX 50系大招——DLSS 4的情况,在之前的测试中我们早就见识过DLSS 4多帧生成技术的强大魅力,现在这股帧率狂飙的"爽劲儿"延续到影驰 RTX 5070 魔刃 OC。

参与这次两代显卡对比的游戏为《赛博朋克2077》《星球大战:法外狂徒》《霍格沃兹之遗》以及《漫威争锋》,这4款游戏现在已经支持DLSS 4,从表格数据不难发现,在多帧生成加持下,影驰 RTX 5070 魔刃 OC的游戏性能大幅领先RTX 4070,平均领先幅度高达110%。

下面我们再详细探讨DLSS 4技术对影驰 RTX 5070 魔刃 OC的加成幅度如何,我们对比了该卡在【关闭DLSS】、【DLSS 4帧生成2X】、【DLSS 4帧生成4X】三项设置的帧率变化,测试的游戏同样是刚提到的4款已支持DLSS 4游戏。

实测结果十分夸张,开启【DLSS 4帧生成4X】后,4款游戏的平均帧率毫无疑问都在暴涨,《赛博朋克2077》平均帧率暴涨543%、《星球大战:法外狂徒》平均帧暴涨456%,其他两款游戏的平均帧也暴涨了200%以上,帧率提升十分显著。

具体到目前支持DLSS 4的3A大作,先是率先引入了路径追踪的《赛博朋克2077》,这款游戏负载之变态较早前看过咱们测试的小伙伴应该都清楚,上个月RTX 50系的首测已经证明了,只要有DLSS 4 多帧生成技术的加持,RTX 50系都能轻松拿捏这款硬件杀手。在2K分辨率下没开DLSS 4之前,影驰 RTX 5070 魔刃 OC的平均帧只有23.58 FPS,这帧率已经难以说得上流畅了。开启DLSS 4后平均帧暴涨至152 FPS,轻松玩转硬件杀手。

再看看硬件要求相对较低的《霍格沃兹之遗》,在不开启DLSS时,影驰 RTX 5070 魔刃 OC的平均帧仅为67 FPS,勉强流畅玩的程度,开启DLSS 4后,平均帧率突破了200 FPS大关,1%帧暴涨至92 FPS,从勉强流畅玩一下子变成喂饱144Hz高刷屏,游戏体验实现了跃升。

接着是《星球大战:法外狂徒》,这同样是一款硬件杀手,在2K分辨率DLSS OFF时,27 FPS的平均帧以及24 FPS的1%LOW帧已经属于无法游玩的状态,而DLSS 4再次施展魔力,将平均帧率拉到151 FPS,这帧率的提升幅度实在太魔幻了,即便在之前的测试中我们已经多次领教过,但还是觉得不可思议。

最后是喜闻乐见的《漫威争锋》,这是一款竞技类网游,游戏的受众对帧率的天然要求极高,但游戏开发商又偏偏给这款游戏加入光追等对帧率影响十分明显的画面设置,导致这款游戏成为网游界的显卡杀手。在2K分辨率DLSS OFF时,影驰 RTX 5070 魔刃 OC的1%LOW帧仅有77 FPS,平均帧率98 FPS,这帧率表现显然很难让玩家感到满意。好在现在有了DLSS 4,开启后平均帧率狂暴到327FPS,1% LOW帧也有225FPS,这个成绩绝对能让画质党满意。

看完4款游戏的表现咱们可以先下结论,DLSS 4技术对于显卡的提升十分明显,即便是12GB显存的影驰 RTX 5070 魔刃 OC,其依然具备优秀的游戏性能,2K分辨率下的高画质流畅体验已经达标,未来随着搭载DLSS 4的游戏越来越多,RTX 50系显卡的游戏性能优势还会愈发明显。

外观篇:魔刃潜能 蓄势待发

说完游戏性能再看回测试显卡本身,影驰 RTX 5070 魔刃 OC的包装延续了RTX 5080、5070 Ti魔刃的风格,金色的魔刃图案取自"刃BLADE"主题,大面积的黑色主调与显卡的外观互相呼应。

拆开包装就能见到显卡的本体,包装内还附赠了一个显卡支架、一根灯光控制线以及一个2x8 Pin转12V-2x6转接线,细节配件考虑得十分周到。

将显卡的贴膜撕掉后就能看到影驰 RTX 5070 魔刃 OC的完整外貌了。

几乎全黑的散热器外壳里,位于风扇中央的刃型图标十分吸睛,黑金颜色设计也彰显了高级感。

散热器外壳的光面与磨砂面斜纹相间,这种设计理念常用来表达动感,配上立体感十足的霜环扇叶,营造出利刃即将出鞘的氛围。

这代霜环散热器的三个霜环扇叶的尺寸为90mm,颇具特色的三折设计以及7叶结构在同噪音下风压提升15%,同转速下噪音降低5%,风压提升10%,同时扇叶的整体强度还提升了。

细节处可见"刃BLADE"符文,细看的话会发现这些符文围绕着显卡一圈,影驰将其称为符文环绕效果。

翻到背面就能看到符文的另一段了,背板上还有"刃BLADE"的图案,整体的视觉效果十分丰满。

背板末端是经典的镂空设计,因为该卡的8层PCB设计得比较紧凑,并未占据三风扇的长度,这样的镂空设计能尽可能地提升散热模组的散热效率。

显卡的侧边同样围绕着一圈符文,在顶部的位置能看到几个金属触点,其实这是影驰预留给磁吸式GALAX Aurora RGB信仰Logo的通电接口。

显卡的尾部同样预留了磁吸式接口,用户可以在两个位置中选一个放置磁吸式RGB LOGO配件。

12V-2x6供电接口采用了反扣式设计,符合ATX 3.1与PCIE CEM 5.1规范,这也是RTX 50系列显卡的主流形态,供电接口旁还有一个灯光同步接口。

显卡的顶部并非完全封闭,影驰在供电接口旁留了一段镂空,方便散热器交换空气。

顶部跟底部PCB面的镂空大致上是对称的,这也意味着显卡侧面的符文图腾环绕了三个面,一直延伸到镂空处为止。

影驰 RTX 5070 魔刃 OC提供了3个DP 2.1b以及1个HDMI 2.1b,一共四个显示输出接口,从IO端口这边可以看出该卡的厚度略高于双槽。影驰声称这符合英伟达的SFF-Ready规范,意味着这个卡对机箱的兼容性会比较友好。

接着咱们再看看上机的状态,前面提到的磁吸式配件能兼容横装和竖装两种形态,RGB灯效也把情绪价值提供到位。

搭配上影驰随卡附赠的显卡支架,整机的造型风格将会十分统一,有了这个支架支撑,用户就可以放心地在显卡上放置手办啦。

我们模拟日常观看显卡的视觉,"刃BLADE"符文的环绕式布局给显卡营造出魔力缠绕的视觉效果,这个小巧思很有趣。

拆解:

接下来我们拆开显卡看看里面的构造和芯片真容吧,想了解详细跑分的小伙伴可以下拉到后面的章节。

拆卸显卡的步骤是相对简单的,首先卸下背板的螺丝将背板取出,接着卸下IO面板的螺丝以及X型框架螺丝,将PCB与散热鳍片分离(注意散热器与PCB连线),最后卸下金属中框螺丝取出中框,至此显卡的背板、合金压铸中框、PCB、散热器外框、散热鳍片这五个部分就算分离完成。

影驰 RTX 5070 魔刃 OC的元器件规整统一,符合影驰一贯以来的做工。显卡的供电规格为10+3相,完全符合250W显卡的使用工况。

可以看到这张显卡的GPU核心代号为GB205-300-A1。

显存来自三星的GDDR7,丝印为K4VAF3257ZC-SC28,显存位宽192bit,显存带宽为672GB/s,一颗显存的容量为2GB,一共6颗显存IC组成12GB显存。

可以看到围绕核心的显存焊盘有8个,其中有2个位置被空置。

核心MOSFET以及显存MOSFET的IC型号均为SiC658A-8448LM。

PCB的背面有一枚uS5650Q芯片,这是一个四通道的模拟预滤波器和多路复用器。

散热器的风扇供电等接口被安排在PCB的边缘位置,方便安装和拆解。

核心供电接口和灯光控制接口则安排在PCB顶部边缘位置。

看完PCB部分再看看散热鳍片,散热器与GPU的接触面为均热板设计,散热鳍片与导热管均经过镀镍处理,耐用性更好。

供电部分以及显存部分均分配了导热垫,4根6mm复合热管搭配回流焊工艺可以将热量快速扩散到散热鳍片,进而将热量快速排走。

总体看下来,影驰的做工及用料不错,合金压铸中框遵循了历代魔刃的设计语言,可以有效地加强显卡整体强度,加上显卡附赠的支架,这套组合拳下来,想必能完全避免显卡变形或者PCIE接口被压坏等问题。

XTREME TUNER软件:极客玩物

显卡的配套软件早已成为AIC大厂基本功,影驰提供的显卡配套软件是XTREME TUNER,这是一款集合了监控显卡状态、超频显卡以及控制风扇转速等功能的使用软件。

仿跑车仪表盘的UI十分讨喜,通过软件监控显卡的参数时真有一点开车的感觉。同时,软件的主要功能都集合在同一页面,基本没有上手难度。这个软件能直接控制显卡的核心电压、GPU功率显存功率以及电源阈值等参数,给喜欢折腾显卡的极客玩家提供了不少便利。

对参数不熟悉又想尝鲜超频的小白玩家可以选择一键超频,这个选项可以帮助普通玩家快速地白嫖到少量额外性能。

RGB灯光是现在电脑硬件的主流设计,XTREME TUNER预设了3种灯光模式,灯光控也可以自行微调灯光的颜色、工作模式等。

觉得影驰官方的散热策略太保守或者太激进的小伙伴,也可以通过这个软件直接定制显卡风扇的工作曲线,让显卡的散热模式真真正正地符合使用者的真实使用环境。

基准性能测试——理论性能测试

显卡的基本情况分享完毕,接下来就是性能实测环节,为了更好地呈现影驰 RTX 5070 魔刃 OC的性能定位,我们把RTX 4070以及RTX 5070 Ti的性能也拉过来一起对比。先看看理论性能如何,咱们主要参考3DMark基准。在Fire Strike Ultra的基准测试中,影驰 RTX 5070 魔刃 OC的性能大约是RTX 4070的141%;到了DX12的Time Spy测试中,前者性能是后者的128%;在对显卡压力最高的Speed Way基准中,新卡领先幅度又回到了31%。

3DMark还提供了DLSS 3测试,新老两代显卡的性能差异在各项负载下都比较平均,影驰 RTX 5070 魔刃 OC领先RTX 4070 30%左右。

此外3DMark早已加入了DLSS 4的对比测试内容,实测DLSS 4所带来的提升十分明显,4K分辨率下,DLSS 4相对DLSS 3的帧率暴涨,即便在超高负载的8K样例里,影驰 RTX 5070 魔刃 OC仍然跑出了105.02 FPS的成绩,帧率相比DLSS3提升了83%,中高端显卡也能流畅运行如此超高负载的样例,这就是DLSS 4魅力时刻。

基准性能测试——AI性能测试

聊完理论性能,我们再来聊时下大热的AI基准。这代新品的其中一个重大更新就是原生支持FP4精度模型,根据英伟达的官方说法,有了这项新特性,RTX 50系相比RTX 40系的效率更高,显存占用还更低了,想了解详情的小伙伴可以下拉到文末技术解析。

FLUX.1 AI Image Generation Demo For NVIDIA就是一个现成的能验证FP4精度的基准,实测结果完美展示了FP4的魅力,RTX 4070需要将近1分钟才能生成一张图,而影驰 RTX 5070 魔刃 OC仅需13秒,虽然性能略逊于RTX 5070 Ti,但代际提升已经非常明显,这项对比也充分展示了原生FP4的高效率优点。

再来看大语言模型集合基准——AI Text Generation Benchmark,我们以PHI 3.5、LLAMA 3.1、Llama 2、Llama 3.1的得分作为参考基准。从实测结果来看,影驰 RTX 5070 魔刃 OC的表现可圈可点,对比RTX 4070的领先幅度在9%~104%之间,尽管不同模型下新老两代卡的代际差异各不相同,但能看出来新卡的AI性能依旧明显。

再来看看MLPerf Client v0.5,这项AI基准更倾向于实际应用场景,比如针对创意写作、长文摘要等场景的测试,实测影驰 RTX 5070 魔刃 OC对RTX 4070的领先幅度均在10%以上。

基准性能测试——创造力性能测试

看完以上几个基准,相信大伙对影驰 RTX 5070 魔刃 OC的AI性能已经有一定的了解,N卡也是时下视觉创作者的热门之选。RTX 50系列相比上代增加了不少新特性,比如第九代NVENC,它可以输出H.264/H.265 4:2:2编码的视频,也就是说现在我们用一张消费级中高端显卡就能处理专业设备录制的超高清高保真素材,这种事放在过去是难以想象的。

我们使用DaVinci Resolve 19.1.2将一条8K Prores422HQ的无损素材编码分别导出为H.264、H.265、AV1等版本,对比不同版本的导出时间差异。

实测结果让人印象深刻,影驰 RTX 5070 魔刃 OC导出这三条不同格式的4K视频比RTX 4070 节省了快一半的时间。正如前面所言,它还支持编码4:2:2色度取样的视频,而且实测H.265格式下性能表现与RTX 5070 Ti接近,这个结果也出乎了我们意料。

再来看看更理性的Pugetbench创作力跑分基准测试,其中达芬奇软件的代际性能差异较为明显,影驰 RTX 5070 魔刃 OC与RTX 4070的测试基准得分差异达到了20%以上。鉴于两者都是单NVENC的配置,这个基准也可以看作是新旧两代NV编解码器的代际差异。

接着是3D渲染软件的性能评估,我们选择了业内广受认可的Blender与V-Ray的基准测试。实测影驰 RTX 5070 魔刃 OC在V-Ray GPU RTX的基准下领先RTX 4070多达47%,四项跑分平均领先达到25%。

最后是喜闻乐见的工业领域软件基准SPEC2020,这项基准测试涵盖了市面上多个工业级生产力软件,能一定程度上反映出显卡的工业生产水平。实测除了creo-03细分项外,影驰 RTX 5070 魔刃 OC的代际提升十分显著,提升幅度在22%到46%之间。

诚然专业3D渲染及工业应用的小伙伴应该不会用这张卡,但考虑到价格敏感的小团队往往是一台电脑要做多个不同工种的内容,比如专门视频剪辑的电脑可能还要兼顾轻度的3D渲染等工作流,对于这部分用户来说,这个卡所呈现的性能表现已经比较可观了

功耗与温度表现

最后是烤机表现,影驰 RTX 5070 魔刃 OC的标定功耗为250W,为了验证这套风冷散热器的表现,我们使用FurMark烤机25分钟,实测显卡的BPD功耗为250.6瓦,GPU核心温度保持在65.9℃,显存温度仅为56℃。考虑到250W功率已经对标早年的卡皇RTX 2080 Ti,这个温控表现让人满意。

总结

从实测结果来看,影驰 RTX 5070 魔刃 OC毫无疑问是一张具有不错竞争力的显卡,它拥有简约的外观,良好的散热表现,更重要的是——它的游戏性能足以收获到主流级用户关注。作为RTX 4070的迭代产品,影驰 RTX 5070 魔刃 OC的理论性能全面提升,得益于DLSS 4的加入,游戏性能飞跃更是顺理成章,在多帧生成的加持下,这张卡能轻松玩转2K分辨率的主流AAA游戏大作,即便仅借助基础的帧生成能力,这个卡的游戏性能也做到了流畅度与高画质的平衡,作为一张游戏显卡来说,该卡绝对是RTX 3070以及更老旧显卡的理想升级对象。

不仅如此,在各行各业都大谈AI PC的当下,影驰 RTX 5070 魔刃 OC也呈现出不错的AI能力,具体表现在运行7B、13B等中小型规模模型时,理想的代际提升可以为一些本地AI场景带来生产力提升。别小看这些中小型规模模型,它们在RAG知识库以及AI生图这两大类本地AI场景能发挥巨大效用,足以帮助文字创作者以及视频创作者实现生产力飞跃。

无论你是老显卡升级的游戏玩家,还是预算有限、电脑需要同时满足视频、3D、AI多场景的小团队或多元创作者,这张中高端全能代表都能满足你所需。如果你的预期刚好跟这张显卡的定位相符,那不妨先把这张卡放进心愿清单吧。

GeForce RTX 50系列亮点技术盘点

好了,以上就是我们给出的测试与分析内容,最后给大家介绍一下这一代显卡的架构亮点以及部分技术解析。

Blackwell架构的改进

GeForce RTX 50系显卡采用了此前NVIDIA在AI领域推出的Blackwell架构,以大卫·布莱克威尔命名,其是一名受人尊敬的数学家和统计学家,在博弈论和统计学领域留下了不可磨灭的贡献,NVIDIA用其名字命名这一架构反映了新平台的开创性和先进的计算能力。Blackwell可以说是NVIDIA近年来更新幅度最大的GPU架构了,相比起之前的架构来说,划时代地引入了神经网络着色器,力图为游戏开创先进、高效更为逼真的渲染方式,带给玩家全新的游戏体验。

相比前代Ada架构,Blackwell的升级聚焦于四大方向:分别是AI算力的爆发、光线追踪技术的革新、显存能效的提升以及划时代的神经网络渲染。

第五代Tensor核心

其中AI算力的爆发就不得不提到Blackwell架构上的第五代Tensor核心,新一代Tensor Core添加了对FP4浮点运算精度的支持。FP4是一种较低的量化方法,类似于文件压缩,可以减小模型推理过程中数据存储和计算量大小,提高计算效率,降低该过程对显存的要求。与大多数模型默认使用的FP16相比,FP4使用的显存不到其一半,并使GeForce RTX 50系列GPU的性能相比上一代提升高达2倍。

第四代RT核心

而光线追踪技术的革新则仰赖于第四代RT核心的加持,相较于第三代RT核心来说,Blackwell架构的第四代RT核心主要提升了检测光线、路径与三角形相交的效能,过往在检测时往往只能检测单个三角形,一旦场景复杂,检测能力不足就容易导致渲染出错等问题,而现在检测能够以簇集方式进行,检测效率更高。同时还有三角形簇集解压缩引擎加持,其新增了Linear-swept Spheres(LSS)功能,可以减少渲染毛发所需的几何图形数量,并使用球体代替三角形以获得更准确的毛发形状拟合,能够让显卡发挥更好的性能但只消耗较小的显存占用。

综合来看,Blackwell架构的光线追踪多边形相交效率是上一代Ada架构的2倍,是Turing架构的8倍,同时还可以节省25%的显存使用率。

第四代RT核心的改进主要是为实现更好的光追效果。其中有两项新技术能够受益,第一项是RTX Mega Geometry技术。随着光线追踪游戏场景的几何复杂性不断增加,游戏画面中几何图形的计算量也呈现出快速增长的趋势。而RTX Mega Geometry技术能够加速构建边界体积层次结构(BVH),使得在实时渲染中可以处理多达100倍的三角形数量。

该技术的出现,也使得开发者能够在游戏场景中使用更复杂的几何图形,而不会影响游戏帧率。过去需要一个个算BVH,现在RTX Mega Geometry能够智能地在GPU上批量更新三角形簇,减少了CPU的负担,既保证了性能,也兼顾了图像质量。相信随着这些技术的不断发展和应用,未来的游戏将能够呈现出更加逼真和细腻的视觉效果,同时保持高效的性能表现。

另外一个能够受益的技术则是Curve Primitive,方便光追在曲面中的应用,例如一位男士的头发可能需要多达400万个三角形,再加上光线追踪技术,画面所需要的运算负载极大。NVIDIA则通过第四代RT核心中的Linear- Swept Spheres(线性扫描球体)技术有效减少了渲染头发所需的几何体数量,以球形代替多边形,更贴合头发的形状,从而将内存占用量大幅缩减至三分之一,并进一步提升了实际帧数,让头发的渲染效果更加自然流畅。

GDDR7显存

第三点改变则是显存效率的提升,Blackwell架构中还首次加入了对GDDR7显存的支持,此前GDDR6显存的信号编码为NRZ/PAM2,而RTX 40系上的GDDR6X则是PAM4编码。最新的GDDR7显存,信号编码改成了PAM3,NRZ/PAM2每周期提供1位的数据传输,PAM4每周期提供2位的数据传输,而PAM3每两个周期的数据传输为3位。说人话就是,新的编码机制可以使杂讯失真比减小,信号品质更清晰,同时还能带来更高的显存运行频率以及更低的电压,根据NVIDIA的介绍,使用GDDR7显存后,数据传输速率可达GDDR6时的2倍,并且功耗接近GDDR6的一半,经典加量还减价。

神经网络着色器

接着我们再细说一下这一代架构的最大变化,NVIDIA这次将Blackwell架构的SM单元直接称为神经网络着色器。相比较于之前的可编程着色、CUDA统一着色、通用计算着色来说,其最大的变化就是引入了AI,AI将会彻底改变GPU的着色方式。

在Blackwell架构中,NVIDIA 进一步拓展了神经网络渲染的范畴,引入了诸多创新元素,包括神经网络纹理压缩(Neural Textures)、神经网络材质(Neural Materials)、神经网络体积(Neural Volumes)、神经网络辐射场(Neural Radiance Fields)以及神经网络辐射缓存(Neural Radiance Cache)等,这些元素共同构成了神经网络渲染中神经网络着色的重要呈现方式。

这里举个例子让大家能够更简单地理解神经网络渲染,过去复杂的物品或大量异材质的贴图往往会占用相当大的内存空间,如果叠加光追的话,计算量将会更大。然而,得益于神经网络渲染技术中的神经网络材质功能,这一问题得到了显著改善。

开发者可以先在离线渲染出物品的光照数据,然后再用这些数据训练一个小的AI模型,游戏运行时只要实时调用这个AI模型当场推理就好了,这样就能还原出想要的光照效果了,再配合神经网络纹理压缩技术,就能显著降低实际生成的材质数据量,从而在占用更少显示内存的同时,实现了细节更丰富的材质表现,达到了实时生成如电影般细腻素材的效果。

目前神经网络渲染技术已经得到了微软的大力支持,未来也将会加入DirectX中,玩家能够体验到更真实的游戏世界。

而在硬件层面,由于神经网络渲染的加入,Blackwell架构的SM单元相较于RTX 40系的Ada架构还是有不小变化的,Ada架构内的SM内,SM单元会拆分成一半的CUDA专门用于处理FP 32(单精度浮点数),另一半则依需求动态调整去处理FP32和INT32(32位整数)。而在Blackwell架构上,SM单元则改成了CUDA核心可以完全依需求动态处理FP32和INT32的形式。

另外一个改进是,过往的着色工作往往只有SM单元的Shader在处理,而Blackwell架构上引入了神经网络渲染以后,使得Blackwell架构上的第五代Tensor核心也能共同分担着色工作,大大提高了着色效率。

这样改进的好处是,Blackwell架构能够进一步针对神经网络渲染工作进行排序,即把传统的着色工作分配给Shader,而需要动用神经网络渲染的工作负载则可以给到Tensor核心上,两种核心同时运用,效率最高可以提升2倍之多。并且得益于Tensor核心也加入了可编程渲染管线,现在开发者或API也能更好地调用Tensor核心,未来游戏内我们能见到的AI技术势必越来越多。

先进的AI管理处理器

此外,AI的应用也越来越多,不仅游戏中应用AI技术,现在连可编程渲染的过程里也引入了AI,因此如何去分配显卡内部多样化工作就成了一个问题。如过往显卡在开启DLSS玩游戏时,其中应用到的语言模型和游戏引擎需要同时与GPU的不同核心交互,生成游戏帧,但是往往很难做到每一帧都有一致的生成时间,抑或游戏AI对话的响应不够及时,这些情况都会造成游戏体验不友好。

而Blackwell架构为了解决这一问题,引入了AI管理处理器(AMP)。它能够实时调度资源,确保在神经网络渲染、帧生成和 AI 驱动的游戏交互中实现智能化的任务分配。这种设计不仅带来了更高效的性能输出,还让显卡在游戏渲染和 AI 运算之间实现了绝佳的平衡,确保帧的间隔均匀,对话类型的AI能够及时响应,玩家的游戏体验一致性能够比较好地保障。

技术解析:DLSS 4

介绍完NVIDIA引以为傲的RTX神经网络渲染,再让我们看看应用RTX神经网络渲染的最好例子——DLSS。它不仅能提高帧率,还可同时提供清晰锐利的高质量图像,效果与原生分辨率渲染媲美。目前支持DLSS的游戏已经多达540款,而玩家使用DLSS的时间更是长达3亿个小时,可以说DLSS给玩家带来了划时代的游戏体验。

目前DLSS已经迭代至DLSS 4,DLSS 4进一步整合了多帧生成 (Multi Frame Generation)、光线重建 (Ray Reconstruction)和超级分辨率 (Super Resolution)等多种先进技术,通过 AI 模型对帧间信息进行深度分析与融合,最终呈现出更具沉浸感与真实感的画面。

什么是DLSS 多帧生成?

在 DLSS 3 帧生成技术中,AI 模型使用运动向量和深度等游戏数据以及来自 GeForce RTX 40 系列光流加速器的光流场来生成一个额外的帧。由于每生成一个新的帧都需要光流加速器和 AI 模型参与,因此生成多帧的开销相当高昂,而过高的性能开销会带来瓶颈,导致帧率提升受限。

而这次DLSS 4全新升级,引入了多帧生成技术,它可以利用 AI 为每个渲染帧额外生成多达3帧!相比传统渲染的方式,能够最多实现8倍的性能提升。并且每次渲染额外帧只需要AI模型执行一次,就能输出三帧画面,因此无论是对性能、显存的开销还是延迟都比之前要好了许多。

DLSS多帧生成技术还会与 DLSS 光线重建和DLSS超分辨率等其他技术协同工作。光线重建技术可以根据生成的多帧更好地处理光线追踪效果,使光线效果更加逼真和自然;超分辨率技术则可以在多帧生成的基础上,进一步提升画面的分辨率和细节,确保在高帧率下画面质量也能保持较高水平。

另外,由于多帧生成技术,输出的帧多了,要给每一帧都安排一个合理的间隔刷新才能让观感更好。因此NVIDIA还引入了专属的Flip Metering来代替CPU Pacing,它将帧节奏逻辑转移到显示引擎,让GPU能够更精确地管理显示时间,尽可能地将每一帧画面的生成时间保持一致,从而提高整体游戏视觉的流畅感。不过由于Flip Metering是硬件级的控制器,因此DLSS 4的多帧生成目前只有RTX 50系显卡支持。

新Transformer模型架构

DLSS 4 还引入了图形行业首个 Transformer 模型实时应用。熟悉AI的应该对它很熟悉了,它在AI生成领域已经应用多年了。基于Transformer架构的 DLSS 超分辨率和光线重建模型,相比之前DLSS使用的卷积神经网络(CNN)模型来说,具备2倍的参数量和4倍的计算量。在游戏场景中,能够提供更高的稳定性、更少的拖影、更高的细节和更强的抗锯齿能力,使画面更加清晰、流畅和逼真。

不过虽然DLSS 4的多帧生成功能是RTX 50系显卡的独占功能,但新的Transformer模型将会逐步下放至DLSS 3、DLSS 2等,将适用于所有GeForce RTX显卡。

Transformer 模型的最大优势在于其强大的全局分析能力。传统的卷积神经网络(CNN)在单帧优化上表现出色,但对动态场景中的复杂变化(如快速移动物体或光线变化)处理有限。而 Transformer 能够捕捉多帧之间的时间关系和全局场景信息,从而更加精准地还原细节,进一步减少"拖影"现象。

显存占用优化

同时得益于多帧生成功能是利用效率极高的AI模型,相较于上一代的硬件光流器进行帧生成的方式,能够显著降低生成额外帧的计算开销。反映在显示中就是能够节约显存占用,例如在《战锤 40 K:暗潮 》中,以4K最高设置游玩,DLSS 4不仅可将帧率再提升10%,还能将内存占用量减少400 MB。

超过75款游戏和应用将支持DLSS 4

超过75款游戏和应用将在GeForce RTX 50系列开售时支持DLSS 4的全新DLSS多帧生成功能,包括《赛博朋克2077》《战神:诸神黄昏》《心灵杀手2》《霍格沃兹之遗》等,《黑神话:悟空》也将于今年晚些时候升级支持 DLSS4的多帧生成。随着时间的推移,支持DLSS 4的游戏和应用数量将不断增加。

对于尚未完成更新至最新DLSS模型和功能的游戏,NVIDIA App将通过全新DLSS优设功能实现相关支持。说人话就是,如果你想玩的游戏还没有提供DLSS,你可以通过NVIDIA App进行设置,强开DLSS技术,同时随着Game Ready驱动的不断更新,DLSS相关的AI模型也会封装在驱动之中,随着模型的不断迭代,画质与性能也会越来越好,简单地说DLSS越用越好用!

不过DLSS 4技术中的多帧生成功能目前仅支持最新的GeForce RTX 50系列显卡。究其原因还是因为多帧生成需要Blackwell架构内置的Flip Metering硬件及其他支持。因此想要体验最新的黑科技,还需要玩家更新至GeForce RTX 50系列显卡才行。

技术解析:NVIDIA Reflex 2

另外,值得一提的是,与DLSS 4一起到来的还有全新的NVIDIA Reflex 2技术。延迟一直是电竞中绕不开的话题,玩家的每个动作都会经过复杂的计算,再在屏幕上渲染,其中的每一步都会增加延迟。虽然延迟往往只有几十毫秒,但是你却能明显地感觉到游戏的不流畅、卡顿。

为了尽可能地降低延迟所带来的不良游戏体验,NVIDIA发布了NVIDIA Reflex技术,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。目前NVIDIA Reflex已集成到超过100款游戏中,可以将PC延迟降低50%。

而GeForce RTX 50系显卡再度升级,带来了NVIDIA Reflex 2技术。它结合了Reflex低延迟模式与Frame Warp技术。它可以把最新的鼠标输入指令同步给渲染帧,及时更新渲染的游戏帧并在渲染帧被发送到显示器之前获取最新的鼠标信息,通过刷新渲染的游戏帧以进一步减少延迟,将PC延迟进一步降低多达75%。

另外,Frame Warp的加入,能够进一步将延迟降低。当一个帧被GPU渲染时,CPU会根据最新鼠标或手柄输入计算工作流中下一帧的视角位置。Frame Warp从CPU采样新的视角位置,然后将GPU刚才渲染的帧扭转到最新的视角位置。在渲染帧被发送到显示器之前,在尽可能最新的时间进行扭转操作,确保屏幕上反映最新鼠标输入。

而当Frame Warp转移游戏像素时,图像中可能会产生缝隙撕裂、镜头位置的变化会让游戏场景中显示新的部分。NVIDIA则开发了一种优化了延迟的预测渲染算法,该算法使用来自先前帧的视角、颜色和深度数据,对这些撕裂空白的像素进行准确的图像修复。玩家可以通过更新的视角看到没有撕裂的渲染帧,并降低了改变游戏内视角位置而产生的延迟。说人话就是现在NVIDIA Reflex 2还可以根据上一帧的信息去脑补一些空白的像素,有种无中生有但你又看不出来的感觉。

首发支持NVIDIA Reflex 2技术的游戏是《THE FINALS》以及《无畏契约》,该技术也将在 GeForce RTX 50 系列 GPU 上首次亮相,当然后续也会逐步开放给更多的GeForce RTX系列显卡,老玩家也可以体验到最新的技术。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

影驰 分辨率 英伟达 电竞 amd
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论