游戏卡 OR 生产力,售价近W的4080底气何在
对于电脑玩家来说,9月20日英伟达的40系显卡会绝对是今年最大的焦点,昭华也是全程观看了本次发布会,最大的感想就是老黄已经把重心放在 AI 学习、图形处理以及元宇宙等方面,发布会 70% 的内容都和玩家无关。不过毕竟是 NVIDIA,技术依然牛掰,RTX40系列显卡有着更先进的工艺制程和各种黑科技,性能方面提升巨大。
这篇文章昭华想和大家谈谈个人对这次新技术的理解,以及对七彩虹 iGame GeForce RTX 4080 16GB Ultra W OC 测试过程。文章架构如下,想直接看评测的朋友可以直接下拉。
1、对 RTX40系 显卡新工艺新特性的个人理解
2、COLORFUL 七彩虹 iGame GeForce RTX 4080 Ultra W GDDR6X 测评
3、测试平台硬件展示
▼GeForce RTX 40 系列显卡这次采用了全新的 NVIDIA Ada Lovelace 架构,以早期计算先驱Ada Lovelace 的名字命名。工艺采用定制 TSMC 4N NVIDIA工艺,核心面积从上一代的 628.4mm² 缩小到 608.5mm²,晶体管数量从上一代的 283 亿个提升至 763 亿个。最恐怖的是核心面积一直在缩小的同时晶体管数目保持夸张的增长速度,同时功耗也持平甚至更低于上代。
▼40系的Ada架构相比上代的安培架构布局变化不大,上图左侧为上代安培架构右侧为全新Ada架构,仍然是每组GPC包含6组TPC(每组TPC包含2组SM)、一个独立光栅引擎、两个ROP分区(每个包含8个ROP单元)。
▼SM单元依然和上代一样,四个主要计算模块,一个RT光追核心,以及128KB一级数据缓存/共享内存等。最大的改变就是将RT Core光追核心从之前的第二代升级到第三代,Tensor Core张量核心也从第三代升级到第四代。带来2倍的光线与三角形求交性能。
▼核心参数方面,RTX4090 全面超过了上代旗舰 3090Ti,不过次旗舰 4080 实际上比不上 3090ti ,除了频率方面胜出,其他参数都更弱了。
那么,为什么 4080 能够力压 3090ti 呢?这就必须提提老黄给我们带来的各种黑科技了。
▼发布会上老黄用赛博朋克2077 做了展示,细心的朋友应该会发现,这个版本的赛博使用的加强版,也就是所谓的超级光追模式。此模式下游戏帧数大幅提高,而如何实现就要从前面提到的第三代 RT Core核心说起,
首先新核心相比上代提升了3倍算力,其次加入了两个全新硬件单元,负责提升 Alpha-Test 几何性能的Opacity Micro-Map(OMM)引擎、负责提升图形丰富度但又不会占用太多性能的Displaced Micro-Mesh(DMME)引擎,以及负责执行效率的 Shader Execution Reordering(着色器执行重排序)
▼【Opacity Micro-Map】早期对树叶等常见物体进行光线追踪计算,需要调用大量色器才能确定光线和物体的相交情况,光线的数量、物体角度不同导致光线调用频率也不同,有快有慢,这就导致一些线程被闲置造成的效率低下。
OMM 引擎简化了这一工作,直接将树叶分为不透明、透明、未知。
如果光线击中了不透明的网格,那说明光线和物体相交,返回结果
如果光线击中了透明网格,那说明光线和物体不相交,光线穿过物体继续前进,寻找下一个相交的物体。
如果光线击中未知网格,那么调用着色器来计算反射情况,再返回结果。
这样就能大幅降低着色器的调用,进而提高处理效率。
▼【Displaced Micro-Mesh Engine】则是简化模型渲染的技术。早期的光追计算需要对物体进行大量的三角形光线追踪交叉测试,DMME只需要一个基础三角形,搭配不同的位移图自动生成复杂模型,同时完成三角形交叉计算,最后将结果返回系统,从而极大减轻系统负荷。
▼演示的时候老黄也是用三个案列来进行演示,物体越复杂越能展示 DMME 引擎的优越性,比如在螃蟹模型上,DMME 能带来15倍速度提升,而占用的显存体积只有之前的1/20。而且,该引擎并非只适用于游戏领域,创作领域的Adobe、Simplygon 也明确表示支持该技术。
▼【 Shader Execution Reordering】众所周知光线具有极大的不确定性,各种角度的反射、散射、投射以及与其他物体相交需要大量的运算,期间会调用大量的着色器和不同的显存,而不同的进程会导致效率低下。着色器执行重排序 (SER) 技术就是通过实时调度、动态调整不同的着色器来完成执行顺序,从而更好利用系统资源实现更佳的光追效果。
▼按照老黄的说法,SER 能提高3倍工作效率,游戏性能最高能提升25%,像演示会上的达瑞斯尔赛车模拟、传送门、赛博2077甚至能达到四倍光追性能的提升。
▼不知不觉,DLSS (深度学习超级采样)已经发展到第三代,这个技术是发布会的重点内容。简单来说,这个技术就是通过 AI 计算生成图像,以及利用算法将低分辨率画面转换为高分辨率画面。因为需要渲染的像素更少,所以可以明显降低 GPU 占用。其主要技术手段包括帧生成技术、DLSS 2超分辨率技术以及NVIDIA Reflex技术,其中的帧生成技术只有这次 40 系显卡搭载。
▼帧生成技术也可以视为插帧,和电视端的 MEMC 有点类似,都是通过分析两帧连续图像生成一帧新图像,插入到原图像序列,帧数的增加自然会让画面表现的更为流畅。
不过电视端的插帧技术比较粗糙,特别是图像中的阴影部分因为涉及到计算,搭载的处理器根本无法负荷这么高速的运算,呈现的效果自然和精准谈不上。
▼而 DLSS3 会通过计算帧与帧中物体和元素的运动矢量数据,在新光流加速器中进行计算,生成一帧超级分辨率帧,可以准确还原原本图像。同时这个计算过程是在 GPU 上进行,不需要 CPU 帮忙,可以释放大量 CPU 性能用以计算其他方面,在物理计算密集型或大型场景类游戏更有优势。
▼至于DLSS 2 和 NVIDIA Reflex。前者也就是深度学习超级采样,在 RTX20/30系已经搭载;后者主要起到降低延迟提高响应速度。目前已经有35款软件/游戏开始支持 DLSS3,其中不乏赛博2077、瘟疫传说安魂曲、巫师3、黑神话悟空等大作。
▼40系显卡价格昂贵的原因就是,它不仅仅是面对游戏玩家,同时还对生产力有着极大的加成,看看生产力 GPU 排行就知道了。说起来游戏玩家也真可怜,前两年要和矿主抢卡,现在要和生产力用户以及跑深度运算的用户抢卡。
▼NVIDIA 系还专门为游戏开发者提供了RTX Remix 平台,在这里可以利用 AI 技术提高老游戏的纹理精度、给老游戏添加光线追踪,以及带来全新的渲染流程提高运行效率。简单说,这个平台可以让老游戏焕发新活力,也可以利用新技术给老游戏制作全新的 MOD 延长游戏寿命。可以预见后期的重置版游戏数量将大幅提升,品质也将更为出色。下图就是英伟达利用RTX Remix重制的经典游戏“传送门”。
▼40系 Ada Lovelace 架构使用了升级版的NVIDIA 编码器(NVENC),开始支持 AV1 编码。相比常见的 H.264 在效率上提升了 40%,同样的带宽下可以实现更清晰的画面质量,在直播推流、视频剪辑等方面具有强大的优势。
最关键是这种编码技术完全免费,对于厂商来说自然成本更低。目前很多软件都开始正式支持 AV1 编码,比如达芬奇、Premiere以及国内用户比较习惯的“剪映”等。
▼RTX 40系搭载双NVENC编码器,协同运行以及输出,可以提高一倍的工作效率。对于主播用户来说,RTX 40系列甚至还能录制 8K60 的HEVC。
▼3D mark 作为专为硬件而设计的基准测试软件,旗下的 Time Spy和 Fire Strike 是专门为显卡打造,前者对应 DirectX 12 基准测试、 后者对应 DirectX 11 基准测试。而Extreme 和 Ultra则是两者的 4K 版本
▼测试结果如下:
Time Spy Extreme:显卡分数:14331、GPU 分数:7165
Fire Strike Ultra:显卡分数:17326、物理分数:32703、综合得分:9788(这里我很奇怪,我明明选的Ultra版本,为什么没显示出来)
▼这是3D Mark 专门用于测试显卡 DLSS 性能的基准测试,通过开关 DLSS 功能用数字来进行打分比较,本次测试分别开启 DLSS2.0 和 DLSS 3.0 ,看看两者之间差距变化。
4K 分辨率下,iGame GeForce RTX 4080 Ultra 不开 DLSS 只有不到 40FPS,要说玩肯定能玩,不过流畅性就不要指望了。
开启 DLSS2.0 ,帧率接近102FPS,基本上是 2倍 多性能提升。
开启 DLSS3.0 ,帧率更是直接暴涨至 132 FPS。相比不开 DLSS 有 3倍 多性能提升,超过 DLSS2.0 模式 1/3 性能提升。
1️⃣ BenchMark 性能测试
赛博2077 初上市时被玩家强烈吐槽,好在后续补丁给力,基本上挽回了当初的口碑。作为内置 BenchMark 的3A 大作,经常客串硬件测试的基准。本次测试全程在 4K 分辨率下进行。
测试结果:
▼未开启 DLSS 时,游戏平均帧率 29FPS(最低21/最高36),开启 DLSS3.0 画质优先模式,游戏平均帧率暴涨一倍,达到 57FPS(最低44/最高72),选项不变调整为超级性能模式游戏平均帧率更是达到 107FPS(最低64/最高133),从勉强能玩直接干到了丝般流畅。
2️⃣画质对比
DLSS对游戏流畅度提高很明显,那么画面的细节表现如何呢?
▼下图就是赛博朋克2077 实机画面,所有设置相同,上面为开启 DLSS,下面为关闭。水面的倒影效果那是一目了然,重点看看远处红圈里的黄色灯箱,下面的图完全没有细节,上面开启 DLSS 后能看到灯箱下方黑色内部细节。
▼复杂场景,开启 DLSS 同样也展示更多细节。比如左上角灯笼底部的黄色飘带,二楼玻璃的反光、远处空调下方的阴影细节等等。当然,最关键的还是在展现如此多画面细节的情况下,帧率不降反增,优势实在太大了。
▼首款支持光追的游戏,也是地铁系列最好玩的一部。场景从上代的地下转移到地面,景色更为壮丽,将末世的氛围渲染的淋漓尽致。游戏搭载独立的 BenchMark 测试工具,加上丰富的选项,成为光追测试必备游戏。
▼测试使用 4K 分辨率,所有选项不变仅开关 DLSS 功能
未开启DLSS:平均帧率20.45FPS,最大帧率22.25FPS,最小帧率17.27FPS。
开启 DLSS 画质最高:平均帧率 80.26FPS,最大帧率 129.89FPS,最小帧率 50.72FPS
开启 DLSS 性能最高:平均帧率111.14FPS,最大帧率161.68FPS,最小帧率66.90FPS。
开启 DLSS 性能提升明显,最高画质下都能提高接近4倍,采用性能模式更是翻了 5 倍性能,高刷显示器必须走起。
古墓系列是我的最爱,每代我都翻盘不止三次,感谢 EPIC 让我将新版三部曲都收入囊中。这个系列也提供了专门用于光线追踪的 BenchMark 测试工具,另外, GPU 受限百分比也方便判断处理器性能是否能满足显卡需求。
▼测试使用 4K 分辨率,所有选项调到最高
未开启DLSS:平均帧率85FPS,GPU 受限 100%
开启 DLSS 画质最高:平均帧率 129FPS,GPU 受限 98%
开启 DLSS 性能最高:平均帧率 175FPS,GPU 受限 33%
GPU 受限指的就是利用率,100% 就是最好的情况。从结果来看,开启 DLSS 性能最高情况下 CPU 完全满足不了 4080 的性能,关闭 DLSS 则帧率下降不少。反而是画质模式最能发挥 4080 该有的实力。
瘟疫传说是款以剧情向为主的动作游戏,背景设定在1347至1353年黑死病肆虐的欧洲,安魂曲的剧情紧承前作,阿米西亚和雨果的冒险故事。这个游戏其实动作要素不多,但剧情感人,特别是画面做的极其优秀,堪称行走的欧洲风景图。
安魂曲也是最早一批开始支持 DLSS3.0的游戏,不过游戏没有内置BenchMark 测试工具,只能从帧数方面加以说明。
▼测试使用 4K 分辨率,所有选项调到最高,帧率提升简直残暴。
同样场景,不开 DLSS 游戏帧率在50FPS ~ 60FPS 之间徘徊,经常跌落至 50FPS 以下。开启 DLSS 全程稳定 140FPS,画面流畅至极。
1️⃣ 视频转码 剪映
▼前面提到 RTX40系显卡采用的 Ada Lovelace 架构使用了升级版的NVIDIA 编码器(NVENC),开始支持 AV1 编码,拥有者体积小画质高还免费的特点,对于视频网站来说体积小意味着对带宽要求小,网站负荷也更低,像国内有名的 B站就已经开始支持这种编码
▼而对于创作者来说,显卡能参与到转码渲染这一步骤来,无疑会极大的加快创作进度,像很多朋友喜欢使用的剪映也开始支持 AV1 转码,下图就是利用剪映输出视频,可以看到 GPU 是火力全开的状态。
2️⃣Blender Benchmark 测试
▼Blender是 一 款免费开源的三维图形图像软件,主要被用来进行三维可视化模型渲染,同时也可以创作广播和电影级品质的视频,而 Blender Benchmark 就是旗下专门测试硬件基准的工具,其包含 monster、junkshop、classroom三个测试项目,测试结果如下
3️⃣V-Ray 渲染性能测试
▼V-Ray Benchmark 是一款免费的独立渲染速度测试软件,主要用于测试计算机的渲染速度。包括测试 CPU的 V-Ray 、测试 CPU 与 GPU 协同工作的 V-Ray GPU CUDA,以及测试显卡 RTX 渲染性能的 V-Ray GPU RTX
测试结果如下: iGame GeForce RTX 4080 Ultra 16GB V-Ray 得分为14057分, V-Ray GPU CUDA 得分为 2942 分, V-Ray GPU RTX 得分为 3190 分。
4️⃣ OctaneBench 渲染性能测试
▼Octane Render是Otoy发布的 OC 渲染器,也是首个能够完全利用 GPU 进行加速的光线追踪渲染器,支持全互动光/环境/几何与运动模糊,材料编辑拖放功能。而OctaneBench 主要用来衡量 OctaneRender 渲性能。不过这个工具测试的是基于实时光线追踪的渲染能力,因此只有支持光追的显卡才能够运行。
测试得分 917.03
▼测试相关硬件如下
测试平台沿用之前主机,大部分硬件之前都做过展示,有兴趣的可以参看下文,这里重点谈谈几款升级的硬件。
▼显卡外观大量采用波普风格要素(其实我觉得就是卡通风格),算是比较少见的浅色系显卡。正面是 3 把 10cm风扇,九翼环形扇叶,聚风效果更加出色。
▼显卡顶部右边为 RGB 背光灯,上面为 16pin(12+4)供电接口,需要使用附带的转接线连接电源。 iGame GeForce RTX 4080 Ultra W使用了 5 根直径 6mm+ 2 根直径8mm 的热管,配合散热鳍片加速热传递,实现高效的散热。
▼不锈钢 IO 挡板,接口包括 DP1.4a X 3、HDMI2.1 X 1,以及一键超频按钮。显卡的涂层有点意思,换个角度色彩都不一样了。
▼显卡背面使用了异形开孔设计,大量粉红元素运用,满满的二次元风,至于能不能接受这种风格那就见仁见智了。
▼ iGame RTX 4080 Ultra 使用了 16GB GDDR6X 大显卡,带宽达到 716.8Gb/s。CUDA 核心为 9728,Boost 频率为 2505MHz,超频后最高频率为 2610MHz,利用 GPUZ 读取显卡信息如下
▼梦境是十铨的高端灯条系列,主打性能与灯效,可选频率 为3600MHz / 4000MHz,支持 XMP 2.0 一键超频以及主流主板的灯效同步。终身保固。这套条子我之前入了 16 X 2 的套装,然后趁着 双12 又入了两根,满足了我插满内存槽的欲望。
▼梦境的造型拿过德国红点设计大奖,外观设计上自然有两把刷子,内存表面为白色磨砂涂层,中间的分隔条做了电镀抛光处理,镜面反射感很强。顶部采用外斜面过渡,让顶部 RGB 展现幅度更广。内存颜值极高,无灯状态下也能感受到浓浓的设计美感。
▼梦境使用了 10 层电路板的高规格,单面颗粒带来更紧凑的整体厚度,也让内部空间更为充裕。内存发光区内置了 15 颗可以独立寻址的灯珠,每颗灯珠都可以独立设置,加上采用的 ARPG 同步技术使得灯效的衔接延迟几乎无感。点亮后的内存条通体散发出雪白柔和的光泽,光线轻柔的填满内存,真的有种置身梦境的感觉。
▼开启灯效同步 RGB 效果简直炸裂。梦境内存色彩变换时的过渡效果非常细腻,灯效柔和亮丽,给机箱内部增色不少。
▼利用 Thaiphoon Burner 读取SPD信息,可以看到十铨梦境颗粒型号来自三星K4A8G085WB-BCPB,正宗三星B-die颗粒。开启 XMP 频率为 14- 15 - 15 - 35,AIDA 64 测试下来读取速度为 50814MB/s,写入速度为 50450MB/s,复制速度为 48616MB/s,时延 82.7ns ,整体表现相当不错.
B660M-PLUS 重炮手虽然定位中端,但 10+1 Dr.MOS供电模组设计别说满足无法超频的 12700,就算 12900 也不成问题。DDR4 X 4 内存插槽,内嵌强化型金属隔板,最高支持 5333MHz ;PCIE 插槽 X 2,上方 一 根带有 SafeSlot 高强度金属加固,完整支持 PCI-E 5.0 X 16;两组 M.2 插槽都可以支持 PCI-E 4.0 X4 模式,不过下方的 M.2 不支持 SATA 协议,主板自带的 M.2 散热片也可以在 两 个插槽上自由切换。板载声卡 Realtek ALC897,支持 7.1 声道输出和 AI 双向降噪。
▼ROG STRIX 吹雪360 是我用过最强悍的水冷散热。它采用第 七 代 Asetek 水泵,三个 12cm 定制冷排风扇, 冷排长度为 394mm,三 个风扇运行时的转速可达 800-2500 RPM,最大风量 80.95 CFM / 137.5 m3h,最大风压 5.0 mmH2O , PWM / DC 控制模式能更加准确的控制转速。
▼水路为橡胶材质,表面覆盖了一层编织保护套。冷排则是密集波状鳍片设计,尺寸为 121mm x 394mm。水冷头为圆腔造型,表面有 一 层NCVM涂层覆盖,边缘处有四个三 角块进行点缀,运行时可以提供不同色的点缀。有一说一,华硕的东西做工是真好,一眼就是满满的精致感。
▼华硕这款雪鹰 850W 个人强烈推荐,有信仰有颜值做工好走线方便,价格也不错。全日系电容,额定功率为850W,性能强悍。主动式PFC + 全桥LLC谐振 + 同步整流 + DC to DC结构,Axial--Tech轴流风扇 + 双滚珠轴承风扇配合 ROG散热模组可以实现 40% 负载下零噪音输出,就算负载超过 90% 噪音值也不会超过 25dB,性能与安静兼得。
▼标配的网纹软线,柔软耐磨还特别方便走线。最关键的是原装线材在承受电流经过时稳定性远超第三方定制线材,
▼很多人怀疑 850W 电源是否够用,实测 4080 最高功耗不到 350W,雪鹰 850W 本身经过 80 plus 金牌认证,不会发生虚标功率的现象。
▼AP 201 定位虽然是 M-ATX,但超级能装,能够支持全长显卡 、360 水冷 以及 ATX 电源。机箱采用全网孔设计,顶部、左侧、右侧和前侧都是密密麻麻的开孔,散热给力。侧板顶板前面板都可以自由拆卸,卡扣加定位钉的固定方式无需任何工具就能轻松卸下。
▼机箱做工是真的无愧信仰,漆面均匀,倒角圆润,细节也是逼死强迫症。我有两个很大的感触,一是机箱前面板接缝处孔位堪称完美对应,二是机箱的脚垫,透明磨砂的PC材质使得机箱有种悬浮的质感。讲真这个价位,这个细节处理,这个做工工艺完全称得上超值。
▼AP201内部空间很宽松,后方的走线槽深度也给的够深,装机可以说是毫无压力。最明显的的一点是装机完成后可以在不拆卸 360 冷排的情况下取下主板,这个空间可以说是这个尺寸里面独一份了。七彩虹 iGame GeForce RTX 4080 长度为 337mm,而 AP201 在安装 ATX 电源时对显卡的限长为 338mm。实测真的是刚好能放下,多 1mm 都不行那种精确度。
▼这台显示器也是前几天入手的,优派本身就属于显示器一流品牌, VX2781-4K-PRO 更属于旗舰型号。画质方面有MiniLED 量子点技术加持、有 DisplayHDR 1000认证、有色彩专家调教带来的出色画质,以及近乎完美的控黑控曝能力。而对于游戏玩家来说,Fast IPS 快速液晶面板提供了 150Hz 电光刷新, 1ms响应时间、以及同时兼容FreeSync 、 N卡的 G-sync 功能,游戏时根本不用担心拖影撕裂等问题。
▼此外,VX2781-4K-PRO 还提供了充足的接口以及丰富的功能,甚至连 RGB 灯效都没落下。可能最大的不足的就是接近 5000的价格了,不过细想想,具有相同素质的显示器,就算是三线品牌也在 4000+,而且显示器通常服役时间较长,一步到位也是不错的选择。
首先要搞清楚,4080/4090并不是只有游戏玩家喜欢,可以看到 40系的新特性也以生产力为主,而且,老黄的 AI 计算、cuda 生态方面的能力目前来看也是无敌的存在。所以,40系显卡的价格绝对不能从游戏玩家的角度来看。说白了,这个等级的卡就不是给普通玩家准备的。
更尴尬的是,苏妈的 7000系定价更是神奇,直接干到了 7000+。话说老黄的 40系有生产力加成,你的7900XT/XTX 除了游戏还有啥,真就为了战未来?简直活生生衬托出老黄的良心定价。
总结下吧, iGame RTX 4080 Ultra 性能绝对到位,游戏方面主流 3A 游戏在 DLSS 的加持下跑个 4K144Hz 都属于起步标准,生产力方面得益于 Ada Lovelace架构的性能提升,拥有双NVENC编码器和支持 AV1编码,对于视频剪辑、3D建模、直播推流有性能上的加成。目前这款显卡的最低价格是 9399,已经是破发了。有兴趣的朋友可以关注一波。