NVIDIA 正式发布全新 GeForce RTX 4090 显示卡,採用全新 AD102 绘图核心、升级新一代 Ada GPU 微架构、CUDA Core 增加至 16,384 个、第 3 代 RT Core 及第 4 代 Tensor Core、24GB GDDR6X 容量,与上代架构相比光删化性能提升 2 倍、Ray Tracing 性能提升 4 倍,并且在绝大部份游戏下 4K 光追能够达至 100 FPS+,这么威猛的规格与性能值得硬体爱好者深入了解一下。
NVIDIA GeForce RTX 40 系列技术说明
GeForce RTX 40 系列登场
NVIDIA 11 日正式发布首款 Ada Lovelance GPU 架构产品、核心代号为 AD102 的旗舰级 GeForce RTX 4090 显示卡,现代 GPU 图形运算技术不断提升,游戏画面的几何複杂性与光线运算技术皆大大提升,画面亦变得更加逼真,当 NVIDIA 发布 Turing GPU 架构时,Battlefield 5 仅为每个像素需要 39 次光线追踪操作来计算典型场景中的光照效果,但 4 年过后 Cyberpunk 的 RT:Overdrive 模式已经增至每像素推动超过 600 次光线追踪计算,因此需要更强大的 GPU 才能满足游戏的进步。
与之前的 Ampere GPU 架构相比,NVIDIA Ada Lovelance GPU 在光栅化游戏中的速度高达 2 倍,在光线追踪游戏中的速度高达 4 倍,是 NVIDIA 历史上最大的一代性能升级 (每一代都这样说 XD) ,主要得四大关键创新︰
革命性的架构规模提升:
Ada Lovelance GPU 架构规模大大提升,在製程创新下 NVIDIA 工程师能製造出具有 763 亿个电晶体、拥有高达 18,432 个 CUDA Core 晶片,并且能运作超过 2.5GHz 时脉以上,却可以保持与 GeForce RTX 3090 Ti 相同的 450W TGP 功耗表现。
更强大的 Ada Lovelance RT Core :
为了实现更强大的光线追踪能力,Ada Lovelance GPU 架构升级第 3 代 RT Core 新增了两个硬体单元;Opacity Micromap Engine 可将经过 alpha 测试的几何体的光线追踪速度提升 2 倍,而 Displaced Micro-Mesh Engine 可即时产生 Displaced Micro-Triangles 以建立额外的几何体,能大大增加光线追踪的复杂却不会对 GPU 性能及储存造成负担。
着色器执行重新排序︰
Ada Lovelance GPU 架构的 SM 支援着色器执行重新排序,可以动态组织及重新排程着色器的工作负载,令光线追踪的着色效率大大提升,在 Cyberpunk 的 RT:Overdrive 模式中,性能相较上代 SM 提升 44%。
NVIDIA DLSS 3 技术︰
Ada Lovelance GPU 架构新增 DLSS 3 技术,升级第 4 代 Tensor Cores 新增全新的光流加速器能提供 AI 画帧生成功能,可将 DLSS 3 的帧速率提升至之前的 DLSS 2.0 的 2 倍,同时保持或超过原生图像品质,并且新增 FP8 张量运算能力,与传统的蛮力图形渲染相比,DLSS 3 最终速度提高了 4 倍,同时提供了低系统延迟。
NVIDIA 11 日将会正式发布 GeForce RTX 4090 型号,基于 AD102 绘图核心、拥有 16,384 个 CUDA Cores、24GB GDDR6X 容量,MSRP 定价 NT$ 56,990,能够在大部份 4K + RT 启动下提供 100FPS+ 游戏性能。
紧接 11 月会将会再发布 2 款 GeForce RTX 4080 型号,RTX 4080 12GB 基于 AD104 绘图核心,拥有 7,680 个 CUDA Cores、12GB GDDR6X 记忆体,RTX 4080 16GB 基于 AD103 绘图核心,拥有 9,728 个 CUDA Cores、16GB GDDR6X 记忆体,MSRP 售价分别为 NT$ 32,990 与 NT$ 42,990。
TSMC 4N 製程、NVIDIA AD102 绘图核心
NVIDIA AD102 绘图核心基于全新 Ada Lovelance 微架构,并用于 GeForce RTX 4090 产品之中,性能提升主要来自 FP32 运算单元数目及时脉倍增,更大的 L2 快取容量及全新着色器执行排序技术,升级第 3 代 RT Cores、升级第 4 代 Tensor Cores,与上代比较 Ampere GPU 微架构比较,传统光栅图形运算提高了 2 倍,同时在光线追踪性能上提升近 4 倍。
GeForce RTX 4090 採用 AD102-300 绘图核心,採用 TSMC 4N NVIDIA Custom 製程,拥有 763 亿个电晶体、 Die Size 608.5mm² 相较上代 GA102 的 628mm² 还要小,完整的 AD102 晶片内建 12 个 GPC 单元、72 个 TPC 纹理处理群集及 144 个 SM 串流多处理器,增至 18432 个 CUDA Cores、144 个 RT Cores 及 336 个 Tensor Cores。
不过,GeForce RTX 4090 部份单元作出了遮蔽,精简至只有 11 个 GPC 单元、64 个 TPC 纹理处理群集及 128 个 SM 串流多媒体处理器,具备 16,384 个 CUDA Cores、128 个 RT Cores 及 512 个 Tensor Cores。
核心时脉方面,虽然晶片规模大幅提升但时脉仍然保持于超高水平,GeForce RTX 4090 预设时脉 2.23GHz、Boost 时脉为 2.52GHz,最高 TGP 为 450W。
此外,GeForce RTX 4090 採用 21Gbps GDDR6X 记忆体,384-bit 记忆体介面总频宽为 1008GB/s,更重要是 L2 快取容量大幅增加至 73,732KB,相较 AMD 的 Infinity Cache 作为 L3 Cache 拥有更高效率,能大幅升游戏 Workload 资料命中率,降低读取延迟达并减少 GDDR6X 记忆体频宽使用。
Founders Edition | RTX 4080 12G | RTX 4080 16G | RTX 4090 |
---|---|---|---|
GPU Codename | AD104 | AD103 | AD102 |
GPU Architecture | NVIDIAAdaLovelance | NVIDIAAdaLovelance | NVIDIAAdaLovelance |
GPCs | 5 | 7 | 11 |
TPCs | 30 | 38 | 64 |
SMs | 60 | 76 | 128 |
CUDA Cores / SM | 128 | 128 | 128 |
CUDA Cores / GPU | 7680 | 9728 | 16384 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 240 (4th Gen) | 304 (4th Gen) | 512 (4th Gen) |
RT Cores | 60 (3rd Gen) | 76 (3rd Gen) | 128 (3rd Gen) |
GPU Boost Clock (MHz) | 2610 | 2505 | 2520 |
Peak FP32 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak FP16 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak BF16 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak INT32 TOPS (non-Tensor) | 10.6 | 24.4 | 41.3 |
RT TFLOPS | 92.7 | 112.7 | 191 |
Peak FP8 Tensor TFLOPSwith FP16 Accumulate | 320.7/641.4 | 389.9/779.8 | 660.6/1321.2 |
Peak FP8 Tensor TFLOPSwith FP32 Accumulate | 320.7/641.4 | 389.9/779.8 | 660.6/1321.2 |
Peak FP16 Tensor TFLOPSwith FP16 Accumulate | 160.4/320.8 | 194.9/389.8 | 330.3/660.6 |
Peak FP16 Tensor TFLOPSwith FP32 Accumulate | 80.2/160.4 | 97.5/195 | 165.2/330.4 |
Peak BF16 Tensor TFLOPS | 80.2/160.4 | 97.5/195 | 165.2/330.4 |
Peak TF32 Tensor TFLOPS | 40.1/80.2 | 48.7/97.4 | 82.6/165.2 |
Peak INT8 Tensor TOPS | 320.7/641.4 | 389.9/779.82 | 660.6/1321.2 |
Peak INT4 Tensor TOPS | 641.4/1282.8 | 779.8/1559.6 | 1321.2/2642.4 |
Frame Buffer Memory Size and Type | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
Memory Interface | 192-bit | 256-bit | 384-bit |
Memory Clock (Data Rate) | 21 Gbps | 22.4 Gbps | 21 Gbps |
Memory Bandwidth | 504 GB/sec | 716.8 GB/sec | 1008 GB/sec |
ROPs | 80 | 112 | 176 |
Pixel Fill-rate (Gigapixels/sec) | 208.8 | 280.6 | 443.5 |
Texture Units | 240 | 304 | 512 |
Texel Fill-rate (Gigatexels/sec) | 626.4 | 761.5 | 1290.2 |
L1 Data Cache/SharedMemory | 7680 KB | 9728 KB | 16384 KB |
L2 Cache | 49152 KB | 65536 KB | 73728 KB |
Register File Size | 15360 KB | 19456 KB | 32768 KB |
Video Engines | 2x NVENC (Gen8) | 2x NVENC (Gen 8) | 2x NVENC (Gen 8) |
1x NVDEC (Gen5) | 1x NVDEC (Gen5) | 1X NVDEC (Gen 5) | |
TGP Power | 285W | 320W | 450W |
Transistor Count | 35.8 Billion | 45.9 Billion | 76.3 Billion |
Die Size | 294.5mm² | 378.6mm² | 608.5mm² |
Manufacturing process | TSMC 4N | TSMC 4N | TSMC 4N |
PCIe Interface | Gen4 | Gen4 | Gen 4 |
经改良的 Ada Lovelance 架构
GPC 是 NVIDIA GPU 中最顶层的硬体区块,所有关键图形处理单元都位于 GPC 中。 Ada Lovelace 每个 GPC 包括 1 个专用的光栅引擎、 2 个光栅操作 (ROP) 分区,每个分区包含 8 个单独的 ROP 单元和 6 个 TPC,每个 TPC 包括 1 个 PolyMorph 引擎和 2 个 SM。
AD102 GPU 中的每个 SM 包含 128 个 CUDA Core、 1 个 Ada Lovelace 第三代 RT 核心、4 个 Ada Lovelace 第四代 Tensor Cores、4 个 Texture 纹理单元、 1 个 256 KB 档案暂存器和 128 KB 的 L1 / 共享记忆体,可根据图形或计算工作负载需求分配成不同的记忆体大小。
与 Ampere GPU 一样,AD102 的 SM 单元分为 4 个分区,每个分区包含 1 个 64 KB 档案暂存器、一个 L0 指令缓存、一个 warp 调度程序、一个调度单元、16 个专用于处理 FP32 的 CUDA 核心操作,每个週期最多可处理 16 个 FP32 操作,16 个可以处理 FP32 或 INT32 操作的 CUDA 核心,每个週期 16 个 FP32 操作或每个时钟 16 个 INT32 操作, 4 个加载 / 存储单元,以及执行超越和图形插值指令的特殊功能的 SFU 单元,除了换上第 4 代的 Tensor Core 设计,FP 单元在微架构上并没有太大变动。
与上代 Ampere GPU 相比,Ada Lovelace GPU 的 L2 快取进行了彻底改造,完整的 AD102 GPU 拥有高达 98304 KB 的 L2 快取,比 GA102 中的 6144 KB 提高了 16 倍,所有应用程式都将受益于拥有如此庞大、更高速的 L2 快取,例如 Ray Tracing 光线追踪当中的路径追踪之类的複杂操作将产生最大的好处,相较 AMD 的 Infinity Cache 作为 L3 快取拥有更高效率,能大幅升游戏 Workload 资料命中率,降低读取延迟达并减少 GDDR6X 记忆体频宽使用。
此外,AD102 GPU 受惠于 TSMC 4N 製程,在 NVIDIA 工程师与 TSMC 密切合作下令 AD102 能包含更多的运算核心,AD102 包含的 CUDA 核心比上一代 GA102 GPU 多 70%,拥有高达 763 亿个电晶体,并且关键路径中使用高速晶体管设计,令 AD102 GPU 时脉可运作于 2.5GHz 甚至更高,并且提供了出色的能耗比,对比 RTX 3090 Ti GPU 在相同功耗运作时,RTX 4090 GPU 可以提供接近 2 倍的性能表现,如果启用 DLSS 3 技术后甚至最高可达 4 倍。
升级第 3 代 Ray Tracing 引擎
Ray Tracing 光线追踪技术是一种密集型渲染技术,可以逼真地模拟场景及物件的光线,即时以物理方式渲染正确的反射、折射、阴影及间接照明效果。过去的 GPU 架构并无法对游戏及图形进行複杂的即时光线追踪处理,NVIDIA 经过过 10 年的研究及开发,终于在上代 GeForce RTX 20 的「Turing」GPU 微架构中加入硬体光线追踪加速引擎 —「RT Cores」,结合 NVIDIA RTX 软体引擎,实现逼真的实时光线场景效果。
到了 GeForce RTX 30 系列的 Ampere GPU 升级了第 2 代的 RT Cores,BVH 遍历与射线三角交测运算能力提升了 2 倍,第 1 代 Turning SM 在 Ray Tracing 运算时不能同时执行绘图或运算,到了 Ampere SM 强化了异步运算能力,当执行 Ray Tracing 运算时可同步进行绘图或运算,令 Ray Tracing 的游戏执行效率大大提升。
来到 GeForce RTX 40 的 Ada Lovelace GPU 升级至第 3 代 RT Cores,它的 Triangle Intersection Engine 相较上代快 2 倍的 Ray-Triangle 相交吞吐量,能为游戏场景中加入更多细节,同时有快 2 倍的 Alpha Traversal 处理能力,新增 Opacity Micromap Engine 直接对几何物件进行 alpha 测试,并显着减少基于着色器的 alpha 运算量。
在 Ada Lovelace GPU 之前,当光线扭曲投射到不同程度透明级别的物件时,例如叶子或火焰等複杂形状通常使用纹素的 alpha 通道来表示,单个光线运算也可能需要多次着色器调用才能完成,即使光线只是简单地表徵为命中或未命中都需要大量的运算成本。
为了更有效处理此类内容,NVIDIA 工程师在第 3 代 RT Core 中增加了 Opacity Micromap Engine,为非不透明物件产生微三角形的虚拟网格,每个微三角形都具有不透明状态,RT Core 使用该状态直接解析与非透明三角形的光线交叉点,令 Alpha 场景遍历性能大幅提升,性能升幅很大程度取决于使用情况,如果场景出现大量投射在 alpha 测试几何体上的阴影光线时会看到最大的收益。
第 3 代 RT Core 另一个重要提升是添加 Displaced Micro-Mesh Engine,透过将几何结构换置成微网格,利用 LOD 细节层进行光栅化,相较使用传统三角几何光线追蹤处理,不仅拥有更多细节,相较上代 BVH 数据构建速提升了 10 倍, BVH 所需资料容量减少了 20 倍,而且对複杂环境进行光线追踪时,追踪成本缓慢增加,几何增加 100 倍可能只会增加 1 倍追踪时间。
上代 Ampere GPU 可能需要 1024 个三角几何与複杂的 BVH 结构进行的光线追踪,同样的效果透过 Displaced Micro-Mesh Engine,只需要 1 个基础三角形和 1个更换贴图定义及简单的 BVH 结构就能完成,可以在不相应增加处理时间或记忆体消耗的情况下实现丰富度的数量级增加。
Shader Execution Reording 技术
为实现游戏即时光线追踪的逼真渲染,运算时增加了大量的环境中模拟光线运动,同时亦意味着 GPU 原始处理工作量变得越来越不连贯。例如,用于反射、间接照明和半透明效果的二次光线往往会射入,不同的方向并击中不同的材质,导致二次击中着色器的有序性和效率较低,不规律性的运算会导致 GPU 的处理单元 SM 的低效使用,因此 NVIDIA 在 Ada Lovelace GPU 架构中加入 Shader Execution Reording 着色器执行重新排序技术,它可以动态地重新排序着色工作以实现更好的执行效率。
透过 Shader Execution Reording 技术,着色器执行重排序时在光线追踪管道中添加了一个新阶段,该阶段对二次命中着色进行重新排序和分组,以具有更好地执行局部性,在 Cyperpunk 2077 RT: Overdrive 模式下,启动 ShaderExecution Reording 技术后性能提升高达 44%,相当惊人。
升级第 4 代 Tensor Cores、全新 DLSS 3 技术
Tensor Cores 是专门为在 AI 和 HPC 应用程式中使用的矩阵乘法和累加数学运算量身定制的高性能运算,可以用于为矩阵计算提供了突破性的性能,这对于深度学习神经网路训练和边缘发生的推理针对游戏应用层面,Tensor Cores 其中一个重点就是加入全新 DLSS 深度学习超级採样技术,透过深度神经网络提取渲染场景的多维特徵,并智能地组合来自多个帧的细节,以构建高品质 3D 影像。与传统的 AA 技术相比,DLSS 使用更少的输入样本,同时避免了透明度和其他复杂场景元素的算法难度。
全新 Ada Lovelace GPU 微架构升级至第 4 代 Tensor Cores 运算单元,相较上代在 FP16、BF16、TF32、INT8 和 INT4 性能提升2 倍以上,新增 FP8 运算能力 AD102 可提供超过 1.3 PetaFLOPS 的张量处理,并且升级至 DLSS 3 技术能透过深度学习使用 AI 生成整帧以大幅提升性能。
DLSS 3 技术是将先前 DLSS 2 技术,透过 Tensor Cores 运动矢量运算与超解析度技术下,在帧与帧之间加插由以 AI 运算生成的新帧,启用 DLSS 3 后,AI 将使用 DLSS 超解析度重建第一帧的 3/4,并使用 DLSS AI 帧生成重建整个第二帧,因此 DLSS 3 重建了总显示像素的 7/8,因此显着提高了性能。
为了令 AI 帧成生的影像不会出现重影、卡顿和模糊等伪影, ADA Lovelace GPU 新增 Optical Flow Accelerator 光流加速器,它能捕获粒子、反射、阴影和照明等资讯,DLSS 3 可以计算场景中的一切是如何从一个像素移动到另一个像素的,令游戏画面不会出现异常重建。
更重要的是 DLSS 3 可以减低 CPU 造成的性能瓶颈,一些需要 CPU 物理模拟的游戏例如 Microsoft Flight Simulator (微软模拟飞行),对于 CPU 的性能要求十分高,因此 GPU 经常处于空闲状态等待指令,DLSS 3 可以将 CPU 密集型游戏转换为 GPU 密集型游戏,因为在 AI 生成帧中全由 GPU 负责,因此在执行 CPU 受限的游戏,例如那些需要大量物理或涉及大型开放世界的游戏, GeForce RTX 40 系列显卡在相同 CPU 运算能力下,帧速率高达两倍的帧速率进行渲染。
升级第 8 代 NVENC 编码引擎
为提升 GPU 编辑性能,NVIDIA AD102 GPU 配搭了两个第 8 代 NVENC 编码器,上代 Ampere GPU 只提供 AV1 解码支援,Ada Lovelace 新增 AV1 编码支援能力,其编码效率相较 H.264 编码器提升了 40%,可支援 8K/60 HDR 或是同时为 4 个 4K/60 HDR 影片编码运算。
解码器方面,NVIDIA AD102 GPU 与上代一样拥有 1 个第 5 代 NVDEC 解码器,支持 MPEG-2、VC-1、H.264 (AVCHD)、H.265 (HEVC)、VP8、VP9 和 AV1 影片格式的硬体加速影片解码,支援 8K/60 解析度。
NVIDIA GeForce RTX 4090 Founder Edition 外观简介
收到由 NVIDIA 送测的 GeForce RTX 4090 Founder Edition 显示卡,外观设计与上代 GeForce RTX 3090 Ti 相似,只有少许细节上的差异,例如金属外框向内微凹,使用的字体亦有所改动,上手后可以感受到 NVIDIA 对细节的重视,卡的正面都是雾黑色的散热鳍片,边缘採用钛金色铝金属框架,并且印有 RTX 4090 字样,沿用轴向式散热设计,正反两面各有一个 12cm 散热风扇,能够将部份废热排向 CPU 区域及直接排出机壳,令机壳内部温度变得更平均。
GeForce RTX 4090 Founder Edition 相较 RTX 3090 Ti 更庞大,尺寸为 304mm x 137mm x 61mm 根本上小机壳都可以直接略过,用上 Triple Slot 散热器、双 12cm 轴向式散热风扇,顶端 GeForce RTX 字样在运作时会透出白色 LED 灯效,可惜不是 RGB 灯效。
考虑到大部份人安装显示卡后,从机壳外看进去只会看到卡背,NVIDIA 将设计反转,把背板变成正面,并显示着「RTX 4090」字样,整张卡所有螺丝孔都用磁吸隐藏了,NVIDIA 真的是从使用者的角度、在细节中作出了考量,难怪那么多玩家想买 Founder Edition。
NVIDIA PG136D 公板设计
拆开散热器后,以看到它採用 PG136D 公板设计,与 RTX 3090 Ti PCB 布局非常相似 ,NVIDIA 刻意将电路板尽量缩小,让卡身可以镂空,让轴向式风扇将带气流带到 CPU 区域,12 Layers PCB 设计并经过低阻抗提供讯号及电力传输最佳化,同时保留了不俗的超频性能。
供电设计方面,升级至 23 相 Dual FET 供电模组设计,其中 20 相负责 GPU 供电、3 相负责 GDDR6X 供电,採用 Monolithic Power Systems MP2891 VRM 控制晶片配搭 Monolithic Power Systems MP86957 70A DrMOS 晶片。
NVIDIA AD102-300 绘图核心
NVIDIA GeForce RTX 4090 Ti 採用了经删减后的 AD102-300 绘图核心,採用 TSMC 4N 製程、拥有 763 亿个电晶体、Die Size 约为 608.5mm²,部份单元作出了遮蔽,删减至只有 11 个 GPC 单、64 个 TPC 纹理处理群集及 128 个 SM 串流多媒体处理器,具备 16,384 个 CUDA Cores、128 个 RT Cores 及 512 个 Tensor Cores。
核心时脉方面,虽然晶片规模大幅提升但受惠于 TSMC 4N 製程,GPU 时脉相较上代大幅提升,GeForce RTX 4090 FE 预设为 2.23GHz 基础时脉、2.52MHz 加速时脉,支援 GPU Boost 4.0 技术可因应负载自动超频至更高时脉,最高 TGP 为 450W 与 RTX 3090 Ti 相同。
384-bit 24GB GDDR6X 记忆体容量
记忆体方面,GeForce RTX 4090 具备 24GB GDDR6X 记忆体容量及 384-bit 记忆体控制器,记忆体频宽由 448GB/s 提升至高达 1008GB/s (1TB/s),再加上更高的 74MB L2 快取容量,以满足更高解析度、更複杂的着色器渲染运算画面。
採用了12 颗 Micron D8BZC GDDR6X 颗粒编号,为 MT61K512M32KPA-21:U 并支援 ECC 功能,每颗单颗容量为 16Gbit (2GB),总供 24GB 显示记忆体容量,採用单面 24GB GDDR6X 记忆体配置,可避免 RTX 3090 双面 24GB GDDR6X 记忆体配置的背面记忆体颗粒过热问题,在 NVIDIA Control Panel 程式中,使用者可以看到 GeForce RTX 4090 能支援 NVIDIA Quadro / Tesla 系列专业绘图卡才能拥有的 ECC 功能。
Triple Slot 轴向式散热器设计
NVIDIA GeForce RTX 4090 FE 沿用轴向式散热设计,设计与 RTX 3090 Ti 相同只是变得更巨型了,Triple Slot 双 12 cm 风扇,GPU / VRM 及 GDDR6X 记忆体位置被巨型 Vapor Chamber 均热板覆盖,再透过 6 支导热管传导至另一组散热鳍片,搭配两颗 12cm 风扇,其中一颗反叶设计让冷空间穿过卡身末端排向 CPU 区域。
採用 12VHPWR 供电接头
供电方面,GeForce RTX 4090 Founder Edition 採用 12 +4 Pin 的 12VHPWR 供电接头,单一接头最高可提供 600W 供电,由于原生支援 12VHPWR 连接线的电源供应器太少,NVIDIA 随产品附 PCIe 8Pin x4 转 12VHPWR 转接线,要记住转接线有物理限制,在其接触点开始磨损之前,可以重複插拔的最大次数为 30 次,同时不要过份弯曲使用,否则可能会导致短路。
轴向式散热器设计
NVIDIA GeForce RTX 4090 Founder Edition 提供了 3 组 Display Port 1.4a + DSC 及 2 组 HDMI 2.1 影像输出,两种输出介面皆可提供最高 4K@240Hz 或 8K@60Hz 12bit HDR 解析度输出,支援 VEGA DSC 1.2 无损压缩显示功能,单卡能提供最高 2 个 8K@60Hz HDR 显示输出,或是组合 2 组 DisplayPort 介面提供单一 8K@120Hz HDR 输出。
效能测试:对决 GeForce RTX 3090 Ti FE
要测试 GeForce RTX 4090 Founder Edition 显示卡当然要有一个强悍的对手,上代卡皇 GeForce RTX 3090 Ti Founder Edition 能扮演此一角色,方便大家了解新一代 GeForce RTX 4090 的效能水平。
时脉方面,NVIDIA GeForce RTX 4090 FE 预设为 2,235MHz 基础时脉、2,520MHz 加速时脉,支援 GPU Boost 4.0 技术最高可达 2,745MHz。
散热方面,NVIDIA GeForce RTX 4090 FE 在约 25℃ 的室温环境下闲置约 30分钟,GPU温度维持在 36℃。接着採用 Furmark 进行 3D 负载测试,将显示卡烧机 30 分钟后,温度则提升至 70°C 的水平,GPU 时脉保持在 2,535MHz,在全负载时的时脉相较 NVIDIA GeForce RTX 3090 Ti FE 高了近 1GHz。
Open CL Memory Benchmark 记忆体频宽测试︰
测试平台︰
CPU | Intel Core i9-12900K |
---|---|
主机板 | ASROCK Z690 AQUA OC |
显示卡 | NVIDIA GeForce RTX 3090 Ti FE |
显示卡 | NVIDIA GeForce RTX 4090 FE |
显示卡 | AMD Radeon RX 6950 XT |
记忆体 | G.SKILL DDR5-6000 CL30-38-38-39 16GB x 2 @1.35V |
系统 | Windows 11 Professional 22H2 |
驱动 | NVIDIA GeForce Driver 521.90 WHQL |
3DMark 测试︰
3DMark 作为最广泛的 3D 性能基準测试,性能对比结果当然不可缺少,根据测试显示 GeForce RTX 4090 游戏性能相较上代产品有明显提升。
Time Spy | Time Spy Extreme | |
---|---|---|
Radeon RX 6950 XT | 19457 | 9290 |
GeForce RTX 3090 Ti | 19555 | 10046 |
GeForce RTX 4090 | 33100 | 16861 |
FireStrike | FireStrike Extreme | FireStrike Ultra | |
---|---|---|---|
Radeon RX 6950 XT | 41745 | 26992 | 14819 |
GeForce RTX 3090 Ti | 36189 | 24486 | 14225 |
GeForce RTX 4090 | 54895 | 39440 | 24946 |
3DMark Ray-Tracing 测试︰
3DMark Port Royal 是首款针对即时光线追蹤所设计的测试工具,支持 Microsoft DirectX Raytracing 技术,让玩家测试不同显卡对于光线追蹤的效能,拥有第 3 代 RT Core 的 RTX 4090 绝对是神一般的存在,测试得分为 25995 大幅压倒 RTX 3090 Ti 与 RX 6950 XT。
Port Royal | |
---|---|
Radeon RX 6950 XT | 10789 |
GeForce RTX 3090 Ti | 14771 |
GeForce RTX 4090 | 25995 |
游戏效能测试:
以下的游戏测试除另外指明外,全部皆以 3840 x 2160 解析度全萤幕执行,画质皆设定为最高品质,若游戏支援光线追蹤技术则同时将光追特效全开。而 DLSS 方面则统一使用 Performance 设定,当中 GeForce RTX 4090 亦会启用 DLSS 3 中新增的 Frame Generation 技术。
A Plague Tale : Requiem 瘟疫传说:安魂曲
4K + DLSS Off | 4K + DLSS On | |
---|---|---|
GeForce RTX 3090 Ti | 44.9 | 80.4 |
GeForce RTX 4090 | 78.5 | 174.9 |
Cyberpunk 2077 (New RT Overdrive)
4K RT + DLSS OFF | 4K RT + DLSS On | |
---|---|---|
GeForce RTX 3090 Ti | 24.1 | 66.4 |
GeForce RTX 4090 | 43.2 | 149.8 |
F1 22
4K RT + DLSS OFF | 4K RT + DLSS ON | |
---|---|---|
GeForce RTX 3090 Ti | 60 | 137 |
GeForce RTX 4090 | 96 | 232 |
Justice Online 逆水寒
4K RT + DLSS Off | 4K RT + DLSS On | |
---|---|---|
GeForce RTX 3090 Ti | 7.9 | 26.6 |
GeForce RTX 4090 | 51.4 | 110.7 |
Microsoft Flight Simulator 微软模拟飞行
4K + DLSS OFF | 4K + DLSS ON | |
---|---|---|
GeForce RTX 3090 Ti | 54.1 | 81.7 |
GeForce RTX 4090 | 77.4 | 169.9 |
Tom Clancy's Rainbow Six Siege 虹彩六号:围攻行动
1080P | 2K | 4K | |
---|---|---|---|
GeForce RTX 3090 Ti | 592 | 513 | 321 |
GeForce RTX 4090 | 613 | 586 | 517 |
Unreal Engine 5 : Lyra Demo
4K RT + DLSS Off | 4K RT + DLSS On | |
---|---|---|
GeForce RTX 3090 Ti | 58.1 | 114.3 |
GeForce RTX 4090 | 90.7 | 197.2 |
DaVinci Resolve Studio 18 硬体编码效能测试:
除了游戏性能的提升外,对于许多创作者来说显示卡的硬体的编解码速度同样重要。NVIDIA GeForce RTX 4090 就拥有两个第 8 代 NVENC 编码器,不但新增了 AV1 编码能力,在 H.264 及 H.265 编码速度上亦有明显的提升。
测试採用 DaVinci Resolve Studio 18 影片剪辑软体,分别使用 GeForce RTX 4090 及 RTX 3090 Ti 以 H.265 及 AV1 编码格式各输出一条 4K 及 8K 的影片,结果显示 RTX 4090 的 H.265 编码速度比 RTX 3090 Ti 快了一倍以上,而在 AV1 编码上更比 RTX 3090 Ti 快了 N 倍,因为 RTX 3090 Ti 根本不支援 AV1 硬体编码。
测试项目 | GeForce RTX 3090 Ti FE | GeForce RTX 4090 FE |
---|---|---|
4K30 - H.265 | 00 : 32 | 00 : 14 |
8K30 - H.265 | 01 : 55 | 00 : 46 |
4K30 - AV1 | 不支援 | 00 : 14 |
8K30 - AV1 | 不支援 | 00 : 50 |
*结果为输出影片完成时间,时间越短代表编码速度越快。
编辑评语︰
NVIDIA GeForce RTX 4090 将游戏性能带到另一个高度,让所有 3A 游戏大作也可以用 4K 解析度 + RTX On 运作,尤其在 DLSS 3 模式下其性能更是跳跃式成长,现时已知悉会有 35 款游戏支援 DLSS 3,年底前将会有 100 款游戏支援。
相信在 RTX 40 系列推动下,RT On 将会变成玩游戏的基本配置,不过 NVIDIA 真的需要在 GPU 功耗方面多下功夫,450W 已经有点夸张了。
GeForce RTX 4090 官方网站
资料来源
以上内容及测试数据为 HKEPC 独家授权给 UNIKO's Hardware 编译