NVIDIA RTX 5090 D 超詳實測!NVIDIA 發布新一代 GeForce RTX 50 系列顯示卡,使用新一代 Blackwell 顯示核心架構,引入 RTX Neural Rendering、新一代 DLSS4 等新技術,效能再創新高!ezone.hk 今次除了解構 Blackwell 顯示核心架構特點外,更為各位實測當中最強的 GeForce RTX 5090 D,並與上代 Ada Lovelace 架構最強 GeForce RTX 4090 作比較。
即刻按此,用 App 睇更多產品開箱影片
NVIDIA RTX 5090 D 超詳實測
ezone.hk 首先為各位詳解 NVIDIA 新一代 Blackwell 顯示核心架構的特點:
Spot 01:最高 24,576 個 CUDA Core
GeForce RTX 5090D 使用的 GB202 核心,內建 922 億顆電晶體,相比之下上代 RTX 4090 只有 763 億顆電晶體。 完整的 GB202 核心,內建 12 個 GPC (Graphics Processing Clusters),每個 GPC 設有 8 個 TPC (Texture Processing Clusters) 及 16 個 SM(Streaming Multiprocessors) 及 16 個 ROPs ,而每個 SM 則擁有 4 組處理模組,每模組設 32 個 FP32/INT32 CUDA Cores 及 1 個 Tensor Cores。因此,完整的 GB202 核心可提供高達 24,576 個 CUDA Cores、96 個 TPCs 及 768 個 Tensor Cores。
不過, GeForce RTX 5090 D 只啟用了 GB202 核心當中 11 個 GPC,故提供了 21,760 個 CUDA Core、85 個 TPCs、680 個 Tensor Cores,並設 及 170 個 RT Cores,但較上代 RTX 4090 已大幅提升。此外,Blackwell 架構內的 L2 容量也大幅增加,以 GeForce RTX 5090 D 為例,L2 Cache 容量由 RTX 4090 的 73,728KB 激增至 98,304 KB。值得,RTX 5090 D 與 RTX 5090 規格及遊戲效能基本一致,只是 RTX 5090 D 的 AI 算力由 3,352 TOPS 降至 2,375 TOPS,以符合相關出口法規。
Spot 02: 第 5 代 RT Cores
Blackwell 採用了最新的第五代 Tensor Cores,支持 FP4、FP8 和 FP16 多種精度格式,運算能力高達 4000 AI TOPS。FP4 精度特別強調以最低的資源需求實現高效運算,這使其非常適合應用於大規模生成式 AI 模型。此外,Blackwell 架構還具備多任務並行處理能力,能在同一核心上同時執行多個 AI 模型和圖形渲染任務,大幅提升硬體資源的利用效率。
在 RT Cores 部分,Blackwell 架構的改進帶來了針對大型幾何場景的顯著性能提升。其創新的線性掃描球形結構(Linear Swept Spheres)通過更高效的數據格式,優化了光線與幾何結構交互的計算過程,進一步降低資源消耗。同時,三角形集群解壓與交叉引擎有效壓縮並加速了場景數據的處理流程,使光追場景的性能顯著提升。
總體而言,Blackwell 的光線三角形交叉速率相比上一代 Ada Lovelace 架構提高了 2 倍,而記憶體占用則降低了 25%,展現出革命性的性能突破和效率優化。
Spot 03:GDDR7 首現消費市場
NVIDIA 的 Blackwell 架構引入了最新的 GDDR7 記憶體技術,為圖形運算帶來了顯著的性能提升。GDDR7 採用全新 PAM3(脈衝幅度調製)技術,突破了傳統記憶體設計的限制,提供更高的資料傳輸速度與能效。以 RTX 5090 為例,其 GDDR7 記憶體速率高達 28 Gbps,記憶體頻寬達 1.792 TB/秒,相較前代 GDDR6X 大幅提升。
此外,GDDR7 的低功耗設計與先進的頻寬管理技術使其在提供卓越性能的同時,亦減少了能源消耗,特別適合高效能運算場景。在 Blackwell GPU 的支持下,這項技術的實現大幅提升了遊戲和專業應用中的高解析度圖形處理能力,同時降低了 VRAM 使用量,提高了整體資源利用效率。
整體而言,GDDR7 的引入不僅強化了 Blackwell 架構在高效能與高畫質場景下的表現,也為未來更高需求的生成式 AI 應用提供了重要基礎。
Spot 04:DLSS 4、Reflex 2 技術加持
NVIDIA 與 Blackwell 架構同時推出了 DLSS 4(Deep Learning Super Sampling 4),作為新一代的 AI 驅動升級技術,提升圖形處理的性能和畫質。
DLSS 4 的技術突破在於其多幀生成能力,這是一項基於 Transformer 模型的新技術,能顯著提高遊戲幀率並增強畫面表現力。
- 多幀生成(Multi-Frame Generation):DLSS 4 可通過生成多達 3 幀的 AI 驅動像素,實現遊戲幀數的多倍提升,達到全新的性能高度。
- 光線重建(Ray Reconstruction):優化了光追效果的細節,使畫面表現更為真實。
- 深度學習反鋸齒(DLAA):進一步提升畫面的邊緣平滑度與紋理細節,為高端顯示設備提供了絕佳的畫質支持。
DLSS 4 對各代 RTX 顯示核心支援
DLSS 4 是 NVIDIA 最新的 AI 驅動圖形升級技術,其支援範圍涵蓋多個世代的 RTX 顯示核心,但功能啟用程度因硬體規格而異。
RTX 50 系列:作為 Blackwell 架構的代表作,RTX 50 系列能充分發揮 DLSS 4 的全部功能,包括多幀生成(Multi-Frame Generation)、光線重建(Ray Reconstruction)及深度學習反鋸齒(DLAA),在 4K 分辨率下實現高達 8 倍的性能提升。
RTX 40 系列:DLSS 4 在 RTX 40 系列顯卡上部分功能可用,例如光線重建和 DLAA,但由於硬體限制,未能支援多幀生成,只提供基本的單幀生成。
RTX 30 系列與 RTX 20 系列:這些世代支援 DLSS 4 的基本功能如超級分辨率、光線重建及 DLAA,但無法運行進階的多幀生成技術。
NVIDIA Reflex 2:競技遊戲的革命性升級
NVIDIA Reflex 2 是專為競技遊戲設計的升級技術,進一步降低系統延遲,讓玩家在關鍵時刻擁有更快速的操作反應。其核心技術包括 Frame Warp,通過即時調整幀序,使畫面顯示與玩家操作高度同步,將延遲縮短至原來的一半。同時,Reflex 2 強化了 CPU 與 GPU 的同步工作流程,避免處理積壓,讓高幀數遊戲保持流暢。
此外,新增的 Reflex Inpainting 功能,利用 AI 技術修補幀序調整後的畫面瑕疵,確保遊戲畫面無卡頓,特別適合 240Hz 和 360Hz 的高更新率顯示器。
Reflex 2 已支援多款主流競技遊戲如《Valorant》和《The Finals》,並與 RTX 50 系列顯卡的 AMP 管理處理器深度整合,在高負載場景下依然提供穩定的低延遲表現。這項技術不僅適用於競技遊戲,也為虛擬現實(VR)和擴增實境(AR)應用帶來可能,減少眩暈感並提升沉浸式體驗。透過 Reflex 2,NVIDIA 為競技玩家與未來科技應用奠定了全新標準。
其他技術:RTX 神經渲染(Neural Rendering)、 NVIDIA ACE 等
可參考此文章:NVIDIA RTX 50 系列顯示核心完整解構!Blackwell 架構技術新時代!
解構 NVIDIA GeForce RTX 5090 D
GeForce RTX 50 系列暫時擁有 GeForce RTX 5090 D、RTX 5080、RTX 5070 Ti 及 RTX 5070 四款型號,當中最頂級的 RTX 5090 D 擁有高達 21,760 CUDA Cores,Boost Clock 達到 2.41GHz,配上 32GB 512-bit GDDR7 記憶體,官方定價 16,499 人民幣 (約 HK$17,735)。
由於 RTX 5090 D 不設 FE (Founders Edition) 版本,故 NVIDIA 提供的 Colorful iGame RTX 5090 D Advanced 32GB 作為樣本,用以展示 RTX 5090 D 的部分性能表現和硬件設計潛力。
Colorful iGame RTX 5090 D Advanced 32GB 延續了 iGame 系列的經典設計元素,例如標誌性的紅圈「引力之環」,並在外觀上採用了黑透磨砂外甲,讓內部結構若隱若現。這種設計兼具視覺效果和功能性,提升了產品的辨識度,也滿足了玩家對硬件外觀的高要求。
燈效部分,雙 RGB 燈環透過黑透外甲散發柔和光線,營造出富有科技感的視覺效果。同時,設計靈感來自莫比烏斯環,其曲線造型增加了產品的設計感,並進一步強化品牌形象。
供電設計:16+7+6 相
RTX 5090 D 核心頻率從基礎的 2017MHz 提升至加速的 2407MHz,確保在高負載場景下保持流暢表現。此外,RTX 5090 D 擁有 575W 的 TDP 功耗和的 PCIe 5.0 16-Pin 供電接口(12+4 配置)展現了顯卡對穩定供電的需求,這也是高性能硬件的必然趨勢,用家也可使用附送的 4 x 8-Pin 轉 PCIe 5.0 16-Pin 供電轉頭 。
在供電模組方面,顯卡內部配備 16+7+6 相供電設計,這樣的高相數供電結構能有效分散電流壓力,減少運行過程中的熱損耗,進一步提升供電效率與元件壽命,以滿足 RTX 5090 D 的 575W TDP 功耗需求。
同時,3 個 DisplayPort 2.1a 和 1 個 HDMI 2.1b 輸出接口,確保能滿足多種顯示需求。
同時,NVIDIA GeForce RTX 5090 D 也升級至 PCIe 5.0 x16 介面,提供高達 64GB/s 的超高頻寬,較上代 PCIe 4.0 提升一倍。
在高性能顯卡中,散熱設計至關重要。Colorful RTX 5090 D Advanced 與 GB202 核心接觸部份採用了真空冰片技術,通過相變冷凝原理實現高效的熱量傳導與排放。其散熱系統包含 7+2 熱管設計和導流型鰭片,確保顯卡在高負載運行時能快速散熱。
此外,三個不同尺寸的「風鐮」扇葉(107mm+101mm+107mm)組成的散熱裝置能產生穩定的風壓與進風效果。低負載時智能停啟功能則進一步減少了運行噪音,提升用戶體驗。
顯卡採用了全鋁金屬中框作為結構基礎,確保散熱模組在運行時的剛性與穩定性。背板部分配有環形開孔設計,以優化風道流通,並結合隱藏式 LOGO 細節,增加產品設計的層次感。
為解決高端顯卡的重量問題,隨卡附贈金屬支架,能有效減輕顯卡對 PCIE 插槽的壓力,進一步提升使用的穩定性與便利性,無論是橫裝或豎裝均能提供穩固支持。
GeForce RTX 5090 D VS RTX 4090 3D效能、DLSS4加速、AI 運算詳測
為了發揮 GeForce RTX 5090 D 的最高效能,使用 24 核心、支援 PCIe 5.0 的 Intel Core i9 14900K 處理器及 ASUS ROG MAXIMUS Z790 FORMULA 主機板進行測試。
<測試平台>
●處理器:Intel Core i9 14900K● 主機板:ASUS ROG MAXIMUS Z790 FORMULA●記憶體:G.Skill Trident Z5 RGB DDR5-6000MHz 2 x 16GB●顯示卡:Colorful iGame RTX 5090 D Advanced 32GB、NVIDIA GeForce RTX 4090 FE ●SSD:WD Black SN850 NVMe SSD 2TB●作業系統:《Windows 11 Pro 24H2 64-bit》●驅動程式:NVIDIA《GeForce Driver 571.86》●散熱:ASUS ROG Strix LC II 360 ARGB
Test 01:3DMark 理論遊戲效能
分析:新架構效能大幅提升
NVIDIA GeForce RTX 5090 D 採用全新一代 Blackwell 架構的 GB202 核心,擁有高達 21,760 個 CUDA 核心,並將加速時脈達至 2.41GHz。在《3DMark》- Time Spy Extreme 測試中,RTX 5090 D 獲得 21,552 分的驚人成績,比 RTX 4090 的 17,220 分高出約 25%,展現出顯著的性能進步。此外,其他《3DMark》測試項目也表現出全面提升。
特別是在強調 GPU 光線追蹤性能的《3DMark》- Speed Way 測試中,RTX 5090 D 的表現領先 RTX 4090 高達 41%,充分展現第 4 代 RT Cores 的技術躍進。值得注意的是,上述《3DMark》測試均未使用 DLSS 4 技術加速,依然達到如此顯著的性能提升,足以看出新一代 Blackwell 架構帶來的強大效能優勢。
Test 02:4K DLSS 4 遊戲效能
GeForce RTX 50 系列另一大賣點是完整支援 DLSS 4 (Deep Learning Super Sampling 4) 技術,當中重點的 DLSS MULTI FRAME GENRATION 功能是由 Blackwell GPU 內第 5 代 Tensor Cores 進行處理。ezone.hk 找來多款對應 DLSS 4 技術的 3D 遊戲及《3DMark》進行測試。
《Cyberpunk 2077》
《Cyberpunk 2077》最新更新已支援新一代 DLSS4 技術,配合 RTX 50 系列即可「DLSS Multi Frame Generation」功能,可選 2x、3x、4x 。
效能測試:
GeForce RTX 5090 D 內建第 5 代 Tensor Cores 進行「DLSS Mutli Frame Generation」,通過生成多達 3 幀的 AI 驅動像素,更有效提升遊戲 FPS 流暢度。在最高畫質及光追全開下,RTX 5090 D 已提供 77 FPS 流暢表現,而在 DLSS4 Performance 設定下,加上 Mutli Frame Generation (4X) 技術,即大幅提速至 395 FPS。相比之下,GeForce RTX 4090 只能使用基本的 2X Frame Generation 技術,加速表現明顯被比下去。
《Star Wars Outlaw》
《Star Wars Outlaw》是另一款原生支援 DLSS4 技術的遊戲,遊戲內「Frame Generation」選項同樣可設「4x」。
效能測試:
《Star Wars Outlaw》對系統要求極高,在 4K 解像度下設定最高畫質及全開光追效果,上代最強的 GeForce RTX 4090 亦只有 51 FPS,而 GeForce RTX 5090 D 憑著新一代 Blackwell 架構及第 4 代的 RT Cores,即使未使用 DLSS 技術,已能提供 63 FPS 的流暢畫面,而啟用 DLSS 4 技術及 4X Frame Generation 後,流暢更進一步提升至 228 FPS 是 RTX 4090 的兩倍 。
《Alan Wake 2》
《Alan Wake 2》「DLSS Frame Generation」選項。
效能測試:
《Alan Wake 2》全面優化 DLSS 4 技術,在「DLSS Quality」及 DLSS Frame Generation 4X 設定下,已能將 GeForce RTX 5090 D 的 FPS 54 大幅提升至 181。相比之下,GeForce RTX 4090 在啟用 Frame Generation 2X 後,的提速表現明顯落後。
DLSS Overrides 功能
為提升不同遊戲的 DLSS 兼容性,NVIDIA 在其應用程式中新增了 New DLSS Overrides 功能。此功能允許玩家在支援舊版 DLSS 的遊戲中啟用 DLSS 4 的部分技術,甚至可以覆寫遊戲內設置,啟用最新的光線重建和超級分辨率模式。此外,玩家還能自定義啟用深度學習反鋸齒(DLAA)或超高效能模式(Ultra Performance Mode),以適應不同硬體性能,以下就測試兩款以 DLSS Overrides 方式支援 DLSS4 的遊戲表現。
《Marvel Rivals》
《Marvel Rivals》需在 NVIDIA 應用程式內設定「DLSS Multi Frame Generation」。
效能測試:
《Marvel Rivals》需未應生支援 DLSS4 技術,但透過 DLSS Overrides,同樣可啟用 DLSS Multi Frame Generation 4X,加速效果與原生對應 DLSS 4 遊戲相近,由 98FPS 大幅提升至 367 FPS
《Dragon Age》
《Dragon Age》需在 NVIDIA 應用程式內設定「DLSS Multi Frame Generation」。
效能測試:
《Dragon Age》同樣透過 DLSS Overrides,啟用 DLSS Multi Frame Generation 4X,加速效果明顯,由 91FPS 大幅提升至 343 FPS。
《3DMark》 DLSS 測試
《3DMark》DLSS 4 測試 GPU 在使用不同 Frame Generation 設定的流暢度,測試可見 RTX 5090 D 在啟用 2X、3X、4X Frame Generation 後,FPS 分別由 74.91 提升了 3 至 5 倍。
Test 03:AI 運算測試
NVIDIA Blackwell 新架構除了在遊戲效能提升,在 AI 運算表現也有大幅度的優化,ezone.hk 今次找來多款評估系統生成式 AI 模型性能的工具,測試 RTX 5090 D 的 AI 運算表現。
《MLPerf-Client》測試
MLPerf-Client 測試是一項專門評估人工智慧和機器學習性能的基準工具,用於測試不同硬體在執行機器學習工作負載時的效能表現。該測試涵蓋各種應用場景,例如圖像分類、自然語言處理和推薦系統,模擬實際的工作需求,幫助硬體廠商和研究人員量化效能表現。MLPerf-Client 測試的設計重視公平性和可比性,適合用於比較不同 GPU 或 CPU 的機器學習運算效率,使用戶了解硬體在訓練與推理任務中的實際性能,提供選擇與優化建議。MLPerf-Client 測試會顯示吞吐量 (Throughput),以每秒處理的樣本數或請求數,例如每秒圖像分類數或每秒推薦系統推理數。
《UL Procyon AI Text Generation》測試
UL Procyon AI Text Generation 測試是一套專為評估生成式 AI 模型性能的工具,適用於主流的文字生成應用場景。此測試專注於分析大型語言模型(LLM)在不同硬體上的推理能力與效能表現,涵蓋內容生成、文本總結及創意寫作等真實使用情境。
該工具支援多種生成式 AI 模型(如 Meta 的 Llama 2),並記錄關鍵性能指標,包括「生成第一個標記的時間」和「每秒生成後續標記的速度」。此外,測試兼容 Microsoft 的 ONNXRuntime-GenAI,允許模型在多種硬體環境下執行,並充分利用 DirectML 實現加速。UL Procyon AI Text Generation 測試為硬體性能評估提供了一種標準化的方法,使開發者能夠比較不同 GPU 的生成式 AI 工作負載表現,是評估硬體在生成式 AI 任務中效率的關鍵工具。
《UL Procyon FLUX.1 AI Image Generation Demo for NVIDIA 》
UL Procyon FLUX.1 AI Image Generation Demo for NVIDIA 是一款專為測試 NVIDIA 繪圖卡生成式 AI 性能設計的工具。該演示使用 FLUX.dev 模型,模擬高效能圖像生成的實際應用場景,特別是使用 NVIDIA 最新的 FP4 精度技術,大幅降低 VRAM 需求,同時保持高質量輸出。此工具評估 GPU 在處理複雜生成式 AI任務中的效能,提供準確的性能數據,幫助用戶了解硬體在創意設計與 AI 驅動工作負載中的表現。
分析:AI 全面加速
從以上 AI 測試結果可見,NVIDIA GeForce RTX 5090 D 在 AI 運算方面展現了顯著的進步,主要得益於全新的 Blackwell 架構和第五代 Tensor Cores。這些改進使其在處理生成式 AI 和深度學習任務時的性能達到新高度。RTX 5090 D 配備高達 21,760 個 CUDA 核心及 2,375 AI TOPS 的算力,專為運行複雜 AI 模型而設計。
RTX 5090 D 首次原生支援 FP4 精度,將模型運行效率提升約 2 倍,且顯著降低 VRAM 使用需求。例如,原需 23GB VRAM 的模型,如今僅需不到 10GB,即可實現高效執行。第五代 Tensor Cores 提供高達 2.5 倍的 AI 運算性能,支持更快速的推理和訓練過程,尤其是在圖像生成、語言處理等任務中表現出色。
此外,RTX 5090 D 支持新一代 Transformer 模型,提升 AI 圖像穩定性、細節解析和運動畫面表現。同時,其能效比亦顯著提高,為用戶在生成式 AI、內容創作和科研應用中提供最佳解決方案,滿足高效能 AI 運算的需求。
Extra Test:4:2:2 視頻編碼
在 DaVinci Resolve 19 中測試 4:2:2 視頻主要著重於高效處理專業級影像格式。4:2:2 色度子採樣相比常見的 4:2:0 提供了更高的色彩精準度和細節保留,非常適合 HDR 內容及需要頻繁進行色彩校正的工作流程。在 NVIDIA Blackwell 架構下,支持 H.264 和 H.265 格式的 4:2:2 視頻編碼,實現高效的硬體加速,顯著降低處理此類高負載格式的 CPU 壓力。
測試的核心是多攝像機回放和輸出性能,例如在高達 4 路 4K 59.94fps 的 4:2:2 視頻流下進行即時處理。相比於軟體編碼,此硬體編碼解決方案提供了高達 11 倍的編碼速度提升,同時減少了系統資源的佔用,使專業視頻編輯人員能更輕鬆地工作於高質量素材。
評語:地上最強卡皇
NVIDIA GeFoce RTX 5090 D 採用 Blackwell 新架構,CUDA 數目高達 21,760 個,加上第 4 代 RT、GDDR7 記憶體 ,再配合 DLSS 4 技術,在所有測試均創出新高,絕對稱得上是地上最強卡皇。不過,AMD 使用新一代 RDNA 4 架構的 Radeon RX 9000 系列將於快將發布,預期效能大幅提升,相信或可與 GeForce RTX 50 系列一較高下。
【精選消息】
Source: ezone.hk