
在當今競爭激烈且快速發展的雲端環境中,GPU 運算有潛力成為企業快速、直接的收入增長點。 GPU 支援機器學習 (ML)、生成式 AI 、高效能運算 (HPC)、影像渲染、研究和遊戲等進階工作負載。本文將為讀者提供見解,剖析揀選 GPU 伺服器的應注意事項。
本地部署與雲端部署比較
客戶在 AI 開發時都會考慮應採本地或雲端部署,而事實上雲端部署在各方面都有優勢。以下以 AWS Cloud 為例,比較兩者部署的區別:
可擴展性:本地部署受硬體週期限制,前期成本高,資源閒置時仍有成本。雲端則可彈性擴展(例如,具有 20,000 個 GPU 的 UltraCluster),無需前期投資,按用量付費。
效能:本地部署高時延,低吞吐量,硬體優化受限。雲端部署則能較靈活優化硬體,例如使用 Nitro v5 和第三代 EFA 的 P5en 執行個體,與前一代 EFA 和 Nitro 的 P5 執行個體相比,延遲最多降低 35%。
開發:本地部署硬體或軟體整合複雜,亦欠缺統一平台。雲端部署上,SageMaker 等託管服務透過 AutoML 和分散式訓練支援,簡化工作流程。
成本:本地部署在冷卻和維護方面資本和營運費用高。雲端部署則因按用量付費減低總推有成本 (TCO)。
可靠性和安全性:本地部署維護負擔高,且有安全挑戰。雲端部署可透過 Multi-AZ 避免冗餘,亦有 GuardDuty、IAM 和加密等功能,確保可靠性和安全性。
最新硬體:本地部署採用新技術速度緩慢且成本高昂。雲端部署可存取最新的 GPU,尤其今年 AWS 亦即將在本年推出 P6 系列執行個體,當中就會搭載到 NVIDIA 最強勁的 Blackwell GPU。
了解雲端不同執行個體的用途
不同執行個體的硬件配置相差甚遠。以下將介紹 AWS 不同系列的執行個體適合甚麼用途。
P 系列:Amazon EC2 P 系列有多個配備不同 NVIDIA GPU 的執行個體,針對深度學習和高效能運算 (HPC) 提供最高效能。當中包括 P5e/P5en(提供 NVIDIA H200)、P5(提供 NVIDIA H100)、P4(提供 NVIDIA A100)等。
G 系列:Amazon EC2 G 系列有多個配備不同 NVIDIA GPU 的執行個體,為加速深度學習、圖形密集型應用程式而設。當中包括:G6e(提供 L40S )、G6(提供 L4 )、G5g(提供 T4G )、G5(提供 A10G )等。
Trn1/Trn2系列:AWS Trainium 晶片是 AWS 專門為 AI 訓練和推理而建構的 AI 晶片系列,可在降低成本的同時提供高性能。 與 EC2 P5e/P5en 相比,Trn2 的成本效益提高了 30-40%。而第一代 AWS Trainium 晶片為 Amazon EC2 Trn1 執行個體提供支持,該執行個體的訓練成本比同類 Amazon EC2 執行個體低達 50%。
AWS 推 Capacity Blocks 預留使用 GPU 伺服器 租用期更靈活
不少企業都對高端 GPU 有短期使用需求。但很多雲端供應商的 GPU 伺服器租用期動輒都要一年。而 Capacity Block 的推出則滿足了很多企業。
Capacity Blocks for ML 可讓你在未來的某個日期預留熱門的 GPU 實例,以支援你的短期機器學習 (ML) 工作負載。在 Capacity Block 內運作的執行個體會自動緊密地放置在 Amazon EC2 UltraCluster 內,以實現低延遲、PB 級、無阻塞網路。當中以下有以下伺服器在指定區域可供預留:
(最新供應情況以官網為準。)
P5、P5e、P5en: 美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、歐洲 (斯德哥爾摩)、歐洲 (倫敦)、南美洲 (聖保羅)、亞太地區 (孟買)、亞太地區 (東京)、亞太區域 (雅加達)、澳洲 (悉尼)、澳洲 (墨爾本)
P4d: 美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)
Trn2: 美國東部 (俄亥俄)
Trn1: 美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、歐洲 (斯德哥爾摩)、亞太地區 (孟買)、澳洲 (雪梨)、澳洲 (墨爾本)