在當今競爭激烈且快速發展的雲端環境中,GPU 運算有潛力成為企業快速、直接的收入增長點。 GPU 支援機器學習 (ML)、生成式 AI 、高效能運算 (HPC)、影像渲染、研究和遊戲等進階工作負載。本文將為讀者提供見解,剖析揀選 GPU 伺服器的應注意事項。
客戶在 AI 開發時都會考慮應採本地或雲端部署,而事實上雲端部署在各方面都有優勢。以下以 AWS Cloud 為例,比較兩者部署的區別:
可擴展性:本地部署受硬體週期限制,前期成本高,資源閒置時仍有成本。雲端則可彈性擴展(例如,具有 20,000 個 GPU 的 UltraCluster),無需前期投資,按用量付費。
效能:本地部署高時延,低吞吐量,硬體優化受限。雲端部署則能較靈活優化硬體,例如使用 Nitro v5 和第三代 EFA 的 P5en 執行個體,與前一代 EFA 和 Nitro 的 P5 執行個體相比,延遲最多降低 35%。
開發:本地部署硬體或軟體整合複雜,亦欠缺統一平台。雲端部署上,SageMaker 等託管服務透過 AutoML 和分散式訓練支援,簡化工作流程。
成本:本地部署在冷卻和維護方面資本和營運費用高。雲端部署則因按用量付費減低總推有成本 (TCO)。
可靠性和安全性:本地部署維護負擔高,且有安全挑戰。雲端部署可透過 Multi-AZ 避免冗餘,亦有 GuardDuty、IAM 和加密等功能,確保可靠性和安全性。
最新硬體:本地部署採用新技術速度緩慢且成本高昂。雲端部署可存取最新的 GPU,尤其今年 AWS 亦即將在本年推出 P6 系列執行個體,當中就會搭載到 NVIDIA 最強勁的 Blackwell GPU。
不同執行個體的硬件配置相差甚遠。以下將介紹 AWS 不同系列的執行個體適合甚麼用途。
P 系列:Amazon EC2 P 系列有多個配備不同 NVIDIA GPU 的執行個體,針對深度學習和高效能運算 (HPC) 提供最高效能。當中包括 P5e/P5en(提供 NVIDIA H200)、P5(提供 NVIDIA H100)、P4(提供 NVIDIA A100)等。
G 系列:Amazon EC2 G 系列有多個配備不同 NVIDIA GPU 的執行個體,為加速深度學習、圖形密集型應用程式而設。當中包括:G6e(提供 L40S )、G6(提供 L4 )、G5g(提供 T4G )、G5(提供 A10G )等。
Trn1/Trn2系列:AWS Trainium 晶片是 AWS 專門為 AI 訓練和推理而建構的 AI 晶片系列,可在降低成本的同時提供高性能。 與 EC2 P5e/P5en 相比,Trn2 的成本效益提高了 30-40%。而第一代 AWS Trainium 晶片為 Amazon EC2 Trn1 執行個體提供支持,該執行個體的訓練成本比同類 Amazon EC2 執行個體低達 50%。
不少企業都對高端 GPU 有短期使用需求。但很多雲端供應商的 GPU 伺服器租用期動輒都要一年。而 Capacity Block 的推出則滿足了很多企業。
Capacity Blocks for ML 可讓你在未來的某個日期預留熱門的 GPU 實例,以支援你的短期機器學習 (ML) 工作負載。在 Capacity Block 內運作的執行個體會自動緊密地放置在 Amazon EC2 UltraCluster 內,以實現低延遲、PB 級、無阻塞網路。當中以下有以下伺服器在指定區域可供預留:
P5、P5e、P5en: 美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、歐洲 (斯德哥爾摩)、歐洲 (倫敦)、南美洲 (聖保羅)、亞太地區 (孟買)、亞太地區 (東京)、亞太區域 (雅加達)、澳洲 (悉尼)、澳洲 (墨爾本)
P4d: 美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)
Trn2: 美國東部 (俄亥俄)
Trn1: 美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、歐洲 (斯德哥爾摩)、亞太地區 (孟買)、澳洲 (雪梨)、澳洲 (墨爾本)