NVIDIA H100搭載:Amazon EC2 P5帶來6倍訓練效率提升

| 李兆城 | 31-07-2023 14:42 |
NVIDIA H100搭載:Amazon EC2 P5帶來6倍訓練效率提升

亞馬遜旗下的 Amazon Web Services(AWS)日前在紐約峰會上宣布 Amazon Elastic Compute Cloud(EC2)P5 執行個體正式推出。這款新一代 GPU 執行個體搭載了最新的 NVIDIA H100 Tensor Core GPU,為客戶在運行人工智能、機器學習和高性能運算工作負載時提供高性能和高擴展性的需求。相較於上一代基於 GPU 的執行個體,Amazon EC2 P5 執行個體的訓練時間縮減了6倍,這可幫助客戶節省高達40%的訓練成本。

NVIDIA H100搭載:Amazon EC2 P5帶來6倍訓練效率提升
亞馬遜旗下的Amazon Web Services(AWS)近日宣布,Amazon Elastic Compute Cloud(EC2)P5 執行個體正式推出!這項新一代GPU執行個體搭載了最新的NVIDIA H100 Tensor Core GPU,為客戶在運行人工智能、機器學習和高性能運算工作負載時提供了高性能和高擴展性的需求。這一科技突破讓客戶在訓練大語言模型、進行電腦視覺模型等應用時節省了訓練時間,並有效降低了訓練成本。

↓↓↓同場加映:【e+同你試】ASUS Zenfone 10 全新旗艦手機 設計小巧單手拍攝無難度↓↓↓

即刻【按此】,用 App 睇更多產品開箱影片

Amazon EC2 P5 執行個體提供8個 NVIDIA H100 Tensor Core GPU,配備640GB高帶寬 GPU 內存,並搭載第三代 AMD EPYC 處理器、2TB 系統內存和30TB本地 NVMe 儲存。此外,Amazon EC2 P5 執行個體還提供3200 Gbps 的聚合網絡頻寬和 GPUDirect RDMA 技術,這讓它能夠繞過CPU進行節點間通訊,從而實現更低的延遲和更高效的橫向擴展性能。

值得一提的是,AWS和NVIDIA於今年3月合作宣布,打造全球最具可擴展性且按需支付的人工智能基礎設施,旨在應對不斷增長的大語言模型訓練和生成式AI應用程式的需求。Amazon EC2 P5 執行個體就是這一合作的成果之一,可為構建和訓練更大規模的機器學習模型提供高達 20 exaFLOPS 的運算能力。

訓練時間縮短6倍

這款 EC2 P5 執行個體特別適合訓練和運行日益複雜的大語言模型和電腦視覺模型,可滿足最苛刻的運算密集型生成式 AI 應用需求,如問答、編碼生成、影片和圖像生成、語音識別等。同時,相較於以前的基於 GPU 的執行個體,EC2 P5 執行個體在這些應用中的訓練時間縮短了6倍,而使用Transformer框架的語言模型等客戶,將獲得高達6倍的性能提升。

此外,Amazon EC2 P5 執行個體還能在藥物開發、地震分析、天氣預報、金融建模等領域部署高要求的應用程式,並通過新的 DPX 指令集支援使用基於動態規劃(Dynamic Programming)算法進行基因組測序或加速數據分析等應用。

【相關消息】

【相關消息】

算力高達20 exaFLOPS

Amazon EC2 P5 執行個體應用在第二代 Amazon EC2 UltraClusters 中,該集群目前可在超過2萬個NVIDIA H100 Tensor Core GPU上為客戶提供更低的延遲,提供高達20 exaFLOPS的聚合運算能力。集群使用 Amazon FSx for Lustre 共享儲存,這是一種完全託管的高性能並行文件系統,客戶可以按需處理海量數據集,並實現亞毫秒級延遲,支援深度學習、生成式 AI 和高性能運算工作負載。

目前,Amazon EC2 P5 執行個體已正式在美國東部(北弗吉尼亞)和美國西部(俄勒岡)地區推出。客戶還可以選擇使用AWS提供的各種內置生成式 AI 的雲端服務,它們都運行在具有成本效益的生成式 AI 雲端基礎設施上,協助客戶加快創新和重塑應用。

Source:AWS

相關文章

Page 1 of 9