NVIDIA 於週四發布了一段影片,首次公開展示其最新企業級超級電腦 Eos 的架構。Eos 專為資料中心規模的高階 AI 開發而設計,是該公司最快的 AI 超級電腦。
Eos 目前由該公司自行使用,在最新的 Top 500 清單中,以 FP64 效能排名世界第 9。在純粹的 AI 任務中,Eos 可能名列前茅。同時,其藍圖也可供其他公司建置企業級超級電腦。
影片中表示:「Eos 每天迎戰數千名內部開發人員在 AI 研究中面臨的挑戰,協助他們解決過去無法解決的問題。」
Eos 配備了 576 個 DGX H100 系統,每個系統包含八顆 H100 GPU,用於人工智慧 (AI) 和高效能運算 (HPC) 工作負載。總體而言,該系統搭載了 1,152 顆 Intel Xeon Platinum 8480C 處理器(每個 CPU 有 56 個核心)以及 4,608 顆 H100 GPU,使 Eos 能夠分別達到令人驚豔的 Rmax 121.4 FP64 PetaFLOPS 效能,以及 18.4 FP8 ExaFLOPS 的 HPC 和 AI 效能。
Eos 的設計(採用 DGX SuperPOD 架構)專門針對 AI 工作負載和可擴充性而建置,因此它使用 NVIDIA 的 Mellanox Quantum-2 InfiniBand,具備 In-Network Computing 技術,資料傳輸速度最高可達 400 Gb/s,這對於有效訓練大型 AI 模型和擴充至關重要。
NVIDIA 表示,除了強大的硬體之外,Eos 還配備了強大的軟體,同樣專為 AI 開發和部署而打造。因此,Eos 可以應付各種應用,從類似 ChatGPT 的生成式 AI 到 AI 工廠。
影片中表示:「Eos 有一個整合式軟體堆疊,包括 AI 開發和部署軟體,[包括] 編排和叢集管理、加速運算儲存和網路函式庫,以及針對 AI 工作負載最佳化的作業系統。Eos 汲取了先前 NVIDIA DGX 超級電腦(例如 Saturn 5 和 Selene)的知識,是 AI 專業知識付諸實踐的最新範例。[…] 透過建立像 Eos 這樣的 AI 工廠,企業可以承接最具挑戰性的專案,並在當下和未來實現其 AI 願景。」
我們不知道 Eos 的價格,而且 NVIDIA 的 DGX H100 系統的定價是保密的,並取決於許多因素,例如數量。同時,考量到每顆 H100 的價格視數量而定,可能落在 30,000 至 40,000 美元之間,因此可以開始思考我們在此獲得的數字有多高。