擁有20萬GPU的集羣建好了，只用了122天 - asiasworldcity.hk

香港飛龍.online 官方授權發布的第4代「香港飛龍」標誌

本文内容：

如果您希望可以時常見面，歡迎標星收藏哦~來源：本文編譯自 tomshardware ，謝謝。埃隆·馬斯克的 xAI 孟菲斯超級集羣一期項目剛剛達到滿負荷運營，現場變電站已投入運營並連接到主電網。據大孟菲斯商會稱，該站點將從孟菲斯電力、燃氣和水務局 (MLGW) 和田納西河谷管理局 (TVA) 獲得 150 兆瓦的電力。除此之外，xAI Colossus 超級計算機還擁有另外 150 兆瓦的 Megapack 電池作爲備用電源，使其能夠在斷電或用電需求增加時持續供電。馬斯克於去年 7 月首次啓動他的 AI 集羣，該集羣在單一架構上搭載了 10 萬塊 Nvidia H100 GPU。這臺 xAI 超級計算機的搭建速度非常快，公司只用了 19 天就將其投入運行——而 Nvidia 首席執行官黃仁勳表示，這通常需要四年時間。然而，如此快的速度意味着它不得不走一些捷徑，比如在沒有電網供電的情況下啓動，因此該站點使用了大量天然氣渦輪發電機來滿足其電力需求。初步報告稱，該站點內停放了 14 臺發電機，每臺輸出功率爲 2.5 兆瓦，但一些居民最近抱怨說，附近發現了超過 35 臺渦輪機。這一開發意味着該基地一期工程現在可以完全依靠田納西河谷管理局（TVA）的電力運行，TVA約60%的發電量來自水力發電、太陽能、風能和核能等可再生能源。因此，xAI現在將停用約一半曾臨時用於爲Colossus項目供電的發電機——但另一半仍將保留，以滿足孟菲斯超級集羣二期工程的電力需求。不過，我們預計這種情況不會持續太久，因爲第二座變電站預計將於今年秋季投入使用，該變電站將提供另外150兆瓦的電力。這意味着Colossus變電站的總髮電量將達到300兆瓦，足以爲30萬戶家庭供電。這是一箇巨大的電力需求，此前曾有人擔心田納西河谷管理局（TVA）是否有足夠的發電能力來滿足這一需求。電力供應商已向各利益相關方保證，它能夠在不影響其他電力供應的情況下滿足這一需求。Colossus 最初於 2024 年 7 月推出，搭載 10 萬塊 Nvidia H100 芯片，到 2025 年 2 月，其 GPU 數量將翻一番，達到 20 萬塊。據報道，馬斯克希望將孟菲斯超級集羣的 GPU 數量擴大到 100 萬塊，並且他已經在努力籌集資金，以實現這一夢想。然而，在同一地點部署如此多的 GPU 意味着需要更多的電力——希望田納西河谷管理局 (TVA) 能夠在不影響孟菲斯超級集羣附近居民電力質量的情況下滿足這一需求。關於Colossus，我所知道的埃隆·馬斯克對各科技領域的宏偉願景如今已聚焦於人工智能 (AI)，他創立了xAI公司，致力於 AI 開發。這項努力的核心是 Colossus，它是全球最強大的超級計算機之一，能夠徹底重新定義 AI 的能力。Colossus 的誕生不僅標誌着馬斯克 xAI 的一項重要成就，也標誌着整個人工智能社區的一項重要成就，該社區希望在該技術的應用中發揮主導作用。xAI 由特斯拉和 SpaceX 首席執行官馬斯克於 2023 年中期正式成立，目標是 “發現現實世界是什麼樣的”。根據其使命宣言，“xAI 是一家致力於構建人工智能以加速人類科學發現的公司。我們的使命是增進我們對宇宙的集體理解。”據馬斯克稱，他創立這家公司是因爲他開始擔心不受監管的人工智能的危險。xAI 的既定目標是利用人工智能進行科學發現，但方式不具有剝削性。xAI 超級計算機旨在推動從機器學習到神經網絡的尖端人工智能研究，計劃使用 Colossus 訓練大型語言模型（如 OpenAI 的 GPT 系列），並將框架擴展到自動機器、機器人和科學模擬等領域。Colossus 於 2024 年 9 月在田納西州孟菲斯市啓動。該數據中心位於南孟菲斯工業園區內一處前伊萊克斯製造基地。田納西河谷管理局已批准向該電廠提供超過 100 兆瓦的電力。Colossus 系統最初配備了 100,000 個 Nvidia H100 GPU，這使其成爲世界上最重要的 AI 訓練平臺之一。這些 GPU 在 19 天內完成部署，凸顯了 xAI 對快速擴展其 AI 基礎設施的關注。考慮到配置如此廣泛的基礎設施通常需要數月甚至數年的時間，部署本身引起了媒體和數據中心/人工智能行業的極大關注。最初設置的 100,000 個 GPU 使其能夠達到高水平的處理能力，使 xAI 能夠以尖端速度處理高度複雜的 AI 模型。鑑於當代人工智能模型的複雜性和規模不斷增加，這種速度和效率至關重要，因爲現代人工智能模型需要輸入大量數據集並使用巨大的計算能力。LLM 設計非常類似於“如果你建造它，他們就會來”的模型，其重點是利用可用的處理能力。2024 年 11 月，xAI 宣佈將通過一筆數十億美元的交易將 Colossus 的容量提高一倍。該公司計劃在未來幾年籌集 60 億美元，其中大部分來自中東主權財富基金。它將涵蓋在現有 GPU 上添加 100,000 個 GPU 的成本，使現有 GPU 數量達到 200,000 個。計劃中的升級將添加 Nvidia 的新款 Blackwell H200 GPU，其功能比最初推出的 H100 GPU 更加強大。H200 GPU 在性能和效率方面提供了顯著的提升，並將使 xAI 能夠更快、更準確地訓練 AI 模型。這些 GPU 針對深度學習和神經網絡訓練進行了優化，因此非常適合 xAI 的大型 AI 項目。據 Nvidia 稱，根據工作負載的不同，Blackwell GPU 的速度可比上一代 GPU 快 20 倍。然而，Blackwell GPU 向客戶交付卻遇到了障礙。由於 Nvidia 發現並修復了一些設計缺陷，下一代芯片的交付時間已經推遲了一箇季度。據報道，Nvidia 定製設計的服務器機架中的 72 GPU 配置過熱，因此出現了新的延遲。據雅虎財經報道，儘管尚未確認 GB200 的 2025 年交付是否會延遲，而且 Nvidia 也不願評論服務器機架的最終設計是否已經完成，但該問題的宣佈導致 Nvidia 股價下跌近 3%。這個更大的 Colossus 基礎設施將使 xAI 更容易構建和測試其 AI 模型（特別是 Grok LLM）。它們旨在挑戰甚至超越目前占主導地位的人工智能系統，例如 OpenAI 的 GPT-4 和谷歌的 Bard。Colossus 與其他超級計算機的不同之處不僅在於其底層計算能力，還在於其量身定製的人工智能基礎設施。該系統旨在滿足人工智能訓練的特殊需求——處理大量數據並運行必須並行化的高度先進的算法。據廣泛報道，戴爾科技和超微都與 xAI 合作打造了這臺超級計算機。Nvidia H100 和 H200 GPU 的組合將使 Colossus 在速度和效率方面佔據明顯優勢。這些 GPU 還配備專用的張量核心，有助於加速深度學習算法。此外，這些 GPU 的內存帶寬足夠強大，可以有效處理訓練最新 AI 模型所需的大數據集。Colossus 的主要構建模塊是 Supermicro 4U 通用 GPU 液冷系統。每臺4U服務器配備8塊NVIDIA H100 Tensor Core GPU，爲AI訓練任務提供強大的算力。服務器被組織成機架，每個機架包含八臺 4U 服務器，每個機架總共 64 個 GPU。每個 4U 服務器之間都有一箇用於液體冷卻的歧管，佔用 1U 的機架空間，每個機架的底座包含一箇 4U CDU 泵送系統，提供冗餘冷卻和管理單元。這些服務器使用 NVIDIA 的 Spectrum-X 以太網網絡平臺進行互連，實現了 AI 訓練所必需的高帶寬、低延遲通信。每臺服務器都配備多箇 400GbE 連接，運行在支持 800 GBE 的電纜上，而不是Nvidia 也支持用於大規模部署的Infiniband 選項。在當前架構中，集羣中的每個 GPU 都配備一箇專用的 400 GB 網絡接口卡，另外還有一箇專用於服務器的 400 GBE NIC，每個服務器的潛在總帶寬爲 3.6 TB。每個陣列有 512 個 GPU（8 個機架，每個機架 64 個 GPU），總共有近 200 個陣列。10 月份，NVIDIA 負責人黃仁勳宣佈，最初的 100,000 個 GPU 超級計算機僅用 19 天就搭建完成，而他所說的普通數據中心的建設過程通常需要四年時間。那麼公司利用這些性能做什麼呢？Grok 系列大型語言模型是 xAI 的重點關注對象。這類模型能夠解釋和創建類似人類的文本，就像 OpenAI 的 GPT 系列一樣。由於 Colossus 的計算能力，Grok 模型應該比當前的語言模型更有效、更強大。除了語言模型之外，xAI 還計劃探索其他 AI 應用，例如自動駕駛汽車、機器人技術和科學模擬。xAI 計劃通過 Colossus 挑戰 AI 在這些領域的能力。例如，該公司正在探索在科學領域利用人工智能尋找新材料、節約能源，甚至幫助尋找新藥。（如果您認爲所有這些能力都是爲了讓特斯拉自動駕駛汽車成爲現實，那麼還有一臺完全不同的 AI 超級計算機專門用於這項任務，即位於特斯拉 GigaTexas 工廠的擁有 50,000 個 GPU 的 Cortex AI 超級集羣。）Colossus 還採用了所謂的“尖端冷卻系統”，確保 GPU 以最穩定、最佳的溫度運行，以實現穩定性和性能。這一點尤其重要，因爲如此大量的快速 GPU 會產生大量熱量。對於這種類型的機架密度，最佳冷卻絕對至關重要，並且使 Blackwell 服務器基礎設施因過熱而導致的潛在延遲變得更容易理解。由於像 Colossus 這樣的客戶都急於大量推出下一代設計，因此冷卻系統從一開始就必須正常工作。正如我們之前報道的那樣，許多供應商正在與 Nvidia 合作，專門爲 Nvidia GPU 服務器開發冷卻系統。雖然我們已經報道了數據中心液體冷卻領域的許多供應商，但該領域另一家快速發展的公司Boyd上週宣佈，他們推出了一款產品，可以“藉助 Nvidia 的 GB200 NVL72 增強 AI 部署的簡易性和速度”。這是爲 72 GPU 集羣中的下一代 Blackwell GPU 設計的服務器硬件。Boyd 首席執行官 Doug Britt 指出，他們的液冷技術專爲人工智能設計，解決了如何冷卻這些高要求應用程序和硬件的問題，同時簡化了部署並使其更快地啓動和運行。Britt 補充道：我們看到，下一代大型語言模型的參數已超過 1 萬億，需要先進的計算能力，例如 NVIDIA GB200 NVL72 平臺所提供的能力，而更高水平的冷卻技術則可進一步增強其性能。AI 系統架構師依靠 Boyd 冷卻技術，以最節能的方式有效擴展計算密度，而無需擴大數據中心和機架空間。過去幾年，創建最有效的人工智能系統的競爭日益激烈，谷歌、微軟和 OpenAI 大力投資超級計算機和人工智能研究。通過對 Colossus 的投資，xAI 具有潛在的競爭優勢，使其能夠快速訓練其 AI 模型，並可能比競爭對手更快地取得突破。大規模模型訓練不僅縮短了構建新 AI 技術所需的時間，而且還可以幫助 xAI 深入研究由於計算限制而無法實現的新 AI 研究領域。通過籌集資金來擴大 Colossus 的規模，xAI 正在爲未來做好準備。新增的 10 萬塊 GPU 將使系統的物理容量幾乎翻倍，這將使 xAI 能夠應對更大的挑戰。與此同時，Nvidia 聲稱 GB200 GPU 的性能提升遠超現有的 H100 部件，這並非簡單的數學意義上的性能提升。這可能會對 AI 社區產生深遠的影響，xAI 的發展將爲重新定義 AI 技術的應用提供機會。Colossus 項目並非一帆風順。爲一箇擁有 20 萬個 GPU 的系統提供冷卻和供電的成本非常高昂，尤其是在可持續性成爲首要關注點的當下。此外，馬斯克表示，他預計 Colossus 擴建所需的資金將依賴於主權財富基金，尤其是來自中東的基金。該計劃受到了一些方面的批評，有人認爲，外國擁有新的人工智能技術可能會產生地緣政治後果，特別是如果它被應用於研究角色之外的實際用途。https://www.tomshardware.com/tech-industry/artificial-intelligence/musks-colossus-is-fully-operational-with-200-000-gpus-backed-by-tesla-batteries-phase-2-to-consume-300-mw-enough-to-power-300-000-homes半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅爲了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4028期內容，歡迎關注。『半導體第一垂直媒體』實時專業原創深度公衆號ID：icbank喜歡我們的內容就點“在看”分享給小夥伴哦

(本文内容不代表本站观点。)
---------------------------------