人工智能(AI)對(duì)計(jì)算資源的貪婪需求推動(dòng)了基礎(chǔ)設(shè)施的變革,業(yè)界正著力解決如何滿足AI在功率、可擴(kuò)展性以及效率等方面的需求。這促使大量投資涌入,旨在重新配置數(shù)據(jù)中心架構(gòu),以更好應(yīng)對(duì)上述及其他技術(shù)要求。問題的核心在于,智能性的構(gòu)建需要巨大的算力支持。隨著AI復(fù)雜度以每年一個(gè)數(shù)量級(jí)的速度遞增,數(shù)據(jù)中心必須快速擴(kuò)展。一個(gè)直觀的參照可以說明這一需求增長(zhǎng)的速度:到2027年,AI工作負(fù)載的能源消耗將超過阿根廷的年用電量。
沒有萬能之法
AI正在重新定義各類數(shù)據(jù)中心的架構(gòu),包括超大規(guī)模數(shù)據(jù)中心、現(xiàn)場(chǎng)數(shù)據(jù)中心、主機(jī)托管數(shù)據(jù)中心和邊緣數(shù)據(jù)中心。迄今為止,大家的注意力主要集中在超大規(guī)模數(shù)據(jù)中心的競(jìng)爭(zhēng)上。指數(shù)級(jí)增長(zhǎng)的計(jì)算資源需求正在催生站點(diǎn)容量超過1GW的AI集群。麥肯錫預(yù)測(cè),到2030年,歐洲和美國(guó)60%以上的AI工作負(fù)載將托管在超大規(guī)?;A(chǔ)設(shè)施上。
從超大規(guī)模數(shù)據(jù)中心到邊緣:架構(gòu)的演進(jìn)
數(shù)據(jù)中心必須能夠支持像大型語(yǔ)言模型(LLM)訓(xùn)練這樣的AI工作負(fù)載。這就需要對(duì)設(shè)施的設(shè)計(jì)和架構(gòu)進(jìn)行全面升級(jí)。每個(gè)機(jī)架的功率必須增加到200-300kW,以支持密集型計(jì)算,并配備增強(qiáng)冷卻解決方案以滿足這種密集性需求。GPU和TPU等專用硬件必須與擴(kuò)展的存儲(chǔ)系統(tǒng)相集成,以應(yīng)對(duì)海量數(shù)據(jù)的管理需求。為實(shí)現(xiàn)硬件的獨(dú)立管理和擴(kuò)展,分離架構(gòu)正被廣泛部署,支持不同工作負(fù)載高效利用資源。為了適應(yīng)AI的流量模式,網(wǎng)絡(luò)架構(gòu)也需要進(jìn)行更新,否則AI集群可能會(huì)陷入“數(shù)字交通堵塞”——強(qiáng)大的數(shù)據(jù)處理能力因數(shù)據(jù)瓶頸而無法發(fā)揮其應(yīng)有的效能。
除了超大規(guī)模設(shè)施外,AI正在推動(dòng)對(duì)去中心化基礎(chǔ)設(shè)施的需求,以支持本地?cái)?shù)據(jù)處理。這需要專為邊緣工作負(fù)載設(shè)計(jì)的數(shù)據(jù)中心——在較小的物理空間和較低能耗下實(shí)現(xiàn)高性能。到2030年,隨著越來越多的處理任務(wù)向邊緣轉(zhuǎn)移,該市場(chǎng)預(yù)計(jì)將超過1600億美元。
該增長(zhǎng)源于自動(dòng)駕駛等應(yīng)用中,對(duì)于更加貼近終端用戶的實(shí)時(shí)處理能力的迫切需求。在這些應(yīng)用中,更快的決策速度至關(guān)重要。該方法可以降低延遲,更好地支持這個(gè)由物聯(lián)網(wǎng)和5G技術(shù)驅(qū)動(dòng)的超連接世界。
隨著AI應(yīng)用的日益成熟,推理工作負(fù)載的增長(zhǎng)速度已經(jīng)遠(yuǎn)超模型訓(xùn)練?;A(chǔ)設(shè)施也需要適應(yīng)這種從訓(xùn)練到推理的轉(zhuǎn)變——DeepSeek R1和OpenAI v3的成功有賴于此。這類推理系統(tǒng)利用經(jīng)過訓(xùn)練的模型來評(píng)估實(shí)時(shí)數(shù)據(jù),從而高效地做出決策或完成任務(wù)。
邊緣連接設(shè)備將產(chǎn)生大量的數(shù)據(jù)。因此,數(shù)據(jù)中心需要達(dá)到一定規(guī)模,以支持低延遲網(wǎng)絡(luò)和靈活的資源分配,從容應(yīng)對(duì)突發(fā)推理需求高峰。
以AI擴(kuò)展AI
有趣的是,AI既是問題所在,又是解決問題的關(guān)鍵。智能化對(duì)于應(yīng)對(duì)擴(kuò)展挑戰(zhàn)和確保高效運(yùn)營(yíng)至關(guān)重要。AI可以通過多種方式助力數(shù)據(jù)中心現(xiàn)代化,其中包括:
提高能源效率對(duì)于可持續(xù)運(yùn)營(yíng)至關(guān)重要。數(shù)據(jù)中心可以通過部署AI來自動(dòng)調(diào)節(jié)冷卻系統(tǒng)和服務(wù)器工作負(fù)載,應(yīng)對(duì)需求高峰。實(shí)施智能節(jié)能技術(shù)有助于最大限度地減少浪費(fèi)和運(yùn)營(yíng)成本,同時(shí)保持性能水平。
預(yù)測(cè)性維護(hù)利用機(jī)器學(xué)習(xí)在問題發(fā)生前進(jìn)行預(yù)測(cè)。這可以最大限度地減少停機(jī)時(shí)間,并有助于延長(zhǎng)基礎(chǔ)設(shè)施的使用壽命??紤]到擴(kuò)展所涉及的規(guī)模和成本,主動(dòng)安排維修和更新以優(yōu)化資源利用率的能力具有重要意義。
數(shù)字孿生與AI相結(jié)合,可創(chuàng)建動(dòng)態(tài)模型來對(duì)組件和系統(tǒng)進(jìn)行測(cè)試和驗(yàn)證。這些解決方案可用于確保復(fù)雜的數(shù)據(jù)中心保持穩(wěn)健、富有彈性,并能支持未來的需求。AI算法會(huì)分析有關(guān)性能和環(huán)境條件的歷史數(shù)據(jù),為優(yōu)化運(yùn)營(yíng)提供洞察。這些解決方案可以使用AI工作負(fù)載來模擬網(wǎng)絡(luò)性能,從而發(fā)現(xiàn)并解決潛在的瓶頸問題。先進(jìn)的測(cè)試和仿真工具是創(chuàng)建可擴(kuò)展、高效、可靠的基礎(chǔ)設(shè)施所需的技術(shù)堆棧的重要組成部分。
AI將加速完全自主的智能數(shù)據(jù)中心的實(shí)現(xiàn),這些數(shù)據(jù)中心幾乎可以處理所有操作,包括監(jiān)控、維護(hù)、聯(lián)網(wǎng)、能源管理和安全等,并且只需極少的人工投入。
面向未來的AI基礎(chǔ)設(shè)施
隨著AI的不斷發(fā)展,數(shù)據(jù)中心必須適應(yīng)日益復(fù)雜的工作負(fù)載。運(yùn)營(yíng)商迫切希望能以可持續(xù)的方式擴(kuò)展基礎(chǔ)設(shè)施來滿足需求,而不必犧牲性能或可靠性。由于AI的未來發(fā)展仍存在不確定性,打造靈活、富有彈性且易于適應(yīng)的基礎(chǔ)設(shè)施至關(guān)重要。
通過AI系統(tǒng)編排在超大規(guī)模計(jì)算能力和邊緣靈活性之間取得平衡將成為區(qū)分成敗的關(guān)鍵,而那些能夠順應(yīng)這一趨勢(shì)的企業(yè)將在AI革命中脫穎而出。