3月18日消息,據(jù)路透社報道,兩位知情人士透露,人工智能(AI)芯片大廠英偉達正準(zhǔn)備推出一款可向中國市場出口和銷售的Groq語言處理單元(LPU)版本,預(yù)計將于今年5月上市。
在近日的GTC 2026大會上,英偉達高調(diào)發(fā)布了基于Groq技術(shù)的Groq 3語言處理單元(LPU),將其定位為Vera Rubin GPU的“推理協(xié)處理器”,引發(fā)了市場的極大關(guān)注。
與大多數(shù)依賴HBM(高帶寬內(nèi)存)作為工作內(nèi)存層的AI加速器不同,每個Groq 3 LPU芯片集成了500MB的片上SRAM(靜態(tài)隨機存取存儲器)。雖然其容量遠低于Rubin GPU上的288GB的HBM4,但是其可提供高達150TB/s的帶寬,對于帶寬極度敏感的AI解碼操作,Groq 3 LPU的帶寬是傳統(tǒng)HBM的近7倍。

英偉達超大規(guī)模計算副總裁Ian Buck表示,對于需要極致低延遲的token生成任務(wù),LPU的帶寬優(yōu)勢無可替代。”
那么,英偉達最新推出的這款LPU是否能夠?qū)θA出口呢?
2026年1月,美國為了讓英偉達老的AI芯片能夠?qū)θA出口,放寬了相關(guān)出口管制的硬件參數(shù)限制,已經(jīng)修改為:TPP(總處理性能)低于21000(3A090.a和3A090.b中所定義)且“總DRAM帶寬”低于6500 GB/s(如第748部分補充2第(dd)(1)段注釋中所定義的)的高級計算商品。
美國的AI芯片出口管制的核心紅線是算力密度(TPP)和互聯(lián)帶寬。但LPU的架構(gòu)與AI GPU完全不同:它不擅長高并行浮點運算(訓(xùn)練任務(wù)),而是專攻低延遲推理。雖然其片上SRAM帶寬極高,但容量極?。▎涡酒瑑H500MB),無法獨立運行萬億參數(shù)級大模型。如果看FP8精度下的理論峰值算力,可能遠低于H100/B200等芯片。這意味著,Groq LPU的算力密度可能并不觸及現(xiàn)行美國針對AI芯片出口管制的性能閾值。
路透社的報道也指出,英偉達正在為中國市場準(zhǔn)備的Groq LPU芯片并非降級版本,也不是專門為中國市場打造的“特供版”。
但是,在英偉達的規(guī)劃中,Groq LPU是作為Rubin GPU的“協(xié)處理器”存在的。黃仁勛給出的配比建議是:約25%部署Groq LPU,其余75%部署Vera Rubin。LPU負責(zé)解碼階段的低延遲生成,Rubin GPU負責(zé)預(yù)填充階段的海量計算。
這意味著,即使LPU本身可以進入中國,它也無法與Vera Rubin組成完整的混合推理系統(tǒng)——這將顯著影響其在中國市場的實用價值。
不過,消息人士稱,英偉達計劃對華出口的LPU新版本可以適配其他GPU系統(tǒng)——這意味著它可能在接口、互聯(lián)協(xié)議或系統(tǒng)集成層面進行了調(diào)整,以適應(yīng)中國市場的服務(wù)器生態(tài)。
另一種可能是,英偉達將Groq LPU以板卡或系統(tǒng)的形式出口,通過整體系統(tǒng)的性能參數(shù)來滿足管制要求。消息人士稱“新版本可以適配其他系統(tǒng)”,也暗示了其可能在系統(tǒng)集成層面進行了調(diào)整。
雖然目前英偉達在AI訓(xùn)練芯片市場依然占據(jù)著主導(dǎo)地位,但是由于美國出口管制政策的限制,使得其在中國AI芯片市場的份額已持續(xù)降低至冰點。同時,在中國的AI推理芯片市場,英偉達更是面臨著寒武紀(jì)、HW、阿里平頭哥、百度昆侖芯等眾多本土廠商的激烈競爭。如果英偉達無法將Groq LPU帶入中國,可能將這部分市場份額拱手讓人。這種商業(yè)壓力也促使英偉達尋找合適的產(chǎn)品及合規(guī)的出口路徑,重新回到中國AI芯片市場。

