123,123,123

弥合带宽缺口，高性能AI推理如何受益于GDDR7？

日期： 2026-03-17

作者：Rambus半导体IP产品管理总监Nidish Kamath

來源：Rambus

關鍵詞： Rambus

Rambus半導體IP產(chǎn)品管理總監(jiān)Nidish Kamath

當前AI領域的發(fā)展格局正由大型語言模型（LLMs）的迅猛增長所主導。雖然云端對于這些超大規(guī)模模型的訓練依然至關重要，但一個顯著的轉(zhuǎn)變正在發(fā)生：AI推理正從集中式數(shù)據(jù)中心向網(wǎng)絡邊緣和終端設備遷移。這一趨勢涵蓋了從5G基礎設施到汽車、安防攝像頭和手機等終端設備在內(nèi)的廣泛領域。

在數(shù)字化轉(zhuǎn)型持續(xù)加速的高增長地區(qū)，這種遷移趨勢尤為顯著。根據(jù)IDC數(shù)據(jù)顯示，2024年下半年，中國邊緣云市場規(guī)模達到73.9億元人民幣。在邊緣側(cè)完成輕量化模型訓練和AI推理已成為行業(yè)關注的焦點，正驅(qū)動這一細分市場實現(xiàn)快速增長。

邊緣計算的優(yōu)勢顯而易見。本地化數(shù)據(jù)處理能提供用戶期待的實時響應。而最大限度的減少數(shù)據(jù)傳輸不僅能減輕網(wǎng)絡負荷，還能通過敏感數(shù)據(jù)的本地化存儲來提升安全性。隨著先進處理單元廣泛集成到日常設備中，我們正見證邊緣應用的爆發(fā)式增長，其功能已遠超基礎任務范疇。如今這些應用涵蓋語音識別、網(wǎng)絡監(jiān)控、天氣預報，甚至機器人技術(shù)與AI醫(yī)療設備，也對邊緣硬件的處理能力提出了更高且更嚴苛的要求。

不斷演進的市場格局催生出具有不同內(nèi)存需求的細分市場。云托管應用需要絕對最高級別的內(nèi)存帶寬，通常超過每秒1TB，傳統(tǒng)上采用HBM和DDR技術(shù)提供支持。網(wǎng)絡邊緣（如5G基礎設施）則需要在300-500 GB/s的高性能與成本效益之間尋求精妙平衡。終端設備則更注重成本控制，雖僅需50-100 GB/s的帶寬，但對帶寬增長的需求同樣迫切。而這一貫穿所有細分領域的共同特征是：內(nèi)存帶寬的需求正在全面持續(xù)攀升。

然而，這一需求也暴露了現(xiàn)代系統(tǒng)設計中的一個關鍵弱點：處理能力與內(nèi)存帶寬之間正出現(xiàn)日益嚴重的脫節(jié)。在過去兩年中，AI模型規(guī)模驚人地增長了410倍，而同期內(nèi)存帶寬僅提升約一倍。這種巨大反差導致顯著的“內(nèi)存鴻溝"——內(nèi)存子系統(tǒng)正日益成為制約AI性能的瓶頸，限制了先進處理器的潛力發(fā)揮。

為此，業(yè)界正日益轉(zhuǎn)向?qū)Ｓ锰幚砥饕蕴嵘?。盡管GPU依然表現(xiàn)強勁，但針對特定應用構(gòu)建專用硬件，可以通過精確匹配處理器與內(nèi)存的預期工作負載，來實現(xiàn)更高效的內(nèi)存利用。另一種解決方案則超越了處理器本身，通過采用2.5D架構(gòu)、3D堆疊或芯粒（Chiplets）等新興技術(shù)，使整個系統(tǒng)獲得卓越的處理能力。然而，盡管架構(gòu)變革層出不窮，核心挑戰(zhàn)依然存在：即如何選擇一個既能平衡性能，又具備商業(yè)可行性的內(nèi)存標準。

面對爆發(fā)式的邊緣 AI 應用，選擇合適的內(nèi)存解決方案面臨著艱難的"三難困境"。高帶寬內(nèi)存（HBM）雖能提供海量帶寬，卻伴隨著高昂的系統(tǒng)成本和2.5D/3D堆疊設計的復雜性。低功耗雙列直插內(nèi)存（LPDDR）在標準封裝中兼具能效與高容量優(yōu)勢，但單設備帶寬較低。邊緣AI系統(tǒng)正處于兩難境地：它們需要在帶寬、容量、成本和外形尺寸之間尋求平衡。

JEDEC GDDR7標準正是為解決這一特定挑戰(zhàn)而量身打造。該標準實現(xiàn)了性能的巨大飛躍，將每比特帶寬從GDDR6的24 Gbps提升至36 Gbps。這使得32位設備的總帶寬達到144 GB/s。憑借規(guī)格中48 Gbps的上限，總帶寬還能進一步提升。采用2-4個GDDR7設備的內(nèi)存子系統(tǒng)，即可實現(xiàn)邊緣AI目標帶寬——300-500 GB/s。

這一性能飛躍得益于信號傳輸技術(shù)的根本性變革。GDDR7從傳統(tǒng)的NRZ（2位）信號傳輸方式，升級為創(chuàng)新的PAM3（3位或三進制）信號傳輸技術(shù)。通過這一創(chuàng)新技術(shù)，結(jié)合兩位專用糾錯位，GDDR7控制器和物理層芯片能在與GDDR6相同的鏈路預算下實現(xiàn)更高數(shù)據(jù)速率。對于系統(tǒng)設計者而言，這不僅讓性能升級變得更可控，也更具成本效益。

為直觀展現(xiàn)這些技術(shù)指標的實際影響，我們可以考察一個真實的商業(yè)設計場景。假設一個典型的邊緣AI應用目標是實現(xiàn)500 GB/s的內(nèi)存帶寬：若采用GDDR7，僅需四顆 32Gbps的封裝即可達標。與LPDDR5X（速率為 9.6Gbps）相比，GDDR7占用的電路板面積更小；而與HBM4（速率為 8.0Gbps）相比，其總系統(tǒng)成本更低。在這個案例中，基于GDDR7的系統(tǒng)在LPDDR與HBM這兩種設計方案之間找到了一個理想的平衡點。

與 GDDR6 的雙通道設計相比，GDDR7 具備四個獨立通道。這種設計提供了更細的執(zhí)行顆粒度，對于 AI 推理應用至關重要，它能實現(xiàn)更靈活的數(shù)據(jù)組織方式，并顯著提升整體系統(tǒng)效率。此外，該標準還整合了關鍵的RAS（可靠性、可用性、可維護性）特性，例如片上糾錯碼（On-die ECC），這對于構(gòu)建穩(wěn)健可靠的邊緣部署至關重要。隨著行業(yè)采用這一新標準，可靠的IP合作伙伴對于確保芯片的成功實現(xiàn)將變得至關重要。

作為在高性能內(nèi)存和互連解決方案領域的領先企業(yè)，Rambus具備獨特優(yōu)勢來應對這些挑戰(zhàn)。Rambus GDDR7控制器IP支持JEDEC規(guī)定的全部標準特性，已在客戶量產(chǎn)中通過高達40 Gbps的芯片驗證。該方案同時具備全行（all-bank）和單行（per-bank）刷新模式以降低功耗。同時，該IP對x16及x8合蓋模式（Clamshell mode）的支持，為邊緣側(cè)設備提供了更多樣化的實現(xiàn)選擇。

Rambus GDDR7控制器以軟IP核形式交付，能夠與第三方GDDR7物理層（PHY）實現(xiàn)無縫協(xié)作。該功能為客戶提供了“開箱即用”的完整子系統(tǒng)，極大簡化了SoC的集成工作。在向客戶SoC團隊交付過程中，Rambus會對每個客戶的內(nèi)存控制器配置及第三方物理層文件進行全面回歸測試。此外，Rambus還提供專家級技術(shù)支持和定制化服務等增值方案，助力客戶加速產(chǎn)品上市進程。

在人工智能和生成式AI時代，內(nèi)存帶寬缺口仍將是一個挑戰(zhàn)。作為內(nèi)存技術(shù)的行業(yè)先行者，Rambus將繼續(xù)與行業(yè)合作伙伴緊密協(xié)作，提供關鍵的內(nèi)存與互連技術(shù)，為從云端到邊緣的AI產(chǎn)業(yè)進步注入強勁動力。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

弥合带宽缺口，高性能AI推理如何受益于GDDR7？

日期： 2026-03-17

作者：Rambus半导体IP产品管理总监Nidish Kamath

來源：Rambus

相關內(nèi)容