《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > AET原创 > TurboQuant与RaBitQ技术上相似吗?

TurboQuant与RaBitQ技术上相似吗?

谷歌存储压缩新算法TurboQuant陷学术不端疑云
2026-03-31
來源:电子技术应用
關(guān)鍵詞: 谷歌 TurboQuant 存储芯片

引言

2025年至2026年初,全球半導(dǎo)體行業(yè)正經(jīng)歷一場"冰火兩重天"的結(jié)構(gòu)性危機。一方面,AI產(chǎn)業(yè)的爆發(fā)推動半導(dǎo)體行業(yè)整體增長25.6%,另一方面,存儲芯片短缺卻嚴(yán)重拖累PC與手機芯片廠商的業(yè)績。

就在存儲荒愈演愈烈之際,2026年3月24日,谷歌在官方博客中高調(diào)推出了名為"TurboQuant"的新型AI內(nèi)存壓縮算法,實現(xiàn)約6倍的顯存占用降低與最高8倍的推理速度提升。資本市場給出回應(yīng),3月25日美股一開盤,存儲芯片板塊就集體迎來"黑色時刻",遭遇重挫。美光、西部數(shù)據(jù)等存儲巨頭股價應(yīng)聲暴跌,單日總市值蒸發(fā)超過900億美元!

而“反轉(zhuǎn)”來得更快。2026年3月27日,蘇黎世聯(lián)邦理工學(xué)院計算機博士后、RaBitQ算法作者華人高健揚發(fā)布文章,直指谷歌的TurboQuant論文存在嚴(yán)重學(xué)術(shù)問題!

 

1.谷歌新技術(shù)介紹

1.1 TurboQuant的技術(shù)突破

2026年3月24日,谷歌推出了名為"TurboQuant"的新型AI內(nèi)存壓縮算法。這項技術(shù)號稱能將大模型推理過程中的鍵值緩存(KV Cache)壓縮至3bit精度,實現(xiàn)約6倍的顯存占用降低與最高8倍的推理速度提升。

TurboQuant的核心突破在于解決了傳統(tǒng)向量量化過程中伴隨的內(nèi)存額外開銷問題。傳統(tǒng)方案為了保證精度,往往需要為每個數(shù)據(jù)塊額外存儲全精度的量化常數(shù),而TurboQuant通過兩階段處理架構(gòu)徹底消除了這一開銷。

第一階段是PolarQuant(極坐標(biāo)量化)。該方法放棄了傳統(tǒng)的笛卡爾坐標(biāo)系,將數(shù)據(jù)向量轉(zhuǎn)換為極坐標(biāo),把數(shù)據(jù)分離為代表強度的半徑和代表方向的角度。通過對輸入向量應(yīng)用隨機旋轉(zhuǎn)矩陣,將高維向量從笛卡爾坐標(biāo)系轉(zhuǎn)換到各坐標(biāo)服從Beta分布的空間,使不同坐標(biāo)近乎獨立,從而對每個坐標(biāo)獨立應(yīng)用最優(yōu)標(biāo)量量化,無需存儲數(shù)據(jù)依賴的校準(zhǔn)常數(shù)。

第二階段是QJL(Quantized Johnson-Lindenstrauss)殘差修正。TurboQuant使用極低位寬(僅1 bit)對第一階段留下的微小誤差套用QJL算法,消除偏差以確保最終注意力分數(shù)的精準(zhǔn)。這種兩階段協(xié)同設(shè)計實現(xiàn)了"主體壓縮+殘差校正"的數(shù)學(xué)美感。

1.2 性能數(shù)據(jù)與宣稱優(yōu)勢

谷歌在論文中宣稱,TurboQuant在所有基準(zhǔn)測試中均達到了"完美的下游任務(wù)表現(xiàn)",同時將KV緩存的內(nèi)存占用減至1/6。實驗數(shù)據(jù)顯示,TurboQuant在每個通道使用3.5位時實現(xiàn)絕對質(zhì)量中性,在使用2.5位時僅有邊際質(zhì)量退化。

在H100 GPU加速器上,4比特TurboQuant相比32比特未量化的鍵值實現(xiàn)了高達8倍的性能提升。在最近鄰搜索任務(wù)中,該方法在召回率方面優(yōu)于現(xiàn)有的乘積量化技術(shù),同時將索引時間幾乎減少到零。

TurboQuant的另一大優(yōu)勢在于其"數(shù)據(jù)無感知"(data-oblivious)特性,使其無需進行特定的預(yù)處理或微調(diào)即可直接部署。該技術(shù)完全免訓(xùn)練、免校準(zhǔn),采用全局固定參數(shù),GPU向量化友好,適合并行處理,且全架構(gòu)通用,支持Llama、Mistral、Gemma、Qwen等主流模型無縫適配。

2.3 資本市場的劇烈反應(yīng)

TurboQuant消息一出,資本市場率先作出反應(yīng)。3月25日美股一開盤,存儲芯片板塊就集體迎來"黑色時刻",遭遇重挫。美光、西部數(shù)據(jù)等存儲巨頭股價應(yīng)聲暴跌,單日總市值蒸發(fā)超過900億美元(約合人民幣6220億元)。

市場情緒的短期波動源于單一維度的推演:若底層算法能將上下文內(nèi)存需求大幅縮減,現(xiàn)階段價格高昂且供不應(yīng)求的高帶寬內(nèi)存(HBM)及企業(yè)級存儲芯片的長期出貨量預(yù)期可能會面臨修正。業(yè)界甚至驚呼,這簡直是谷歌版的"DeepSeek時刻"。

然而,這種恐慌性拋售很快遭遇現(xiàn)實檢驗。TurboQuant解決的只是推理(Inference)階段的顯存瓶頸,模型訓(xùn)練階段的顯存消耗依然是一座大山。恰恰是廠商需要天量的內(nèi)存來訓(xùn)練模型,才導(dǎo)致普通人買不到內(nèi)存,TurboQuant在這一層面上無能為力。

2.新技術(shù)論文的爭議點分析

2.1 學(xué)術(shù)不端指控的爆發(fā)

就在谷歌沉浸在技術(shù)突破的歡呼聲中時,反轉(zhuǎn)來得很快。2026年3月27日,蘇黎世聯(lián)邦理工學(xué)院計算機博士后、RaBitQ算法作者華人高健揚發(fā)布文章,直指谷歌的TurboQuant論文存在嚴(yán)重學(xué)術(shù)問題。

高健揚是RaBitQ算法的第一作者,該算法早在2024年5月就已發(fā)布于arXiv,并連續(xù)被數(shù)據(jù)庫領(lǐng)域頂會SIGMOD 2024和SIGMOD 2025收錄,代碼完全開源。他指出,TurboQuant論文在描述RaBitQ時存在三大問題:系統(tǒng)性地回避了其與已有RaBitQ方法的相似性,錯誤描述了RaBitQ的理論結(jié)果,并刻意營造不公的實驗環(huán)境。

更令人震驚的是,這些問題在論文投稿前就已通過郵件告知谷歌團隊。高健揚披露,早在2025年5月,RaBitQ團隊就已經(jīng)向TurboQuant作者指出了論文存在的問題,TurboQuant團隊承認了相關(guān)問題,但選擇不予修復(fù)。

2.2 核心技術(shù)的高度相似性

TurboQuant與RaBitQ在方法層面有直接的結(jié)構(gòu)聯(lián)系,兩者都在量化前對輸入向量施加隨機旋轉(zhuǎn)(Johnson-Lindenstrauss變換)。這是兩篇論文方法設(shè)計中最核心、最接近的部分。

然而,TurboQuant論文全文未正面引用RaBitQ系列工作,后者早在2024年即在SIGMOD發(fā)表,同樣基于隨機旋轉(zhuǎn)實現(xiàn)理論最優(yōu)誤差界。在審稿過程中,Reviewer Autm曾直球提問:"隨機旋轉(zhuǎn)是你們論文首創(chuàng)的嗎?"TurboQuant作者在rebuttal中白紙黑字回復(fù):"隨機旋轉(zhuǎn)的使用此前已有探索,參見Quarot、RabitQ、QJL等工作。"

但令人費解的是,在論文終稿中,谷歌不僅沒有加入對RaBitQ的討論,還把正文中對RaBitQ僅有的(還不完整的)描述挪到了附錄里。面對高健揚團隊的質(zhì)疑,TurboQuant第一作者Amir Zandieh僅以"隨機旋轉(zhuǎn)和JL變換已成為該領(lǐng)域的標(biāo)準(zhǔn)技術(shù),我們無法列舉所有使用這些方法的方法"為由,拒絕承認引用缺失。

2.3 理論結(jié)果的惡意貶低

TurboQuant論文在不提供任何論據(jù)的情況下,將RaBitQ的理論保證定性為"次優(yōu)",將原因歸結(jié)為"較粗糙的分析(loose analysis)"。

然而,RaBitQ的誤差界實際上已經(jīng)達到了理論計算機頂級會議論文(Alon-Klartag,F(xiàn)OCS 2017)給出的漸近最優(yōu)誤差界,并因這一結(jié)果被邀請至理論計算機科學(xué)頂級會議FOCS的Workshop進行報告。RaBitQ擴展版的Theorem 3.2已經(jīng)嚴(yán)格證明,其誤差界匹配FOCS 2017給出的漸近最優(yōu)界。

2025年5月,高健揚團隊與TurboQuant第二作者Majid Daliri進行了多輪詳細的郵件技術(shù)討論,逐條解釋了為什么RaBitQ的理論保證是最優(yōu)的。Daliri在郵件中明確表示,已將討論內(nèi)容告知全體共同作者。然而,論文從投稿到收錄、再到公開宣傳,全程未修正任何錯誤。

2.4 實驗條件的雙重標(biāo)準(zhǔn)

最具爭議的是TurboQuant團隊的實驗設(shè)計。論文報告RaBitQ的量化速度比TurboQuant慢了"數(shù)個數(shù)量級",但這一對比毫無公平可言。

TurboQuant團隊在測試RaBitQ時使用單核CPU、關(guān)閉多線程并行的設(shè)置,并且使用了自己翻譯的Python代碼,而非RaBitQ團隊開源的高度優(yōu)化的C++實現(xiàn)。而測試TurboQuant時,則使用英偉達A100 GPU加速。

問題在于,RaBitQ的官方代碼2024年5月就開源了,默認是多線程并行。而且,Daliri在2025年1月的郵件中就已經(jīng)表示自己成功跑通了RaBitQ的C++代碼,他知道官方實現(xiàn)有多快。但最終論文里用來做對比的,仍然是他自己翻譯的、運行在單核CPU上的Python版本。

這種"把對手的鞋帶綁在一起,再跟他賽跑"的做法,在學(xué)術(shù)界引發(fā)了廣泛譴責(zé)。

2.5 谷歌的回應(yīng)與態(tài)度

面對高健揚團隊的正式致信,TurboQuant第一作者Amir Zandieh的回復(fù)堪稱傲慢。他僅承諾會修正對RaBitQ理論結(jié)果的錯誤描述和實驗環(huán)境差異,但拒絕在文中討論TurboQuant與RaBitQ在技術(shù)上的相似性。

更關(guān)鍵的是,TurboQuant團隊僅愿意在2026年4月ICLR 2026正式會議結(jié)束之后才做相應(yīng)修正。這種"先把蛋糕吃完,再討論蛋糕是不是你的"的態(tài)度,被學(xué)界批評為赤裸裸的學(xué)術(shù)霸凌。

目前,谷歌官方尚未就此事發(fā)布正式聲明。ICLR 2026會議本身正經(jīng)歷另一起重大誠信危機——因OpenReview API漏洞導(dǎo)致超萬篇投稿身份信息泄露,引發(fā)串通、賄賂等學(xué)術(shù)不端行為,組委會已于2025年12月宣布回滾全部評審、重置領(lǐng)域主席并嚴(yán)查違規(guī)論文。在此背景下,TurboQuant的爭議更受關(guān)注。

3.一切為了TPU

3.1 TPU的量化技術(shù)積累

谷歌在AI芯片領(lǐng)域的布局遠不止TurboQuant這一項技術(shù)。作為TPU(張量處理單元)的開發(fā)者,谷歌在量化技術(shù)方面有著深厚的積累。

Google Edge TPU是專為邊緣設(shè)備設(shè)計的機器學(xué)習(xí)推理加速器,能夠執(zhí)行4萬億次操作每秒(TOPS),每瓦特可執(zhí)行2 TOPS。Edge TPU原生支持INT8量化,可將模型大小減少75%并加速推理。在多項基準(zhǔn)測試中,Edge TPU在延遲和能效方面均優(yōu)于NVIDIA Jetson TX2和Intel Movidius Myriad X VPU。

在數(shù)據(jù)中心端,谷歌推出了Accurate Quantized Training(AQT)開源庫,主要用于TPU v5e,支持高效的INT8訓(xùn)練和推理,在減少訓(xùn)練時間的同時保持最小的精度損失。此外,谷歌還設(shè)計了EQuARX(Efficient Quantized AllReduce in XLA),一種針對TPU優(yōu)化的量化AllReduce操作,通過在AllReduce集體操作內(nèi)動態(tài)執(zhí)行塊級量化/反量化,成功隱藏了大部分與量化和反量化相關(guān)的計算開銷。

3.2 TurboQuant與TPU的協(xié)同

TurboQuant的技術(shù)特性使其天然適合與TPU架構(gòu)協(xié)同。該技術(shù)采用數(shù)據(jù)無關(guān)的在線量化策略,不需要針對特定數(shù)據(jù)集進行離線校準(zhǔn)或預(yù)處理,這與TPU的靜態(tài)圖執(zhí)行模式高度契合。

TurboQuant的兩階段架構(gòu)——PolarQuant主體壓縮+QJL殘差校正——可以在TPU的向量計算單元上高效實現(xiàn)。隨機旋轉(zhuǎn)和Beta分布量化可以通過TPU的矩陣乘法單元加速,而1-bit的QJL變換則適合TPU的專用整數(shù)運算單元。

更重要的是,TurboQuant聲稱在H100 GPU上實現(xiàn)了8倍加速,而TPU在特定工作負載上的能效比GPU更高。如果TurboQuant能夠在TPU上實現(xiàn)類似的性能提升,將進一步鞏固谷歌在AI基礎(chǔ)設(shè)施領(lǐng)域的成本優(yōu)勢。

3.3 軟件生態(tài)的閉環(huán)

谷歌正在構(gòu)建從算法到硬件的完整量化生態(tài)。JAX作為谷歌主推的機器學(xué)習(xí)框架,與AQT庫深度集成,支持在TPU上進行量化感知訓(xùn)練。TurboQuant作為后訓(xùn)練量化(PTQ)方案,可以與JAX/AQT形成互補——前者用于快速部署,后者用于追求極致精度。

此外,谷歌的Gemma系列開源模型已經(jīng)開始采用這些量化技術(shù)。EQuARX已經(jīng)在Gemma 3的預(yù)填充階段實現(xiàn)了1.25倍(27B模型)和1.1倍(12B模型)的加速,且精度損失微乎其微。TurboQuant的引入將進一步降低Gemma模型的部署成本,提升其在邊緣設(shè)備和云端推理場景的競爭力。

4.谷歌打的什么算盤

4.1 搶占技術(shù)話語權(quán)的戰(zhàn)略意圖

谷歌選擇在這個時間點高調(diào)發(fā)布TurboQuant,絕非偶然。在存儲荒愈演愈烈的背景下,一項能夠"將內(nèi)存占用減少6倍"的技術(shù),無疑具有極強的市場號召力。Cloudflare CEO激動地發(fā)推稱:"這是谷歌的DeepSeek時刻!"

這背后反映的是谷歌在AI基礎(chǔ)設(shè)施領(lǐng)域爭奪技術(shù)話語權(quán)的戰(zhàn)略意圖。隨著AI模型規(guī)模持續(xù)膨脹,"內(nèi)存墻"問題日益突出,誰能在模型壓縮和推理優(yōu)化領(lǐng)域取得突破,誰就能在云計算和AI服務(wù)市場占據(jù)優(yōu)勢地位。

通過將TurboQuant包裝為一項"革命性"突破,谷歌試圖向市場傳遞一個信號:即使在硬件資源受限的環(huán)境下,谷歌依然能夠通過算法創(chuàng)新保持領(lǐng)先。這對于吸引企業(yè)客戶使用谷歌云服務(wù)、推廣TPU生7態(tài)具有重要意義。

4.2 打壓存儲股價的潛在動機

TurboQuant發(fā)布的時機選擇也耐人尋味。3月24日發(fā)布技術(shù)博客,3月25日美股存儲板塊應(yīng)聲暴跌,市值蒸發(fā)超900億美元。雖然谷歌不可能直接控制股價,但如此精準(zhǔn)的市場反應(yīng),很難說是完全巧合。

從戰(zhàn)略層面看,打壓存儲股價符合谷歌的利益。作為全球最大的AI基礎(chǔ)設(shè)施采購方之一,谷歌對存儲芯片價格有著天然的敏感性。如果市場相信算法進步能夠減少對硬件的依賴,存儲芯片的定價權(quán)將受到?jīng)_擊,從而在長期采購談判中占據(jù)更有利的位置。

此外,谷歌正在大力推廣自研TPU,與英偉達GPU形成競爭。如果能夠證明TPU配合TurboQuant等算法優(yōu)化,能夠在性價比上超越GPU+HBM的組合,將有力推動TPU的市場滲透。

4.3 學(xué)術(shù)不端背后的傲慢與功利

然而,TurboQuant論文的學(xué)術(shù)爭議,暴露出谷歌研究文化中的深層問題。這并非谷歌首次陷入學(xué)術(shù)誠信危機——2023年12月,谷歌發(fā)布的Gemini多模態(tài)演示視頻被曝后期剪輯造假;2023年2月,Bard發(fā)布首日即答錯"詹姆斯·韋伯望遠鏡首張照片"。

TurboQuant事件的特殊之處在于,這種"知錯不改"的態(tài)度具有系統(tǒng)性。從2025年1月聯(lián)系RaBitQ團隊請教代碼,到5月被指出問題后承認但拒絕修正,再到2026年3月高調(diào)發(fā)布論文,整個過程展現(xiàn)出一種"大科技公司學(xué)術(shù)霸權(quán)"的心態(tài)。

這種心態(tài)的根源在于功利主義的科研文化。在"Publish or Perish"(不發(fā)表就滅亡)的壓力下,加上公司層面的商業(yè)訴求,研究團隊可能傾向于選擇性地忽略不利證據(jù),通過包裝和營銷來放大研究成果的影響力。

4.4 對行業(yè)的深遠影響

TurboQuant爭議對AI研究生態(tài)的影響將是深遠的。一方面,它提醒學(xué)術(shù)界和工業(yè)界,即使是頂級會議(ICLR)的審稿流程,也可能無法有效識別和阻止學(xué)術(shù)不端行為。在AI研究日益工業(yè)化的今天,大科技公司的資源優(yōu)勢和話語權(quán),可能扭曲正常的學(xué)術(shù)競爭。

另一方面,這一事件也凸顯了開源社區(qū)在維護學(xué)術(shù)誠信方面的重要作用。高健揚團隊之所以能夠揭露TurboQuant的問題,關(guān)鍵在于RaBitQ的代碼完全開源,使得技術(shù)對比和復(fù)現(xiàn)成為可能。相比之下,TurboQuant目前尚未發(fā)布開源代碼,這種"閉源領(lǐng)先"的做法本身就值得警惕。

對于存儲行業(yè)而言,TurboQuant引發(fā)的市場波動可能只是一個開始。無論該技術(shù)的實際價值如何,它都揭示了一個趨勢:算法優(yōu)化正在挑戰(zhàn)硬件升級的傳統(tǒng)路徑。在杰文斯悖論(Jevons Paradox)的作用下,內(nèi)存利用率的提高可能反而刺激更大的需求,但從長期來看,軟件定義硬件的趨勢不可逆轉(zhuǎn)。

4.5 谷歌的真正算盤

綜合來看,谷歌發(fā)布TurboQuant的真正算盤可以歸結(jié)為以下幾點:

第一,技術(shù)占位。 通過率先發(fā)布(即使存在爭議),谷歌在向量量化領(lǐng)域搶占了技術(shù)高地,為后續(xù)的專利布局和標(biāo)準(zhǔn)制定奠定基礎(chǔ)。

第二,生態(tài)綁定。 TurboQuant與谷歌的TPU、JAX、Gemma等軟硬件產(chǎn)品形成協(xié)同,增強谷歌AI生態(tài)的整體競爭力。

第三,市場博弈。 通過影響資本市場對存儲行業(yè)的預(yù)期,谷歌試圖在芯片采購談判中獲得更有利的地位。

第四,人才爭奪。 高調(diào)的技術(shù)發(fā)布有助于提升谷歌在AI研究領(lǐng)域的聲譽,吸引頂尖人才加入。

然而,這種建立在學(xué)術(shù)不端基礎(chǔ)上的"勝利",注定是短視的。當(dāng)高健揚們的聲音被聽到,當(dāng)?shù)谌綇?fù)現(xiàn)結(jié)果出爐,TurboQuant的真實價值將接受檢驗。對于谷歌而言,真正的挑戰(zhàn)不在于能否暫時欺騙市場,而在于能否建立起可持續(xù)的、值得信賴的技術(shù)領(lǐng)導(dǎo)力。

在AI這個充滿泡沫與狂熱的時代,TurboQuant事件是一個警示:技術(shù)進步不應(yīng)以犧牲學(xué)術(shù)誠信為代價,商業(yè)成功不能建立在打壓同行之上。谷歌打的算盤,最終能否如意,取決于它能否正視問題、糾正錯誤,重新贏得學(xué)界和業(yè)界的信任。否則,這900億美元蒸發(fā)掉的市值,不過是更大代價的預(yù)演。

結(jié)語

存儲荒與TurboQuant的交織,折射出AI時代技術(shù)競爭的新常態(tài)。當(dāng)硬件資源成為瓶頸,算法創(chuàng)新被賦予過高的期待;當(dāng)商業(yè)利益壓倒學(xué)術(shù)倫理,技術(shù)突破蒙上造假的陰影。谷歌的這一局棋,下得并不光彩。無論最終結(jié)局如何,這場風(fēng)波都將成為AI研究史上的一個重要注腳——提醒我們,在追求效率與利潤的同時,不應(yīng)忘記科學(xué)精神的本真。


2.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。