123,123

TurboQuant与RaBitQ技术上相似吗？

谷歌存储压缩新算法TurboQuant陷学术不端疑云

日期： 2026-03-31

來源：电子技术应用

關(guān)鍵詞： 谷歌 TurboQuant 存储芯片

引言

2025年至2026年初，全球半導(dǎo)體行業(yè)正經(jīng)歷一場"冰火兩重天"的結(jié)構(gòu)性危機。一方面，AI產(chǎn)業(yè)的爆發(fā)推動半導(dǎo)體行業(yè)整體增長25.6%，另一方面，存儲芯片短缺卻嚴(yán)重拖累PC與手機芯片廠商的業(yè)績。

就在存儲荒愈演愈烈之際，2026年3月24日，谷歌在官方博客中高調(diào)推出了名為"TurboQuant"的新型AI內(nèi)存壓縮算法，實現(xiàn)約6倍的顯存占用降低與最高8倍的推理速度提升。資本市場給出回應(yīng)，3月25日美股一開盤，存儲芯片板塊就集體迎來"黑色時刻"，遭遇重挫。美光、西部數(shù)據(jù)等存儲巨頭股價應(yīng)聲暴跌，單日總市值蒸發(fā)超過900億美元！

而“反轉(zhuǎn)”來得更快。2026年3月27日，蘇黎世聯(lián)邦理工學(xué)院計算機博士后、RaBitQ算法作者華人高健揚發(fā)布文章，直指谷歌的TurboQuant論文存在嚴(yán)重學(xué)術(shù)問題！

1.谷歌新技術(shù)介紹

1.1 TurboQuant的技術(shù)突破

2026年3月24日，谷歌推出了名為"TurboQuant"的新型AI內(nèi)存壓縮算法。這項技術(shù)號稱能將大模型推理過程中的鍵值緩存（KV Cache）壓縮至3bit精度，實現(xiàn)約6倍的顯存占用降低與最高8倍的推理速度提升。

TurboQuant的核心突破在于解決了傳統(tǒng)向量量化過程中伴隨的內(nèi)存額外開銷問題。傳統(tǒng)方案為了保證精度，往往需要為每個數(shù)據(jù)塊額外存儲全精度的量化常數(shù)，而TurboQuant通過兩階段處理架構(gòu)徹底消除了這一開銷。

第一階段是PolarQuant（極坐標(biāo)量化）。該方法放棄了傳統(tǒng)的笛卡爾坐標(biāo)系，將數(shù)據(jù)向量轉(zhuǎn)換為極坐標(biāo)，把數(shù)據(jù)分離為代表強度的半徑和代表方向的角度。通過對輸入向量應(yīng)用隨機旋轉(zhuǎn)矩陣，將高維向量從笛卡爾坐標(biāo)系轉(zhuǎn)換到各坐標(biāo)服從Beta分布的空間，使不同坐標(biāo)近乎獨立，從而對每個坐標(biāo)獨立應(yīng)用最優(yōu)標(biāo)量量化，無需存儲數(shù)據(jù)依賴的校準(zhǔn)常數(shù)。

第二階段是QJL（Quantized Johnson-Lindenstrauss）殘差修正。TurboQuant使用極低位寬（僅1 bit）對第一階段留下的微小誤差套用QJL算法，消除偏差以確保最終注意力分數(shù)的精準(zhǔn)。這種兩階段協(xié)同設(shè)計實現(xiàn)了"主體壓縮+殘差校正"的數(shù)學(xué)美感。

1.2 性能數(shù)據(jù)與宣稱優(yōu)勢

谷歌在論文中宣稱，TurboQuant在所有基準(zhǔn)測試中均達到了"完美的下游任務(wù)表現(xiàn)"，同時將KV緩存的內(nèi)存占用減至1/6。實驗數(shù)據(jù)顯示，TurboQuant在每個通道使用3.5位時實現(xiàn)絕對質(zhì)量中性，在使用2.5位時僅有邊際質(zhì)量退化。

在H100 GPU加速器上，4比特TurboQuant相比32比特未量化的鍵值實現(xiàn)了高達8倍的性能提升。在最近鄰搜索任務(wù)中，該方法在召回率方面優(yōu)于現(xiàn)有的乘積量化技術(shù)，同時將索引時間幾乎減少到零。

TurboQuant的另一大優(yōu)勢在于其"數(shù)據(jù)無感知"（data-oblivious）特性，使其無需進行特定的預(yù)處理或微調(diào)即可直接部署。該技術(shù)完全免訓(xùn)練、免校準(zhǔn)，采用全局固定參數(shù)，GPU向量化友好，適合并行處理，且全架構(gòu)通用，支持Llama、Mistral、Gemma、Qwen等主流模型無縫適配。

2.3 資本市場的劇烈反應(yīng)

TurboQuant消息一出，資本市場率先作出反應(yīng)。3月25日美股一開盤，存儲芯片板塊就集體迎來"黑色時刻"，遭遇重挫。美光、西部數(shù)據(jù)等存儲巨頭股價應(yīng)聲暴跌，單日總市值蒸發(fā)超過900億美元（約合人民幣6220億元）。

市場情緒的短期波動源于單一維度的推演：若底層算法能將上下文內(nèi)存需求大幅縮減，現(xiàn)階段價格高昂且供不應(yīng)求的高帶寬內(nèi)存（HBM）及企業(yè)級存儲芯片的長期出貨量預(yù)期可能會面臨修正。業(yè)界甚至驚呼，這簡直是谷歌版的"DeepSeek時刻"。

然而，這種恐慌性拋售很快遭遇現(xiàn)實檢驗。TurboQuant解決的只是推理（Inference）階段的顯存瓶頸，模型訓(xùn)練階段的顯存消耗依然是一座大山。恰恰是廠商需要天量的內(nèi)存來訓(xùn)練模型，才導(dǎo)致普通人買不到內(nèi)存，TurboQuant在這一層面上無能為力。

2.新技術(shù)論文的爭議點分析

2.1 學(xué)術(shù)不端指控的爆發(fā)

就在谷歌沉浸在技術(shù)突破的歡呼聲中時，反轉(zhuǎn)來得很快。2026年3月27日，蘇黎世聯(lián)邦理工學(xué)院計算機博士后、RaBitQ算法作者華人高健揚發(fā)布文章，直指谷歌的TurboQuant論文存在嚴(yán)重學(xué)術(shù)問題。

高健揚是RaBitQ算法的第一作者，該算法早在2024年5月就已發(fā)布于arXiv，并連續(xù)被數(shù)據(jù)庫領(lǐng)域頂會SIGMOD 2024和SIGMOD 2025收錄，代碼完全開源。他指出，TurboQuant論文在描述RaBitQ時存在三大問題：系統(tǒng)性地回避了其與已有RaBitQ方法的相似性，錯誤描述了RaBitQ的理論結(jié)果，并刻意營造不公的實驗環(huán)境。

更令人震驚的是，這些問題在論文投稿前就已通過郵件告知谷歌團隊。高健揚披露，早在2025年5月，RaBitQ團隊就已經(jīng)向TurboQuant作者指出了論文存在的問題，TurboQuant團隊承認了相關(guān)問題，但選擇不予修復(fù)。

2.2 核心技術(shù)的高度相似性

TurboQuant與RaBitQ在方法層面有直接的結(jié)構(gòu)聯(lián)系，兩者都在量化前對輸入向量施加隨機旋轉(zhuǎn)（Johnson-Lindenstrauss變換）。這是兩篇論文方法設(shè)計中最核心、最接近的部分。

然而，TurboQuant論文全文未正面引用RaBitQ系列工作，后者早在2024年即在SIGMOD發(fā)表，同樣基于隨機旋轉(zhuǎn)實現(xiàn)理論最優(yōu)誤差界。在審稿過程中，Reviewer Autm曾直球提問："隨機旋轉(zhuǎn)是你們論文首創(chuàng)的嗎？"TurboQuant作者在rebuttal中白紙黑字回復(fù)："隨機旋轉(zhuǎn)的使用此前已有探索，參見Quarot、RabitQ、QJL等工作。"

但令人費解的是，在論文終稿中，谷歌不僅沒有加入對RaBitQ的討論，還把正文中對RaBitQ僅有的（還不完整的）描述挪到了附錄里。面對高健揚團隊的質(zhì)疑，TurboQuant第一作者Amir Zandieh僅以"隨機旋轉(zhuǎn)和JL變換已成為該領(lǐng)域的標(biāo)準(zhǔn)技術(shù)，我們無法列舉所有使用這些方法的方法"為由，拒絕承認引用缺失。

2.3 理論結(jié)果的惡意貶低

TurboQuant論文在不提供任何論據(jù)的情況下，將RaBitQ的理論保證定性為"次優(yōu)"，將原因歸結(jié)為"較粗糙的分析（loose analysis）"。

然而，RaBitQ的誤差界實際上已經(jīng)達到了理論計算機頂級會議論文（Alon-Klartag，F(xiàn)OCS 2017）給出的漸近最優(yōu)誤差界，并因這一結(jié)果被邀請至理論計算機科學(xué)頂級會議FOCS的Workshop進行報告。RaBitQ擴展版的Theorem 3.2已經(jīng)嚴(yán)格證明，其誤差界匹配FOCS 2017給出的漸近最優(yōu)界。

2025年5月，高健揚團隊與TurboQuant第二作者Majid Daliri進行了多輪詳細的郵件技術(shù)討論，逐條解釋了為什么RaBitQ的理論保證是最優(yōu)的。Daliri在郵件中明確表示，已將討論內(nèi)容告知全體共同作者。然而，論文從投稿到收錄、再到公開宣傳，全程未修正任何錯誤。

2.4 實驗條件的雙重標(biāo)準(zhǔn)

最具爭議的是TurboQuant團隊的實驗設(shè)計。論文報告RaBitQ的量化速度比TurboQuant慢了"數(shù)個數(shù)量級"，但這一對比毫無公平可言。

TurboQuant團隊在測試RaBitQ時使用單核CPU、關(guān)閉多線程并行的設(shè)置，并且使用了自己翻譯的Python代碼，而非RaBitQ團隊開源的高度優(yōu)化的C++實現(xiàn)。而測試TurboQuant時，則使用英偉達A100 GPU加速。

問題在于，RaBitQ的官方代碼2024年5月就開源了，默認是多線程并行。而且，Daliri在2025年1月的郵件中就已經(jīng)表示自己成功跑通了RaBitQ的C++代碼，他知道官方實現(xiàn)有多快。但最終論文里用來做對比的，仍然是他自己翻譯的、運行在單核CPU上的Python版本。

這種"把對手的鞋帶綁在一起，再跟他賽跑"的做法，在學(xué)術(shù)界引發(fā)了廣泛譴責(zé)。

2.5 谷歌的回應(yīng)與態(tài)度

面對高健揚團隊的正式致信，TurboQuant第一作者Amir Zandieh的回復(fù)堪稱傲慢。他僅承諾會修正對RaBitQ理論結(jié)果的錯誤描述和實驗環(huán)境差異，但拒絕在文中討論TurboQuant與RaBitQ在技術(shù)上的相似性。

更關(guān)鍵的是，TurboQuant團隊僅愿意在2026年4月ICLR 2026正式會議結(jié)束之后才做相應(yīng)修正。這種"先把蛋糕吃完，再討論蛋糕是不是你的"的態(tài)度，被學(xué)界批評為赤裸裸的學(xué)術(shù)霸凌。

目前，谷歌官方尚未就此事發(fā)布正式聲明。ICLR 2026會議本身正經(jīng)歷另一起重大誠信危機——因OpenReview API漏洞導(dǎo)致超萬篇投稿身份信息泄露，引發(fā)串通、賄賂等學(xué)術(shù)不端行為，組委會已于2025年12月宣布回滾全部評審、重置領(lǐng)域主席并嚴(yán)查違規(guī)論文。在此背景下，TurboQuant的爭議更受關(guān)注。

3.一切為了TPU

3.1 TPU的量化技術(shù)積累

谷歌在AI芯片領(lǐng)域的布局遠不止TurboQuant這一項技術(shù)。作為TPU（張量處理單元）的開發(fā)者，谷歌在量化技術(shù)方面有著深厚的積累。

Google Edge TPU是專為邊緣設(shè)備設(shè)計的機器學(xué)習(xí)推理加速器，能夠執(zhí)行4萬億次操作每秒（TOPS），每瓦特可執(zhí)行2 TOPS。Edge TPU原生支持INT8量化，可將模型大小減少75%并加速推理。在多項基準(zhǔn)測試中，Edge TPU在延遲和能效方面均優(yōu)于NVIDIA Jetson TX2和Intel Movidius Myriad X VPU。

在數(shù)據(jù)中心端，谷歌推出了Accurate Quantized Training（AQT）開源庫，主要用于TPU v5e，支持高效的INT8訓(xùn)練和推理，在減少訓(xùn)練時間的同時保持最小的精度損失。此外，谷歌還設(shè)計了EQuARX（Efficient Quantized AllReduce in XLA），一種針對TPU優(yōu)化的量化AllReduce操作，通過在AllReduce集體操作內(nèi)動態(tài)執(zhí)行塊級量化/反量化，成功隱藏了大部分與量化和反量化相關(guān)的計算開銷。

3.2 TurboQuant與TPU的協(xié)同

TurboQuant的技術(shù)特性使其天然適合與TPU架構(gòu)協(xié)同。該技術(shù)采用數(shù)據(jù)無關(guān)的在線量化策略，不需要針對特定數(shù)據(jù)集進行離線校準(zhǔn)或預(yù)處理，這與TPU的靜態(tài)圖執(zhí)行模式高度契合。

TurboQuant的兩階段架構(gòu)——PolarQuant主體壓縮+QJL殘差校正——可以在TPU的向量計算單元上高效實現(xiàn)。隨機旋轉(zhuǎn)和Beta分布量化可以通過TPU的矩陣乘法單元加速，而1-bit的QJL變換則適合TPU的專用整數(shù)運算單元。

更重要的是，TurboQuant聲稱在H100 GPU上實現(xiàn)了8倍加速，而TPU在特定工作負載上的能效比GPU更高。如果TurboQuant能夠在TPU上實現(xiàn)類似的性能提升，將進一步鞏固谷歌在AI基礎(chǔ)設(shè)施領(lǐng)域的成本優(yōu)勢。

3.3 軟件生態(tài)的閉環(huán)

谷歌正在構(gòu)建從算法到硬件的完整量化生態(tài)。JAX作為谷歌主推的機器學(xué)習(xí)框架，與AQT庫深度集成，支持在TPU上進行量化感知訓(xùn)練。TurboQuant作為后訓(xùn)練量化（PTQ）方案，可以與JAX/AQT形成互補——前者用于快速部署，后者用于追求極致精度。

此外，谷歌的Gemma系列開源模型已經(jīng)開始采用這些量化技術(shù)。EQuARX已經(jīng)在Gemma 3的預(yù)填充階段實現(xiàn)了1.25倍（27B模型）和1.1倍（12B模型）的加速，且精度損失微乎其微。TurboQuant的引入將進一步降低Gemma模型的部署成本，提升其在邊緣設(shè)備和云端推理場景的競爭力。

4.谷歌打的什么算盤

4.1 搶占技術(shù)話語權(quán)的戰(zhàn)略意圖

谷歌選擇在這個時間點高調(diào)發(fā)布TurboQuant，絕非偶然。在存儲荒愈演愈烈的背景下，一項能夠"將內(nèi)存占用減少6倍"的技術(shù)，無疑具有極強的市場號召力。Cloudflare CEO激動地發(fā)推稱："這是谷歌的DeepSeek時刻！"

這背后反映的是谷歌在AI基礎(chǔ)設(shè)施領(lǐng)域爭奪技術(shù)話語權(quán)的戰(zhàn)略意圖。隨著AI模型規(guī)模持續(xù)膨脹，"內(nèi)存墻"問題日益突出，誰能在模型壓縮和推理優(yōu)化領(lǐng)域取得突破，誰就能在云計算和AI服務(wù)市場占據(jù)優(yōu)勢地位。

通過將TurboQuant包裝為一項"革命性"突破，谷歌試圖向市場傳遞一個信號：即使在硬件資源受限的環(huán)境下，谷歌依然能夠通過算法創(chuàng)新保持領(lǐng)先。這對于吸引企業(yè)客戶使用谷歌云服務(wù)、推廣TPU生7態(tài)具有重要意義。

4.2 打壓存儲股價的潛在動機

TurboQuant發(fā)布的時機選擇也耐人尋味。3月24日發(fā)布技術(shù)博客，3月25日美股存儲板塊應(yīng)聲暴跌，市值蒸發(fā)超900億美元。雖然谷歌不可能直接控制股價，但如此精準(zhǔn)的市場反應(yīng)，很難說是完全巧合。

從戰(zhàn)略層面看，打壓存儲股價符合谷歌的利益。作為全球最大的AI基礎(chǔ)設(shè)施采購方之一，谷歌對存儲芯片價格有著天然的敏感性。如果市場相信算法進步能夠減少對硬件的依賴，存儲芯片的定價權(quán)將受到?jīng)_擊，從而在長期采購談判中占據(jù)更有利的位置。

此外，谷歌正在大力推廣自研TPU，與英偉達GPU形成競爭。如果能夠證明TPU配合TurboQuant等算法優(yōu)化，能夠在性價比上超越GPU+HBM的組合，將有力推動TPU的市場滲透。

4.3 學(xué)術(shù)不端背后的傲慢與功利

然而，TurboQuant論文的學(xué)術(shù)爭議，暴露出谷歌研究文化中的深層問題。這并非谷歌首次陷入學(xué)術(shù)誠信危機——2023年12月，谷歌發(fā)布的Gemini多模態(tài)演示視頻被曝后期剪輯造假；2023年2月，Bard發(fā)布首日即答錯"詹姆斯·韋伯望遠鏡首張照片"。

TurboQuant事件的特殊之處在于，這種"知錯不改"的態(tài)度具有系統(tǒng)性。從2025年1月聯(lián)系RaBitQ團隊請教代碼，到5月被指出問題后承認但拒絕修正，再到2026年3月高調(diào)發(fā)布論文，整個過程展現(xiàn)出一種"大科技公司學(xué)術(shù)霸權(quán)"的心態(tài)。

這種心態(tài)的根源在于功利主義的科研文化。在"Publish or Perish"（不發(fā)表就滅亡）的壓力下，加上公司層面的商業(yè)訴求，研究團隊可能傾向于選擇性地忽略不利證據(jù)，通過包裝和營銷來放大研究成果的影響力。

4.4 對行業(yè)的深遠影響

TurboQuant爭議對AI研究生態(tài)的影響將是深遠的。一方面，它提醒學(xué)術(shù)界和工業(yè)界，即使是頂級會議（ICLR）的審稿流程，也可能無法有效識別和阻止學(xué)術(shù)不端行為。在AI研究日益工業(yè)化的今天，大科技公司的資源優(yōu)勢和話語權(quán)，可能扭曲正常的學(xué)術(shù)競爭。

另一方面，這一事件也凸顯了開源社區(qū)在維護學(xué)術(shù)誠信方面的重要作用。高健揚團隊之所以能夠揭露TurboQuant的問題，關(guān)鍵在于RaBitQ的代碼完全開源，使得技術(shù)對比和復(fù)現(xiàn)成為可能。相比之下，TurboQuant目前尚未發(fā)布開源代碼，這種"閉源領(lǐng)先"的做法本身就值得警惕。

對于存儲行業(yè)而言，TurboQuant引發(fā)的市場波動可能只是一個開始。無論該技術(shù)的實際價值如何，它都揭示了一個趨勢：算法優(yōu)化正在挑戰(zhàn)硬件升級的傳統(tǒng)路徑。在杰文斯悖論（Jevons Paradox）的作用下，內(nèi)存利用率的提高可能反而刺激更大的需求，但從長期來看，軟件定義硬件的趨勢不可逆轉(zhuǎn)。

4.5 谷歌的真正算盤

綜合來看，谷歌發(fā)布TurboQuant的真正算盤可以歸結(jié)為以下幾點：

第一，技術(shù)占位。 通過率先發(fā)布（即使存在爭議），谷歌在向量量化領(lǐng)域搶占了技術(shù)高地，為后續(xù)的專利布局和標(biāo)準(zhǔn)制定奠定基礎(chǔ)。

第二，生態(tài)綁定。 TurboQuant與谷歌的TPU、JAX、Gemma等軟硬件產(chǎn)品形成協(xié)同，增強谷歌AI生態(tài)的整體競爭力。

第三，市場博弈。 通過影響資本市場對存儲行業(yè)的預(yù)期，谷歌試圖在芯片采購談判中獲得更有利的地位。

第四，人才爭奪。 高調(diào)的技術(shù)發(fā)布有助于提升谷歌在AI研究領(lǐng)域的聲譽，吸引頂尖人才加入。

然而，這種建立在學(xué)術(shù)不端基礎(chǔ)上的"勝利"，注定是短視的。當(dāng)高健揚們的聲音被聽到，當(dāng)?shù)谌綇?fù)現(xiàn)結(jié)果出爐，TurboQuant的真實價值將接受檢驗。對于谷歌而言，真正的挑戰(zhàn)不在于能否暫時欺騙市場，而在于能否建立起可持續(xù)的、值得信賴的技術(shù)領(lǐng)導(dǎo)力。

在AI這個充滿泡沫與狂熱的時代，TurboQuant事件是一個警示：技術(shù)進步不應(yīng)以犧牲學(xué)術(shù)誠信為代價，商業(yè)成功不能建立在打壓同行之上。谷歌打的算盤，最終能否如意，取決于它能否正視問題、糾正錯誤，重新贏得學(xué)界和業(yè)界的信任。否則，這900億美元蒸發(fā)掉的市值，不過是更大代價的預(yù)演。

結(jié)語

存儲荒與TurboQuant的交織，折射出AI時代技術(shù)競爭的新常態(tài)。當(dāng)硬件資源成為瓶頸，算法創(chuàng)新被賦予過高的期待；當(dāng)商業(yè)利益壓倒學(xué)術(shù)倫理，技術(shù)突破蒙上造假的陰影。谷歌的這一局棋，下得并不光彩。無論最終結(jié)局如何，這場風(fēng)波都將成為AI研究史上的一個重要注腳——提醒我們，在追求效率與利潤的同時，不應(yīng)忘記科學(xué)精神的本真。

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

TurboQuant与RaBitQ技术上相似吗？

日期： 2026-03-31

來源：电子技术应用

相關(guān)內(nèi)容