
谷歌發(fā)布了一項(xiàng)前瞻性研究計(jì)劃Project Suncatcher(太陽捕手計(jì)劃),旨在探索構(gòu)建一個(gè)基于太空、可高度擴(kuò)展的AI計(jì)算集群,你可以把它理解為"AI版星鏈"

谷歌這次把眼光放在整個(gè)太陽系了,隨著 AI 對(duì)計(jì)算能力和能源需求的爆炸式增長(zhǎng),地球資源將面臨巨大壓力,而太陽系中最豐富、最強(qiáng)大的能源——太陽能,在太空中可以被更高效地利用
簡(jiǎn)單來說Project Suncatcher項(xiàng)目的設(shè)想是通過部署由太陽能供電、搭載 Google TPU 并由自由空間光通信連接的衛(wèi)星星座,在近地軌道上構(gòu)建一個(gè)“太空數(shù)據(jù)中心”。初步研究表明,盡管存在巨大的工程挑戰(zhàn),但從基礎(chǔ)物理學(xué)和未來經(jīng)濟(jì)可行性的角度來看,這一構(gòu)想并非遙不可及
馬斯克已經(jīng)給劈柴哥留言了,表示想法很好,劈柴哥說這完全得益于SpaceX在發(fā)射技術(shù)方面的巨大進(jìn)步,看來馬斯克又要坐著數(shù)錢了

谷歌今天已經(jīng)發(fā)表了預(yù)印本論文《 面向未來高度可擴(kuò)展的天基人工智能基礎(chǔ)設(shè)施系統(tǒng)設(shè)計(jì) 》,揭秘了一些早期研究成果

paper:
https://services.google.com/fh/files/misc/suncatcher_paper.pdf
以下是論文的詳細(xì)解讀
為什么要在太空中進(jìn)行 AI 計(jì)算?
LLM快速發(fā)展正在面臨前所未有的挑戰(zhàn):對(duì)計(jì)算能力和能源的巨大需求
盡管算法效率在不斷提升,例如,Google Gemini 的單次查詢能耗在一年內(nèi)降低了 33 倍,但 AI 產(chǎn)品和服務(wù)的增長(zhǎng)速度更快,導(dǎo)致全球數(shù)據(jù)中心的能源需求急劇攀升。為了滿足這種增長(zhǎng),必須尋找更具可擴(kuò)展性和可持續(xù)性的能源解決方案
Project Suncatcher 的出發(fā)點(diǎn)正是基于這一根本性問題,并將目光投向了我們太陽系中最宏偉的能量源:太陽
太陽的巨大潛力:太陽每秒釋放的能量高達(dá) 3.86 × 102? 瓦,是人類總發(fā)電量的 100 萬億倍以上,幾乎取之不盡
太空的獨(dú)特優(yōu)勢(shì):在太空中利用太陽能,相比于地球表面具有顯著優(yōu)勢(shì)。在特定的軌道上,太陽能電池板幾乎可以 24 小時(shí)不間斷地接收光照,擺脫了晝夜循環(huán)和天氣的影響。這使得其發(fā)電效率比地球上中緯度地區(qū)的太陽能電池板高出最多 8 倍,同時(shí)也大大降低了對(duì)重型儲(chǔ)能電池的依賴
傳統(tǒng)的太空太陽能構(gòu)想通常聚焦于如何將產(chǎn)生的電力傳輸回地球,但這面臨著巨大的技術(shù)挑戰(zhàn)。Project Suncatcher 提出了一個(gè)新的思路:與其將能源傳回地球,不如直接將數(shù)據(jù)中心(即計(jì)算任務(wù))部署到太空。這個(gè)太空數(shù)據(jù)中心將由大量通過自由空間光鏈路高速互聯(lián)的太陽能衛(wèi)星組成。這種方法不僅有望實(shí)現(xiàn)前所未有的計(jì)算規(guī)模,還能最大限度地減少對(duì)地球土地、水等寶貴資源的影響
這個(gè)項(xiàng)目是 Google 繼自動(dòng)駕駛汽車(Waymo)和大規(guī)模量子計(jì)算機(jī)之后,又一次挑戰(zhàn)科學(xué)和工程極限的“登月計(jì)劃”
Suncatcher 系統(tǒng)設(shè)計(jì):構(gòu)建軌道上的 AI 集群
為了實(shí)現(xiàn)這一愿景,Project Suncatcher 提出了一個(gè)由模塊化、小型化衛(wèi)星組成的星座系統(tǒng)設(shè)計(jì)。這種設(shè)計(jì)放棄了建造單一、巨大的“巨石型”空間數(shù)據(jù)中心的想法,因?yàn)楹笳咝枰獜?fù)雜的在軌組裝,且在避障和結(jié)構(gòu)上都面臨更大困難。模塊化設(shè)計(jì)則為逐步擴(kuò)展和迭代提供了極大的靈活性
系統(tǒng)的核心設(shè)計(jì)要素包括:
軌道選擇:計(jì)劃將衛(wèi)星星座部署在晨昏-太陽同步近地軌道(dawn–dusk sun-synchronous low earth orbit, LEO)。這個(gè)軌道的特點(diǎn)是衛(wèi)星始終飛行在地球的晨昏線上方,這意味著它們幾乎可以持續(xù)不斷地被太陽照射。這不僅最大化了太陽能的收集效率,也進(jìn)一步減少了對(duì)電池的需求,從而降低了衛(wèi)星的質(zhì)量和發(fā)射成本。同時(shí),近地軌道也能有效降低與地面站通信的延遲
計(jì)算核心:每顆衛(wèi)星都將攜帶 Google 的 TPU 加速器芯片。具體來說,初步測(cè)試使用的是 Trillium,即 Google 的 v6e Cloud TPU。這些芯片將負(fù)責(zé)執(zhí)行大規(guī)模的機(jī)器學(xué)習(xí)(ML)工作負(fù)載
高速互聯(lián):為了讓分散在多顆衛(wèi)星上的 TPU 協(xié)同工作,如同在地面數(shù)據(jù)中心一樣,必須建立超高帶寬、超低延遲的連接。這通過自由空間光通信(FSO)技術(shù)實(shí)現(xiàn)。為了達(dá)到所需的通信性能,衛(wèi)星之間將以非常近的距離(數(shù)百米到數(shù)公里)進(jìn)行編隊(duì)飛行
編隊(duì)控制:維持如此緊密的衛(wèi)星編隊(duì)是一項(xiàng)巨大的挑戰(zhàn)。系統(tǒng)將采用基于機(jī)器學(xué)習(xí)的飛行控制模型,精確控制每顆衛(wèi)星的軌道,確保它們?cè)诒3志o密距離的同時(shí)能夠避免碰撞
熱量管理:在真空中,高功率的 TPU 芯片產(chǎn)生的熱量無法通過對(duì)流散發(fā),必須通過熱管和散熱器以熱輻射的形式排向太空。高效的熱管理系統(tǒng)對(duì)于保證芯片在標(biāo)稱溫度下穩(wěn)定運(yùn)行至關(guān)重要
這一系列設(shè)計(jì)旨在最大化每公斤發(fā)射質(zhì)量所能提供的計(jì)算能力,從而在經(jīng)濟(jì)上更具可行性。該研究計(jì)劃的首要任務(wù),就是逐一攻克實(shí)現(xiàn)這一系統(tǒng)所面臨的四大核心技術(shù)挑戰(zhàn)
挑戰(zhàn)一:實(shí)現(xiàn)數(shù)據(jù)中心級(jí)的星間光通信
大規(guī)模機(jī)器學(xué)習(xí)任務(wù),特別是模型訓(xùn)練,要求計(jì)算集群中的各個(gè)加速器之間能夠進(jìn)行海量數(shù)據(jù)的快速交換。地面上的 Google TPU 超級(jí)計(jì)算機(jī)通過定制的、每秒數(shù)G的光學(xué)芯片間互連來滿足這一需求。然而,目前商業(yè)化的星間光鏈路的數(shù)據(jù)速率通常在 1 到 100 G之間,遠(yuǎn)不能滿足要求。Project Suncatcher 的目標(biāo)是實(shí)現(xiàn)每秒數(shù)十TB的星間鏈路帶寬,這是一個(gè)數(shù)量級(jí)的飛躍
解決方案:短距離 + 多通道
谷歌研究團(tuán)隊(duì)發(fā)現(xiàn),可以采用類似于地面數(shù)據(jù)中心中成熟的商用密集波分復(fù)用(Dense Wavelength Division Multiplexing, DWDM)收發(fā)器技術(shù)。但這種技術(shù)有一個(gè)關(guān)鍵瓶頸:它需要非常高的接收光功率,通常在數(shù)百微瓦的量級(jí),而傳統(tǒng)長(zhǎng)距離星間通信的接收功率僅為 1 微瓦左右
物理學(xué)原理提供了解決方案:在自由空間中,接收到的光功率與通信距離的平方成反比(P ∝ 1/d2)。這意味著,只要將衛(wèi)星之間的距離急劇縮短,就可以顯著提高接收功率,從而滿足 DWDM 收發(fā)器的工作條件,即“閉合鏈路預(yù)算”。通過將衛(wèi)星編隊(duì)距離縮短至幾公里甚至更近,就能克服這一功率挑戰(zhàn)
進(jìn)一步擴(kuò)展:空間復(fù)用(Spatial Multiplexing)
當(dāng)通信距離變得非常短時(shí)(例如,對(duì)于一個(gè) 10 厘米的望遠(yuǎn)鏡,距離在 10 公里以內(nèi)),光束的發(fā)散角很小,光斑尺寸也相應(yīng)變小。這為空間復(fù)用帶來了新的機(jī)遇
研究團(tuán)隊(duì)可以在一個(gè)總孔徑內(nèi)集成多個(gè)獨(dú)立的光學(xué)收發(fā)系統(tǒng)陣列。例如,在一個(gè) 10 厘米的總孔徑中,可以集成一個(gè) 2x2 的 5 厘米光學(xué)系統(tǒng)陣列(適用于 2.5 公里距離),或一個(gè) 4x4 的 2.5 厘米光學(xué)系統(tǒng)陣列(適用于 0.63 公里距離)。每個(gè)子系統(tǒng)都承載一個(gè)獨(dú)立的 DWDM 數(shù)據(jù)流,從而使總帶寬成倍增加。這種擴(kuò)展方式類似于 Google 在地面上使用的 Palomar 光學(xué)電路交換機(jī)
初步驗(yàn)證
為了驗(yàn)證這一概念,谷歌團(tuán)隊(duì)已經(jīng)搭建了一個(gè)實(shí)驗(yàn)室規(guī)模的演示系統(tǒng)。該系統(tǒng)使用現(xiàn)成的商用組件,在一小段自由空間路徑上成功實(shí)現(xiàn)了單向 800G,雙向總計(jì) 1.6 Tb的傳輸速率,有力地證明了該技術(shù)路線的潛力
挑戰(zhàn)二:駕馭大規(guī)模緊密衛(wèi)星編隊(duì)的軌道動(dòng)力學(xué)
為了實(shí)現(xiàn)超高帶寬的星間通信,Suncatcher 的衛(wèi)星星座需要以前所未有的緊密隊(duì)形飛行。谷歌研究團(tuán)隊(duì)通過數(shù)值和解析物理模型,深入分析了這種星座的軌道動(dòng)力學(xué)特性。
建模與仿真
團(tuán)隊(duì)以一個(gè)由 81 顆衛(wèi)星組成的平面星座作為示例進(jìn)行分析。該星座的平均軌道高度為 650 公里,整個(gè)集群的半徑 R 為 1 公里。在這種配置下,相鄰衛(wèi)星之間的距離會(huì)在 100 米到 200 米之間周期性地振蕩
建模的起點(diǎn)是經(jīng)典的 Hill-Clohessy-Wiltshire (HCW) 方程,它描述了在理想開普勒軌道下,一顆衛(wèi)星相對(duì)于另一顆衛(wèi)星的相對(duì)運(yùn)動(dòng)。隨后,團(tuán)隊(duì)使用了一個(gè)基于 JAX(一種可微分編程框架)的模型進(jìn)行數(shù)值優(yōu)化,該模型能夠計(jì)入更復(fù)雜的擾動(dòng)因素
在 650 公里的軌道高度,影響衛(wèi)星軌道最主要的非開普勒效應(yīng)是地球引力場(chǎng)的非球形性(特別是由于地球扁率引起的 J2 項(xiàng)擾動(dòng))以及潛在的大氣阻力
“自由落體”星座的動(dòng)態(tài)演化

仿真結(jié)果顯示,這個(gè)星座并非一個(gè)剛性結(jié)構(gòu),而是在引力作用下持續(xù)演化的“自由落體”集群。在沒有推力干預(yù)的情況下,整個(gè)星座的形狀會(huì)在一個(gè)軌道周期內(nèi)完成兩次完整的變形循環(huán),其邊界始終被一個(gè)旋轉(zhuǎn)的橢球所包裹
有趣的是,這種動(dòng)態(tài)演化在很大程度上是穩(wěn)定且可預(yù)測(cè)的。即使考慮了地球扁率(J2 項(xiàng))的影響,這種可預(yù)測(cè)的漂移也可以通過對(duì)星座初始形狀進(jìn)行微小的調(diào)整來補(bǔ)償。例如,將橢球的軸長(zhǎng)比微調(diào)至 2:1.0037,就可以將 J2 項(xiàng)引起的漂移降低到每年每公里僅 3 米/秒的水平
結(jié)論:低成本的軌道維持
這些模型分析表明,維持這樣一個(gè)緊密編隊(duì)可能只需要適度的軌道維持機(jī)動(dòng),其燃料消耗可能不會(huì)顯著超過維持單顆衛(wèi)星精確軌道所需。這意味著,控制這樣一個(gè)龐大而緊密的星座在技術(shù)上是可行的,且運(yùn)營(yíng)成本可控
挑戰(zhàn)三:商用 TPU 在太空輻射環(huán)境下的生存能力
將為地面數(shù)據(jù)中心設(shè)計(jì)的尖端商用芯片直接用于太空,最大的疑問在于它們能否承受太空中的輻射環(huán)境。Project Suncatcher 團(tuán)隊(duì)對(duì) Google 的 Trillium v6e Cloud TPU進(jìn)行了首次公開的輻射測(cè)試
測(cè)試環(huán)境:
團(tuán)隊(duì)使用67MeV(兆電子伏)的質(zhì)子束來模擬太陽同步近地軌道上的輻射環(huán)境。在這個(gè)軌道上,主要的輻射源是穿透性強(qiáng)的質(zhì)子和銀河宇宙射線
測(cè)試模擬了帶有 10 毫米鋁等效屏蔽下的情況,預(yù)計(jì) 5 年任務(wù)期內(nèi)的總輻射劑量約為 750 rad(Si)。
輻射效應(yīng)與測(cè)試結(jié)果:
1.總電離劑量(Total Ionizing Dose, TID):這是輻射粒子在芯片絕緣層中累積電荷造成的長(zhǎng)期退化效應(yīng)
測(cè)試發(fā)現(xiàn),TPU 中最敏感的部件是HBM子系統(tǒng)
HBM 在累積劑量達(dá)到 2 krad(Si)時(shí)才開始出現(xiàn)異常,這幾乎是 5 年任務(wù)預(yù)期劑量的 3 倍
在高達(dá) 15 krad(Si) 的測(cè)試劑量下,芯片沒有出現(xiàn)因 TID 導(dǎo)致的永久性硬故障。結(jié)論是,Trillium TPU 對(duì)于太空應(yīng)用而言具有“驚人的輻射耐受性”。
2.單粒子效應(yīng):這是單個(gè)高能粒子撞擊芯片,瞬間引起的邏輯錯(cuò)誤或數(shù)據(jù)翻轉(zhuǎn)
HBM 同樣是 SEE 最敏感的部分,主要表現(xiàn)為不可糾正的 ECC(錯(cuò)誤糾正碼)錯(cuò)誤(UECCs)
對(duì)于典型的推理任務(wù),觀測(cè)到的 HBM UECC 發(fā)生率約為每 50 rad 一次,換算下來,錯(cuò)誤概率極低,大約為每一千萬次推理發(fā)生一次。這個(gè)錯(cuò)誤率對(duì)于推理應(yīng)用是完全可以接受的
然而,SEE 對(duì)模型訓(xùn)練任務(wù)的影響,以及系統(tǒng)級(jí)緩解措施的有效性,還需要進(jìn)一步研究
測(cè)試還發(fā)現(xiàn),宿主系統(tǒng)的 CPU 和 RAM 分別在每 450 rad(Si) 和 400 rad(Si) 時(shí)會(huì)發(fā)生一次由 SEE 引起的系統(tǒng)崩潰
這些積極的測(cè)試結(jié)果表明,使用商用現(xiàn)成品(Commercial-Off-The-Shelf, COTS)的 ML 加速器在太空中是可行的,這為項(xiàng)目的經(jīng)濟(jì)性奠定了重要基礎(chǔ)。
挑戰(zhàn)四:太空 AI 的經(jīng)濟(jì)可行性與發(fā)射成本分析
歷史上,高昂的發(fā)射成本是所有大規(guī)模太空項(xiàng)目的最大障礙。Project Suncatcher 的可行性在很大程度上取決于未來發(fā)射成本能否顯著降低。
關(guān)鍵成本目標(biāo):
研究團(tuán)隊(duì)將太空數(shù)據(jù)中心的“發(fā)射功率價(jià)格”,即每發(fā)射一單位功率(kW)到軌道并分?jǐn)偟侥辏?/kW/y)的成本,與地面數(shù)據(jù)中心的年均電力成本進(jìn)行比較
目前美國(guó)地面數(shù)據(jù)中心的年電力成本大約在570 至 3,000 美元/kW/y之間
發(fā)射成本的下降趨勢(shì):
分析 SpaceX 從獵鷹 1 號(hào)到重型獵鷹的歷史發(fā)射價(jià)格和載荷數(shù)據(jù),揭示了一個(gè)大約 20% 的學(xué)習(xí)率,即累計(jì)發(fā)射質(zhì)量每翻一番,每公斤發(fā)射價(jià)格就下降約 20%。
如果這一學(xué)習(xí)率得以維持(這將需要每年約 180 次 Starship 級(jí)別的發(fā)射),那么到2030 年代中期,將有效載荷送入近地軌道的成本有望降至每公斤 200 美元以下
另一種基于 Starship 公開規(guī)格和復(fù)用目標(biāo)的分析甚至更為樂觀,預(yù)測(cè)成本可能低至每公斤 60 美元(10 次復(fù)用)甚至 15 美元(100 次復(fù)用)
成本對(duì)比結(jié)論:
以 Starlink v2 mini 衛(wèi)星為例,如果發(fā)射成本降至 200 美元/公斤,其“發(fā)射功率價(jià)格”將約為 810 美元/kW/y
這個(gè)數(shù)字已經(jīng)進(jìn)入了地面數(shù)據(jù)中心電力成本的范圍,表明從經(jīng)濟(jì)角度看,太空數(shù)據(jù)中心的運(yùn)營(yíng)成本(以發(fā)射成本為主要代表)可以與地面相當(dāng)。即使發(fā)射成本的下降速度不及預(yù)期,例如降至 300 美元/公斤,相應(yīng)的發(fā)射功率價(jià)格約為 1,200 美元/kW/y,仍然在可比范圍內(nèi)
因此,隨著可重復(fù)使用運(yùn)載火箭技術(shù)的成熟和規(guī)?;?,發(fā)射成本將不再是不可逾越的障礙
未來的方向與下一步計(jì)劃
Project Suncatcher 的初步分析結(jié)果還不錯(cuò),證明了太空 AI 計(jì)算的核心概念并未被基礎(chǔ)物理學(xué)或無法克服的經(jīng)濟(jì)障礙所否定。然而,要將這一愿景變?yōu)楝F(xiàn)實(shí),仍有大量的工程挑戰(zhàn)需要解決,例如高效的真空熱管理、高帶寬的星地通信、以及在軌系統(tǒng)的長(zhǎng)期可靠性與維護(hù)等。
為了應(yīng)對(duì)這些挑戰(zhàn),團(tuán)隊(duì)規(guī)劃了清晰的下一步:
學(xué)習(xí)與驗(yàn)證任務(wù):團(tuán)隊(duì)已與Planet公司合作,計(jì)劃在2027 年初發(fā)射兩顆原型衛(wèi)星。這次在軌實(shí)驗(yàn)將是關(guān)鍵的里程碑,旨在:
在真實(shí)的太空環(huán)境中測(cè)試和驗(yàn)證軌道動(dòng)力學(xué)模型。
檢驗(yàn) TPU 硬件在太空中的實(shí)際運(yùn)行表現(xiàn)。
驗(yàn)證使用星間光鏈路執(zhí)行分布式機(jī)器學(xué)習(xí)任務(wù)的可行性
未來的集成化設(shè)計(jì):
未來,當(dāng)星座規(guī)模達(dá)到吉瓦級(jí)別時(shí),可能需要采用更激進(jìn)的衛(wèi)星設(shè)計(jì)理念
團(tuán)隊(duì)借鑒了智能手機(jī)行業(yè)從分立元件走向高度集成的片上系統(tǒng)的發(fā)展路徑,設(shè)想未來的計(jì)算衛(wèi)星也可能采用一種高度一體化的設(shè)計(jì),將太陽能收集、計(jì)算單元和熱管理系統(tǒng)緊密地結(jié)合在一起,從而實(shí)現(xiàn)質(zhì)量和效率的最優(yōu)化

