微軟已花費(fèi)多年時(shí)間設(shè)計(jì)自家的人工智能芯片,部分原因是希望減少對(duì)英偉達(dá)的依賴(lài)。然而,這一計(jì)劃的進(jìn)展并不順利。
微軟AI芯片延期,存在三大致命硬傷
按照年收入計(jì)算,微軟是英偉達(dá)最大的客戶(hù)之一,但其最新一代AI芯片的設(shè)計(jì)進(jìn)展遠(yuǎn)遠(yuǎn)落后于預(yù)期。這意味著,當(dāng)這些芯片投入量產(chǎn)時(shí),可能會(huì)遠(yuǎn)遠(yuǎn)落后于英偉達(dá)的同類(lèi)產(chǎn)品,缺乏足夠的競(jìng)爭(zhēng)力。
微軟面臨的困境凸顯了一個(gè)問(wèn)題:隨著AI技術(shù)的飛速發(fā)展,企業(yè)在開(kāi)發(fā)專(zhuān)用AI芯片時(shí),面臨的挑戰(zhàn)愈發(fā)嚴(yán)峻。而英偉達(dá)的通用處理器以其卓越的性能主導(dǎo)著整個(gè)行業(yè)。
芯片開(kāi)發(fā)通常需要至少兩年的時(shí)間,但隨著AI領(lǐng)域的快速突破,專(zhuān)用AI芯片需要應(yīng)對(duì)不斷變化的技術(shù)需求,面臨著隨時(shí)過(guò)時(shí)的風(fēng)險(xiǎn),特別是在AI模型的構(gòu)建和運(yùn)行方式發(fā)生重大變化時(shí)。
據(jù)知情人士透露,微軟的下一代AI芯片代號(hào)為Braga,計(jì)劃推遲至少六個(gè)月才能進(jìn)入量產(chǎn)。這意味著,量產(chǎn)時(shí)間將從2025年推遲至2026年。即使Braga芯片投產(chǎn),預(yù)計(jì)其性能也將遠(yuǎn)遜于英偉達(dá)的旗艦芯片Blackwell,后者在2024年底發(fā)布。
微軟原計(jì)劃今年將Braga芯片部署到其數(shù)據(jù)中心。但項(xiàng)目負(fù)責(zé)人表示,Braga芯片的推遲主要由于設(shè)計(jì)發(fā)生預(yù)料之外的變化、研發(fā)團(tuán)隊(duì)人員不足以及員工流動(dòng)性過(guò)高等因素。微軟發(fā)言人拒絕對(duì)此發(fā)表評(píng)論。
微軟AI路線(xiàn)圖:三年發(fā)三款推理芯片
微軟從2019年開(kāi)始開(kāi)發(fā)其首款A(yù)I芯片,并于2023年發(fā)布了Maia 100芯片。當(dāng)時(shí),微軟將Maia 100宣傳為“顛覆性”產(chǎn)品,稱(chēng)其能夠支持Copilot等AI助手和ChatGPT等AI服務(wù)。OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)也高度評(píng)價(jià)了這款芯片,表示它為訓(xùn)練更多模型、降低運(yùn)行成本打開(kāi)了大門(mén)。
然而,實(shí)際情況卻并非如此。微軟主要將Maia 100用于內(nèi)部測(cè)試,而非實(shí)際生產(chǎn)環(huán)境。根據(jù)多位在職及離職的微軟員工透露,Maia 100并未為微軟的任何AI服務(wù)提供支持,主要原因是該芯片最初于2019年設(shè)計(jì),正好發(fā)生在OpenAI發(fā)布ChatGPT之前,其設(shè)計(jì)重點(diǎn)是圖像處理,而非生成式AI。
在2024年Maia 100發(fā)布后,微軟啟動(dòng)了一個(gè)雄心勃勃的計(jì)劃,計(jì)劃在2025年、2026年和2027年分別發(fā)布三款后續(xù)芯片,代號(hào)分別為Braga、Braga-R和Clea,并將它們部署到數(shù)據(jù)中心。然而,Braga芯片推遲至2026年,這引發(fā)了人們對(duì)微軟是否能夠按時(shí)推出剩余兩款芯片的擔(dān)憂(yōu)。
據(jù)三位微軟芯片團(tuán)隊(duì)成員透露,這三款芯片均為推理芯片,主要用于將訓(xùn)練好的模型應(yīng)用到新數(shù)據(jù)上,以生成回應(yīng)或做出決策。微軟原計(jì)劃設(shè)計(jì)一款用于訓(xùn)練AI模型的芯片,但在2024年初取消了這一計(jì)劃。
在Braga芯片開(kāi)發(fā)的過(guò)程中,微軟要求對(duì)其設(shè)計(jì)進(jìn)行更改,以滿(mǎn)足OpenAI提出的新功能需求。這使得芯片在模擬測(cè)試中變得不穩(wěn)定,工程師不得不花費(fèi)幾個(gè)月時(shí)間來(lái)解決問(wèn)題。
盡管Braga芯片的設(shè)計(jì)經(jīng)歷了重大變化,但微軟高層依然堅(jiān)持要求在年底前完成設(shè)計(jì)。這一最后期限給芯片團(tuán)隊(duì)帶來(lái)了極大的壓力,導(dǎo)致有五分之一的團(tuán)隊(duì)成員離開(kāi)了項(xiàng)目。多位參與者表示,微軟的芯片團(tuán)隊(duì)人員流動(dòng)性較高。
據(jù)知情人士透露,微軟的AI芯片在至少M(fèi)aia 300(代號(hào)Clea)問(wèn)世之前,將難以與英偉達(dá)的產(chǎn)品競(jìng)爭(zhēng)。Clea將采用全新設(shè)計(jì),與Braga相比,其性能將大幅提升。但在此之前,Maia系列芯片的電力消耗較高,性能也大幅落后于英偉達(dá)的同類(lèi)產(chǎn)品。
針對(duì)日益增多的競(jìng)爭(zhēng)性自主芯片項(xiàng)目,英偉達(dá)也做出了回應(yīng)。據(jù)參與該項(xiàng)目的人員透露,英偉達(dá)為了使客戶(hù)難以用其它芯片替代其產(chǎn)品,已為其旗艦AI硬件系統(tǒng)GB200設(shè)定了極為激進(jìn)的性能目標(biāo)。
微軟/谷歌/亞馬遜集體造芯,卻還是干不過(guò)英偉達(dá)!
微軟并不是唯一一家計(jì)劃開(kāi)發(fā)自家AI芯片的大型科技公司。亞馬遜也在研發(fā)其第三代AI芯片——Trainium 3,預(yù)計(jì)將在今年年底前交付客戶(hù)。亞馬遜發(fā)言人表示,項(xiàng)目進(jìn)展順利,Trainium 3將提供比前一代Trainium 2高出兩倍的計(jì)算能力。
與此同時(shí),谷歌已經(jīng)花費(fèi)約十年時(shí)間自研AI芯片,稱(chēng)為T(mén)PU(張量處理單元)。因此,谷歌無(wú)需依賴(lài)英偉達(dá)的芯片來(lái)訓(xùn)練或運(yùn)行大多數(shù)AI模型。據(jù)知情人士透露,谷歌的下一代TPU芯片代號(hào)為Ironwood,預(yù)計(jì)將在今年底開(kāi)始小規(guī)模生產(chǎn),并于明年大規(guī)模量產(chǎn)。
不過(guò),谷歌依然是英偉達(dá)的重要客戶(hù),因?yàn)樗赓U搭載英偉達(dá)芯片的服務(wù)器供云計(jì)算客戶(hù)使用,同時(shí)也使用英偉達(dá)芯片來(lái)支持一些不適合由谷歌TPU處理的AI服務(wù)。
谷歌也面臨著其他問(wèn)題。去年,谷歌與聯(lián)發(fā)科合作設(shè)計(jì)下一代TPU芯片,但該合作遭遇了挫折。負(fù)責(zé)TPU網(wǎng)絡(luò)技術(shù)的聯(lián)發(fā)科核心團(tuán)隊(duì)多位成員離職,轉(zhuǎn)而加入英偉達(dá)。這項(xiàng)技術(shù)對(duì)于AI至關(guān)重要,因?yàn)樗茏尪鄠€(gè)芯片協(xié)同工作。
英偉達(dá)CEO黃仁勛6月初在開(kāi)發(fā)者大會(huì)上表示,大多數(shù)大型科技公司正在推進(jìn)的競(jìng)爭(zhēng)性芯片項(xiàng)目最終會(huì)被放棄。他還質(zhì)問(wèn)道:“如果你做的ASIC(特定應(yīng)用集成電路)不比現(xiàn)有的更好,那還有什么意義?”