《電子技術應用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動態(tài) > “逃離”英偉達

“逃離”英偉達

2020-12-10
來源:半導體行業(yè)觀察

  繼11月亞馬遜將 Alexa 語音助手的部分計算任務轉移到自主設計的定制設計芯片Inferentia 后,近日,其再次宣布推出了全新的AI訓練芯片AWS Trainium,據(jù)消息稱,這是該公司用于訓練機器學習模型的下一代定制芯片。

  這意味著亞馬遜將減少對英偉達芯片的依賴。

  稱霸AI芯片領域

  近年來,AI熱度不斷攀升,AI相關應用也在急劇增長,這引發(fā)了市場對超大型數(shù)據(jù)中心的強勁需求。另一方面,AI處理任務的持續(xù)增長,又會倒逼服務器的配置要得到持續(xù)的升級。為了滿足深度學習訓練任務,硬件的復雜程度不斷提升,處理器性能也被提出了更高的要求。

  目前在AI領域主要有GPU、FPGA 和ASIC三種技術路線。其中GPU在AI訓練方面已經發(fā)展到較為成熟的階段。而在GPU芯片領域,英偉達是龍頭老大。如今,全球估計有3000家AI創(chuàng)業(yè)公司,其中一半以上都是在英偉達的平臺上構建的。

  回看英偉達的發(fā)展史,其成立于1993年,這一年,全球有超過二十家的圖形芯片公司,到1997年,這個數(shù)字猛增至70家。

  1999年,英偉達發(fā)明了GPU,為了讓GPU從軟硬件都走向通用,其又在2006年推出了Tesla架構,一改之前使用矢量計算單元做渲染的做法,而是把一個矢量計算單元拆成了多個標量計算渲染單元。這就使得基于這個架構的GPU除了渲染能力強以外,還適合做通用計算。

  也就是在這一年,英偉達推出了CUDA。按照他們的說法,這是一種用于通用GPU計算的革命性架構。CUDA將使科學家和研究人員能夠利用GPU的并行處理能力來應對其最復雜的計算挑戰(zhàn)。

  正是得益于這兩個方向的布局,英偉達在AI時代如魚得水。自2016年起,英偉達數(shù)據(jù)中心業(yè)務開始爆發(fā)式增長。同比增長率連續(xù)七個季度(2QFY17-4QFY18)超100%。

微信圖片_20201210110756.png

  英偉達數(shù)據(jù)中心業(yè)務單季收入及同比增長率 資料來源:英偉達公司官網

  與此同時,英偉達GPU在全球主要云廠商中也獲得了極大的認可。根據(jù)Liftr調查顯示,在阿里云、AWS、微軟Azure以及Google Clound中,Tesla系列GPU的市場占有率比AMD、賽靈思以及以英特爾大幅領先。充分說明英偉達Tesla系列GPU在通用計算市場的強大競爭力。

  逃離英偉達

  當然,英偉達的AI芯片王座也不是那么好坐的。

  誠如前文所言,一些廠商已經開始自研芯片,除了亞馬遜之外,谷歌早在幾年前就推出了自稱性能可達同等級GPU產品15~30倍的AI專有芯片TPU;華為在去年8月推出“算力最強”的AI(人工智能)處理器Ascend 910(昇騰910)等。

  不過他們自研的大多是推理芯片,意圖在專用性能上打敗英偉達GPU,以擺脫英偉達在訓練芯片的壟斷。

  資料顯示,由于神經網絡模型在訓練階段需要處理大量數(shù)據(jù),同時也要完成不同的學習任務,因此目前通用屬性的GPU具備的大量平行運算單元,能夠充分滿足“訓練”對運算的效率與通用性要求。但進入執(zhí)行階段,也就是“推理階段”,一個算法模型可以根據(jù)一堆量級不大的新數(shù)據(jù)得出結論。

  這時候采用GPU就顯得有些“大材小用”。這就是這些廠商為何研發(fā)定制推理芯片重要原因之一,對于大量推理工作,通用性或許不足,但專用肯定綽綽有余。

  不僅如此,這些廠商的自研芯片在它所擅長的任務上,可能具備在效能與算力上大幅領先 GPU 的能力。對比發(fā)現(xiàn),谷歌TPU和特斯拉FSD都能輕易做到相較GPU,性能和效率都高出一截的表現(xiàn),即便這是以犧牲可編程性為代價。

  當然,也有一些業(yè)界人士對這些自研芯片存有疑慮。因為他們認為,無論是自己做,還是部署其他公司的商用芯片,難度其實不相上下。

  但不管怎么說,這些自研芯片的廠商確實對英偉達造成了一定的威脅,并且聲勢愈發(fā)浩大。

  挑戰(zhàn)英偉達

  與此同時,國外還存在Graphcore、Intel和AMD這些廠商,他們則希望從通用角度去挑戰(zhàn)英偉達。

  首先是Graphcore,其創(chuàng)始人兼CEO Nigel Toon曾在一次訪談中指出:“如果只是要做基本的前饋卷積神經網路(feed-forward convolutional neural networks),GPU是很不錯的解決方案,但隨著網路變得越來越復雜,人們需要全新的解決方案──這也是為何他們要用ASIC和FPGA。我們接觸過的所有創(chuàng)新者都說,GPU正在阻礙他們創(chuàng)新。如果仔細看他們正在研究的模型類型,你會發(fā)現(xiàn)主要是卷積神經網絡(CNN),而遞歸神經網絡(RNN)和其他類型結構,比如強化學習,并不能很好地映射到GPU。他們需要足夠好的硬件平臺,這是我們將IPU推向市場的原因。”

  按照Graphcore給出的解釋,其IPU芯片可以進行推論或訓練,從架構的角度來看,這非常重要,因為隨著機器學習演進,系統(tǒng)將能夠從經驗中學習。推論性能表現(xiàn)的關鍵包括低延遲、能使用小模型、小批次(small batches),以及可能會嘗試導入稀疏性(sparsity)的訓練模型;IPU可以有效地完成所有這些事情。

  與市面上領先的GPU方案相比,如果是執(zhí)行用以分類靜態(tài)影像的前饋卷積神經網路,GPU的表現(xiàn)已經相當好,但IPU可以提供兩到三倍的性能優(yōu)勢、有時甚至是五倍。對于更復雜的模型,例如有資料來回傳遞以嘗試理解情境(例如對話)的模型;由于資料被傳遞多次,需要非常快。對于這樣的應用,因為所有的模型都保存在處理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。

  所以在Graphcore眼中,IPU是自CPU、GPU之后的第三大類主流處理器。“通用”在這個路徑中是個必選項,而毫無猶豫的必要。

  同時,英偉達還面臨著老對手--AMD以及英特爾的挑釁。

  早在英偉達進軍GPGPU的前后,AMD也有與之對應的計劃,AMD選擇推行“OpenCL”,這導致即使他們在2017年發(fā)布了ROCm平臺來提供深度學習支持,但也改變不了他們GPU在AI時代幾無所獲的結局。

  于是,今年三月份,AMD又推出了新的CDNA架構?;谶@個架構,AMD在本月中發(fā)布了新一代的Instinct MI100計算卡。數(shù)據(jù)顯示,新的架構可提供高達11.5 TFLOPS的FP64峰值吞吐量,這使其成為第一個在FP64中突破10 TFLOPS的GPU。與上一代MI50相比,新加速卡的性能提高了3倍。它還在FP32工作負載中擁有23.1 TFLOPS的峰值吞吐量。數(shù)據(jù)顯示,AMD的新加速卡在這兩個類別中都擊敗了Nvidia的A100 GPU。

  為了更好地與英偉達競爭,AMD還表示,其開源ROCm 4.0開發(fā)人員軟件現(xiàn)在具有開源編譯器,并統(tǒng)一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。

  AMD在GPU領域花的心思并不少,今年10月份,AMD還宣布將以350億美元價位收購賽靈思,合并后的公司將擁有AMD CPU + AMD GPU + Xilinx FPGA + Xilinx SmartNIC。當然除了硬件外,AMD的Radeon Open Compute (ROCm)混合CPU-GPU開發(fā)環(huán)境,再加上賽靈思Vitis,足以對抗英偉達頗受歡迎的CUDA開發(fā)平臺,以及英特爾力推的oneAPI。

  英特爾同樣是AI芯片領域的活躍者,據(jù)介紹,英特爾的Xe架構GPU將覆蓋從集成顯卡到高性能計算的所有范圍。其中代號為Ponte Vecchio的獨立GPU則是公司面對HPC建模和仿真以及AI訓練而推出的設計。Ponte Vecchio將采用英特爾的7納米技術制造,并將成為英特爾首款針對HPC和AI工作負載進行了優(yōu)化的基于Xe的GPU。但直到目前為止,尚未看到Intel的這款新品。

  近日,IFTD2020上,Intel還發(fā)布了首款用于5G、人工智能、云端與邊緣的eASIC N5X(結構化ASIC),同時發(fā)布了最新的Intel開放式FPGA堆棧(Intel OFS),這款產品繼承了Agilex FPGA的硬核處理器系統(tǒng)、安全特性,支持Agilex FPGA用于管理啟動、身份驗證和防篡改特性的安全設備管理器,采用了Diamond Mesa SoC技術。

  此外,為了更好地在包括AI在內的應用市場中發(fā)揮其包括CPU、GPU、FPGA和AISC在內的芯片的為例,方便開發(fā)者編程,Intel還推出了擁有遠達理想的OneAPI。整個行業(yè)內,英特爾是目前在異構計算上擁有最全產品線的, 在硬件上擁有CPU、獨立GPU、FPGA、eASIC、ASIC、VPU、內存和存儲等,在軟件上擁有統(tǒng)一開發(fā)平臺oneAPI。

  因此,在未來的AI芯片市場上,我們很難去辨別到底誰會笑到最后,但很明顯的是,這些廠商將在各自的領域發(fā)力,逼迫英偉達吐出吞下的巨大市場。

  總結

  總的來說,無論是專用還是通用方面,英偉達都面臨著來自各個廠商的壓力。尤其是對于云廠商而言,在巨大利潤漩渦下,誰也不能逃脫,自研芯片成為了必然選擇。

  當然,就目前的AI芯片市場而言,英偉達仍然可以在一段時間內把控大部分份額,畢竟包括英特爾在內,大多數(shù)聲勢響亮的AI芯片公司才剛剛出貨,或正在努力出貨的路上(有些還沒等到出貨就夭折了),這給了英偉達升級產品充裕的時間。

  更重要的是,對于GPU而言,軟件和開發(fā)者生態(tài)才是硬道理。只有做好了這個,才是GPU能夠商用的前提。

  逃離英偉達成為常態(tài),超越英偉達卻并不容易。


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。