123,123

寒武纪首颗AI训练芯片亮相：7纳米制程，算力提升四倍，已规模化出货

日期： 2021-01-21

來(lái)源：机器之心

關(guān)鍵詞： 寒武纪 7纳米

　　1 月 21 日，寒武紀(jì)思元 290 智能芯片及加速卡、玄思 1000 智能加速器在官網(wǎng)低調(diào)亮相，寒武紀(jì)表示該系列產(chǎn)品已實(shí)現(xiàn)規(guī)模化出貨。去年，寒武紀(jì)招股書(shū)曾簡(jiǎn)單披露了一款訓(xùn)練芯片的 “彩蛋”，此后，寒武紀(jì)思元 290 芯片就一直被業(yè)界廣泛關(guān)注并引發(fā)行業(yè)諸多猜想。如今，隨著新一代訓(xùn)練產(chǎn)品線集中亮相，寒武紀(jì)略顯“神秘” 的訓(xùn)練芯片及相應(yīng)的業(yè)務(wù)布局逐漸清晰。

　　思元 290 智能芯片是寒武紀(jì)的首顆訓(xùn)練芯片，采用臺(tái)積電 7nm 先進(jìn)制程工藝，集成 460 億個(gè)晶體管，支持 MLUv02 擴(kuò)展架構(gòu)，全面支持 AI 訓(xùn)練、推理或混合型人工智能計(jì)算加速任務(wù)。

　　寒武紀(jì)首顆訓(xùn)練芯片思元 290

　　寒武紀(jì) MLU290-M5 智能加速卡搭載思元 290 智能芯片，采用開(kāi)放加速模塊 OAM 設(shè)計(jì)，具備 64 個(gè) MLU Core，1.23TB/s 內(nèi)存帶寬以及全新 MLU-Link?多芯互聯(lián)技術(shù)，在 350W 的最大散熱功耗下提供 AI 算力高達(dá) 1024 TOPS（INT4）。

　　寒武紀(jì)玄思 1000 智能加速器，在 2U 機(jī)箱內(nèi)集成 4 顆思元 290 智能芯片，高速本地閃存、Mellanox InfiniBand 網(wǎng)絡(luò)，對(duì)外提供高速 MLU-Link?接口，打破智能芯片、服務(wù)器、POD 與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴(kuò)展架構(gòu)，實(shí)現(xiàn) AI 算力在計(jì)算中心級(jí)縱向擴(kuò)展，是 AI 算力的高集成度平臺(tái)。

　　寒武紀(jì)訓(xùn)練產(chǎn)品線采用自適應(yīng)精度訓(xùn)練方案，面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等領(lǐng)域的復(fù)雜 AI 應(yīng)用場(chǎng)景提供充裕算力，推動(dòng)人工智能賦能產(chǎn)業(yè)升級(jí)。

　　思元 290 采用 MLUv02 擴(kuò)展架構(gòu)

　　MLUv02 架構(gòu)為寒武紀(jì) MLU200 全產(chǎn)品線共享，滿足云、邊、端三個(gè)場(chǎng)景的算力需求。云端訓(xùn)練對(duì) AI 算力的要求更為苛刻，因此寒武紀(jì)對(duì)思元 290 的 MLUv02 架構(gòu)進(jìn)行了多項(xiàng)擴(kuò)展，包括業(yè)內(nèi)領(lǐng)先的 MLU-Link?多芯互聯(lián)技術(shù)、高帶寬 HBM2 內(nèi)存、高速片上總線 NOC 以及新一代 PCIe 4.0 接口。相比寒武紀(jì)思元 270 芯片，思元 290 芯片實(shí)現(xiàn)峰值算力提升 4 倍、內(nèi)存帶寬提高 12 倍、芯片間通訊帶寬提高 19 倍。新架構(gòu)結(jié)合 7nm 制程，思元 290 可提供更優(yōu)性能功耗比，以及多 MLU 系統(tǒng)的擴(kuò)展能力。

　　MLU290 的 MLUv02 架構(gòu)進(jìn)行了多項(xiàng)擴(kuò)展。

　　寒武紀(jì) MLU-Link? 多芯互聯(lián)技術(shù)

　　近年來(lái)，AI 算法模型的復(fù)雜程度高速增長(zhǎng)，對(duì)算力和訓(xùn)練速度提出了更高的要求。為了構(gòu)建更強(qiáng)大的計(jì)算平臺(tái)，多芯片間的互聯(lián)技術(shù)已成為市場(chǎng)剛需。

　　寒武紀(jì)推出 MLU-Link?多芯互聯(lián)技術(shù)，并首次搭載于寒武紀(jì)思元 290 芯片，每顆思元 290 的多芯互聯(lián)總帶寬高達(dá) 600GB/s。MLU-Link?具備豐富的互聯(lián)特性，突破 PCIe 帶寬和互聯(lián)的瓶頸，相比思元 270 芯片通過(guò) PCIe 并行的通訊方式，帶寬提高 19 倍。MLU-Link?多芯互聯(lián)技術(shù)支持多顆思元芯片無(wú)縫互聯(lián)，支持跨系統(tǒng)互聯(lián)，將縱向擴(kuò)展能力整合到整個(gè)人工智能計(jì)算中心（AIDC），可以端到端加速大型 AI 模型訓(xùn)練。

　　思元 290 采用 MLU-Link?多芯互聯(lián)技術(shù)進(jìn)行互聯(lián)，帶寬、靈活性全面優(yōu)于 PCIe 3.0。

　　思元 290 相較思元 270 并行通訊總帶寬提升 19 倍。

　　寒武紀(jì) vMLU 解決方案

　　不同場(chǎng)景下的 AI 訓(xùn)練對(duì)計(jì)算和存儲(chǔ)的要求千差萬(wàn)別，如何提供更靈活也更穩(wěn)定的服務(wù)，但同時(shí)讓算力得到充分地利用，是 AIDC 面臨的持續(xù)挑戰(zhàn)。

　　寒武紀(jì)虛擬化技術(shù) vMLU，支持在思元 290 上實(shí)現(xiàn) 4 個(gè)相互隔離的 AI 計(jì)算實(shí)例，每個(gè)實(shí)例獨(dú)占計(jì)算、內(nèi)存和編解碼資源。實(shí)例之間的硬件資源互不干擾，即使在虛擬化環(huán)境下仍可保持 90% 以上的極高效率，幫助客戶充分利用硬件資源。

微信圖片_20210121132644.gif

　　思元 290 上實(shí)現(xiàn) 4 個(gè)相互隔離的 AI 計(jì)算實(shí)例。

　　vMLU 還可以幫助思元 290 芯片提供最佳的靈活性。通過(guò)熱遷移技術(shù)，云管理員可將正在運(yùn)行的 AI 負(fù)載及其應(yīng)用程序移動(dòng)到另外一臺(tái)主機(jī)上，從而平衡整個(gè) AIDC 的負(fù)載，并實(shí)現(xiàn)更好的容災(zāi)功能。

微信圖片_20210121132709.gif

　　vMLU 熱遷移

　　寒武紀(jì)首款訓(xùn)練智能加速卡 MLU290-M5

　　寒武紀(jì) MLU290-M5 智能加速卡搭載了思元 290 智能芯片，采用開(kāi)放加速模塊 OAM 設(shè)計(jì)，具備 64 個(gè) MLU Core，1.23TB/s 內(nèi)存帶寬以及全新 MLU-Link?多芯互聯(lián)技術(shù)，在 350w 的最大散熱功耗下提供 AI 算力高達(dá) 1024 TOPS（INT4）。

　　寒武紀(jì)智能加速卡 MLU290-M5

　　寒武紀(jì)智能加速卡 MLU290-M5 產(chǎn)品規(guī)格

　　寒武紀(jì)首款智能加速器玄思 1000

　　寒武紀(jì)首款智能加速器玄思 1000 包含 4 片思元 290 智能加速卡，最大 AI 算力超過(guò) 4100 萬(wàn)億次每秒（4.1 PetaOPS INT4），一臺(tái)玄思 1000 計(jì)算單元就足以替代一個(gè)小型傳統(tǒng)超級(jí)計(jì)算中心。

　　玄思 1000 內(nèi)置高帶寬低延時(shí)的 MLU-Link?多芯互聯(lián)技術(shù)，實(shí)現(xiàn)內(nèi)部 4 顆思元 290 進(jìn)行高速互聯(lián)，同時(shí)打破服務(wù)器、緊耦合微集群（POD）與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴(kuò)展架構(gòu)，將 AIDC 構(gòu)建為節(jié)點(diǎn)、POD 乃至超大規(guī)?；旌蠑U(kuò)展架構(gòu)（Hybrid Scale-out），實(shí)現(xiàn) AI 算力計(jì)算中心級(jí)縱向擴(kuò)展，滿足高性能、高擴(kuò)展性、靈活性、高魯棒性的要求。

　　玄思 1000 是 AI 算力的高集成度平臺(tái)，支持計(jì)算中心級(jí)縱向擴(kuò)展。

　　重塑 AIDC 基礎(chǔ)架構(gòu)

　　算力、算法、數(shù)據(jù)是人工智能發(fā)展的三大要素，隨著這幾年 AI 的逐步發(fā)展，算力的核心地位更為凸顯。人工智能技術(shù)落地于實(shí)際應(yīng)用中需要芯片和硬件層面強(qiáng)大的算力支撐。算力已成為驅(qū)動(dòng) AI 產(chǎn)業(yè)化和產(chǎn)業(yè) AI 化發(fā)展的關(guān)鍵要素。

　　下一代 AIDC 要求更多智能芯片無(wú)縫協(xié)同、并行運(yùn)行的同時(shí)，還能保持高計(jì)算效率，從而提供超級(jí)巨大的算力，以應(yīng)對(duì)超大規(guī)模訓(xùn)練的需要。寒武紀(jì)玄思 1000 智能加速器重新思考了未來(lái) AIDC 的基礎(chǔ)架構(gòu)，在內(nèi)部和外部采用統(tǒng)一的 MLU-Link?多芯互聯(lián)技術(shù)進(jìn)行通訊，使得思元 290 智能芯片的互聯(lián)范圍可以從單機(jī)擴(kuò)展到 POD 乃至整個(gè)計(jì)算中心，重塑了基礎(chǔ)架構(gòu)。

　　玄思 1000 支持 8 個(gè) 400G MLU-Link?和 2 個(gè) 200G 網(wǎng)絡(luò)接口，總帶寬高達(dá) 3600Gbps，是傳統(tǒng)異構(gòu)服務(wù)器的 2 倍。

　　玄思 1000 配置 8 個(gè)對(duì)外互聯(lián)的 MLU-Link?接口，支持跨系統(tǒng)互聯(lián)構(gòu)建 MLU POD。標(biāo)準(zhǔn)配置支持 MLU POD 16、24、32。在 POD 內(nèi)部，所有 290 芯片均可通過(guò) MLU-Link?多芯互聯(lián)技術(shù)進(jìn)行通訊，在帶寬和延時(shí)方面實(shí)現(xiàn)了突破；POD 外部通過(guò)玄思 1000 內(nèi)置的網(wǎng)卡與其他系統(tǒng)進(jìn)行通訊，實(shí)現(xiàn)了 AI 訓(xùn)練集群性能、擴(kuò)展性和魯棒性的協(xié)同提升。

　　POD 內(nèi)所有思元芯片通過(guò) MLU-Link?全互聯(lián)。

　　除了標(biāo)準(zhǔn)配置的 POD 之外，在計(jì)算中心條件允許的前提下，通過(guò) MLU-Link?多芯互聯(lián)技術(shù)，可實(shí)現(xiàn) 1024 顆或更多思元 290 互聯(lián)，不需要額外的網(wǎng)卡即可實(shí)現(xiàn)無(wú)縫加速。

　　寒武紀(jì) Neuware?訓(xùn)練軟件棧

　　寒武紀(jì) Neuware?軟件棧為思元 290 芯片提供完善的軟件及應(yīng)用生態(tài)，支持業(yè)界主流的 TensorFlow 和 PyTorch 等深度學(xué)習(xí)框架，用戶不需要改變使用習(xí)慣，即可在思元 290 芯片上實(shí)現(xiàn)圖形圖像、語(yǔ)音、NLP、搜索推薦等多種應(yīng)用的訓(xùn)練和推理。其中，基于 Horovod 分布式訓(xùn)練框架與 MLU-Link?多芯互聯(lián)技術(shù)相互配合，讓思元 290 在單機(jī)多卡、多機(jī)多卡的場(chǎng)景下達(dá)到業(yè)界領(lǐng)先的訓(xùn)練加速比。寒武紀(jì) Neuware?提供完善的開(kāi)發(fā)工具包和社區(qū)支持，幫助用戶在思元 290 芯片進(jìn)行方便、靈活的定制開(kāi)發(fā)及部署工作。配合強(qiáng)大的 BANG 智能編程語(yǔ)言及配套調(diào)試工具，用戶可以為自定義的算法提供最佳性能調(diào)優(yōu)。

　　寒武紀(jì) Neuware?軟件棧為思元 290 芯片提供完善的軟件及應(yīng)用生態(tài)。

　　2021 年 1 月，IDC 發(fā)布了《2020-2021 中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》，該報(bào)告預(yù)計(jì)，中國(guó)人工智能市場(chǎng)規(guī)模在 2020 年達(dá)到 62.7 億美元，2019-2024 年的復(fù)合增長(zhǎng)率為 30.4%。IDC 的調(diào)研還發(fā)現(xiàn)，超過(guò)九成的企業(yè)正在使用或者計(jì)劃在三年內(nèi)使用人工智能，其中 74.5% 的企業(yè)期望在未來(lái)可以采取具備公用設(shè)施意義的人工智能基礎(chǔ)設(shè)施。

　　隨著 AI 算法突飛猛進(jìn)的發(fā)展，越來(lái)越多的模型訓(xùn)練需要巨量的算力支撐才能快速有效地實(shí)施，算力是未來(lái)人工智能應(yīng)用取得突破的決定性因素。

　　值得強(qiáng)調(diào)的是，在巨量的人工智能市場(chǎng)中，云服務(wù)市場(chǎng)表現(xiàn)更為突出。早前，2020 年 7 月，IDC 發(fā)布的另一份報(bào)告顯示，2018 至 2024 年，中國(guó) AI 云服務(wù)市場(chǎng)年復(fù)合增長(zhǎng)率將達(dá)到 93.6%。而目前人工智能芯片仍處于成長(zhǎng)期，未來(lái)三年，人工智能芯片市場(chǎng)將呈現(xiàn)多元化發(fā)展趨勢(shì)。

　　寒武紀(jì) 290 產(chǎn)品線，有望在持續(xù)高速增長(zhǎng)的人工智能市場(chǎng)尤其是云服務(wù)市場(chǎng)，搶占更多的市場(chǎng)份額，推動(dòng)自身和 AI 行業(yè)的發(fā)展。據(jù)悉，寒武紀(jì)思元 290 芯片及加速卡已與部分硬件合作伙伴完成適配，并已實(shí)現(xiàn)規(guī)?；鲐?。

　　寒武紀(jì)最初布局終端 IP 場(chǎng)景，連續(xù)迭代推出讓其聲名鵲起的寒武紀(jì) 1A、寒武紀(jì) 1H、寒武紀(jì) 1M 系列處理器，而后迅速布局云端智能芯片及加速卡系列產(chǎn)品思元 100 和思元 270，又于 2019 年推出基于思元 220 芯片的邊緣智能加速卡。由此建立起覆蓋云邊端、訓(xùn)練、推理的完整產(chǎn)品矩陣，同時(shí)利用平臺(tái)級(jí)基礎(chǔ)系統(tǒng)軟件 Cambricon Neuware，連接全線產(chǎn)品，由點(diǎn)及面，實(shí)現(xiàn)了“訓(xùn)推一體、端云融合”。寒武紀(jì)也成為目前國(guó)際上少數(shù)幾家全面系統(tǒng)掌握了通用型智能芯片及其基礎(chǔ)系統(tǒng)軟件研發(fā)和產(chǎn)品化核心技術(shù)的企業(yè)之一。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

寒武纪首颗AI训练芯片亮相：7纳米制程，算力提升四倍，已规模化出货

日期： 2021-01-21

來(lái)源：机器之心

相關(guān)內(nèi)容