1月14日消息,今日,華為、智譜宣布,雙方聯(lián)合開源新一代圖像生成模型GLM-Image,模型基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成從數(shù)據(jù)到訓(xùn)練的全流程,是首個(gè)在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型。
SOTA是英文“State-of-the-Art”的縮寫,直譯是“藝術(shù)的巔峰”,中文意思是“最先進(jìn)的、目前最高水平的”模型,是科技、工程、學(xué)術(shù)研究等領(lǐng)域廣泛使用的術(shù)語,核心指在特定任務(wù)、場景或評(píng)價(jià)標(biāo)準(zhǔn)下,當(dāng)前公開可驗(yàn)證的最優(yōu)技術(shù)、方法、模型或產(chǎn)品。
據(jù)介紹,GLM-Image采用自主創(chuàng)新的“自回歸+擴(kuò)散解碼器”混合架構(gòu),實(shí)現(xiàn)了圖像生成與語言模型的聯(lián)合,是面向以Nano Banana Pro為代表的新一代“認(rèn)知型生成”技術(shù)范式的一次重要探索。


核心亮點(diǎn)如下:
架構(gòu)革新,面向“認(rèn)知型生成”的技術(shù)探索:采用創(chuàng)新的“自回歸 + 擴(kuò)散編碼器”混合架構(gòu),兼顧全局指令理解與局部細(xì)節(jié)刻畫,克服了海報(bào)、PPT、科普圖等知識(shí)密集型場景生成難題,向探索以Nano Banana Pro為代表的新一代“知識(shí)+推理”的認(rèn)知型生成模型邁出了重要一步。
首個(gè)在國產(chǎn)芯片完成全程訓(xùn)練的SOTA模型:模型自回歸結(jié)構(gòu)基座基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架,完成了從數(shù)據(jù)預(yù)處理到大規(guī)模訓(xùn)練的全流程構(gòu)建,驗(yàn)證了在國產(chǎn)全棧算力底座上訓(xùn)練前沿模型的可行性。
文字渲染開源SOTA:在CVTG-2K(復(fù)雜視覺文本生成)和LongText-Bench(長文本渲染)榜單獲得開源第一,尤其擅長漢字生成任務(wù)。
高性價(jià)比與速度優(yōu)化:API調(diào)用模式下,生成一張圖片僅需0.1元,速度優(yōu)化版本即將更新。
那這件事到底有何意義呢?簡單說,這是中國AI領(lǐng)域的一次全棧自主可控里程碑,智譜聯(lián)合華為,基于昇騰 Atlas 800T A2芯片+昇思 MindSpore 框架,訓(xùn)練出首個(gè)國產(chǎn)全棧算力底座支撐的多模態(tài)開源SOTA模型GLM-Image。
它不僅打破了高端AI訓(xùn)練對國外芯片的依賴,還把這項(xiàng)國際頂尖水平的技術(shù)免費(fèi)開放給所有人,讓國產(chǎn)AI生態(tài)邁出了關(guān)鍵一步。
此前訓(xùn)練頂尖多模態(tài)模型,大多依賴國外高端芯片。現(xiàn)在智譜和華為用實(shí)打?qū)嵉某晒C明,國產(chǎn)算力底座完全能扛住幾十億參數(shù)大模型的訓(xùn)練任務(wù),而且性能達(dá)到國際開源模型的頂尖水平。這意味著中國 AI 產(chǎn)業(yè)的核心環(huán)節(jié)不再受制于人,產(chǎn)業(yè)安全有了更堅(jiān)實(shí)的保障。
過去,訓(xùn)練一個(gè)頂尖多模態(tài)模型需要上億的算力投入,只有谷歌、微軟等科技巨頭玩得起?,F(xiàn)在GLM-Image開源后,創(chuàng)業(yè)者、中小企業(yè)甚至個(gè)人開發(fā)者都能零成本用上,可以直接用來做電商海報(bào)設(shè)計(jì)、科普插畫生成、教育課件制作等,大大降低了 AI 創(chuàng)新的門檻。
基于國產(chǎn)算力訓(xùn)練和部署的 GLM-Image,生成一張高清圖片的成本低至 0.1 元,遠(yuǎn)低于不少商業(yè)AI服務(wù);同時(shí)支持從手機(jī)小圖到海報(bào)大圖的多種分辨率,能直接適配各類商業(yè)和民生場景,真正做到拿來就能用。
這件事的核心價(jià)值,不只是練出了一個(gè)頂尖的多模態(tài)模型,更在于證明了中國AI能實(shí)現(xiàn)芯片 - 框架 - 算法的全棧自主可控。
它既打破了國外技術(shù)的壟斷,又通過開源讓技術(shù)惠及更多人,標(biāo)志著中國AI從跟跑向并跑甚至部分領(lǐng)跑的轉(zhuǎn)變。

