《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > AET原创 > “周易”X3 NPU精准解决端侧AI大模型运行难题

“周易”X3 NPU精准解决端侧AI大模型运行难题

2025-11-20
來源:安谋科技
關(guān)鍵詞: 安谋科技 NPU ARM 周易 AI大模型

編者按:2025 年 11 月 13 日,安謀科技Arm China)“周易”X3 NPU IP新品。作為“All in AI”產(chǎn)品戰(zhàn)略下誕生的首款重磅產(chǎn)品,其性能指標(biāo)表現(xiàn)突出:8-80 FP8 TFLOPS、單Core帶寬256GB/s、Prefill算力利用率達(dá)72%和Decode有效帶寬利用率超100%,可使AIGC大模型能力提升10倍。


隨著AI大模型技術(shù)的飛速發(fā)展,智能手機(jī)、AI PC和智能汽車等端側(cè)設(shè)備正迎來AI能力的爆發(fā)性需求。從多模態(tài)語音助手到實(shí)時(shí)圖像生成,從智能座艙交互到輔助駕駛決策,端側(cè)設(shè)備需要承載越來越復(fù)雜的AI計(jì)算任務(wù)。

然而,端側(cè)AI部署面臨算力受限、能效要求高、帶寬瓶頸、開發(fā)門檻高等多重挑戰(zhàn),如何在有限的功耗和算力資源下實(shí)現(xiàn)大模型的高效運(yùn)行,成為行業(yè)亟需突破的關(guān)鍵難題。

圖片1.png

眾所周知,在半導(dǎo)體領(lǐng)域,“面向未來5年的產(chǎn)品方向進(jìn)行前瞻布局”已成為行業(yè)共識(shí),涵蓋IP研發(fā)、芯片及終端產(chǎn)品研發(fā)量產(chǎn)。

因需而動(dòng),安謀科技的“周易”X3采用兼顧C(jī)NN與Transformer的通用架構(gòu)設(shè)計(jì),支持全算力類型并增強(qiáng)浮點(diǎn)運(yùn)算FLOPS,助力實(shí)現(xiàn)從定點(diǎn)到浮點(diǎn)計(jì)算的關(guān)鍵轉(zhuǎn)變,并滿足大模型計(jì)算需求,為未來5年Gen AI、Agentic AI與Physical AI的端側(cè)落地奠定技術(shù)基石。

圖片2.png


硬件架構(gòu):專為大模型設(shè)計(jì)最新DSP+DSA架構(gòu)

“周易”X3基于專為大模型設(shè)計(jì)的最新DSP+DSA架構(gòu),從計(jì)算效率、帶寬、精度適配、任務(wù)處理四大維度實(shí)現(xiàn)升級(jí),精準(zhǔn)解決端側(cè)AI大模型運(yùn)行難題,打造端側(cè)AI計(jì)算效率的新標(biāo)桿。

從定點(diǎn)轉(zhuǎn)向浮點(diǎn)計(jì)算,單Cluster擁有8-80 FP8 TFLOPS算力且可靈活配置,單Core帶寬高達(dá)256GB/s,支持端側(cè)大模型運(yùn)行必備的W4A8/W4A16計(jì)算加速模式,集成安謀科技自研的解壓硬件WDC,使大模型Weight軟件無損壓縮后通過硬件解壓獲得額外約15%的等效帶寬,計(jì)算效率和計(jì)算密度大幅提升。

圖片3.png

同時(shí),“周易”X3集成AI專屬硬件引擎AIFF,配合專用硬化調(diào)度器,實(shí)現(xiàn)超低至0.5%的CPU負(fù)載與低調(diào)度延遲,使NPU在并行處理多項(xiàng)AI任務(wù)時(shí),擁有高效流暢的體驗(yàn)。


軟件生態(tài):優(yōu)化大模型端到端性能,支持客戶自定義AI開發(fā)

“周易”X3 搭載完善易用的Compass AI軟件平臺(tái),全面優(yōu)化大模型端到端性能。平臺(tái)廣泛兼容TensorFlow、ONNX、PyTorch等主流AI框架,具備業(yè)界領(lǐng)先的大模型動(dòng)態(tài)Shape支持能力,并支持GPTQ等大模型主流量化方案、 Hugging Face模型庫,與LLM、VLM、VLA及MoE等模型。

圖片4.png

同時(shí),安謀科技積極構(gòu)建開放生態(tài),Compass AI軟件平臺(tái)已將 Parser、Optimizer、Linux Driver、TVM 及內(nèi)部 IR 格式等核心組件相繼開源,并擁有豐富的調(diào)試工具,可滿足開發(fā)者白盒部署需求,且支持更易用的 DSL 算子編程語言,在深度開發(fā)模式下,客戶可以使用平臺(tái)中的Compiler、Debugger和DSL語言開發(fā)出自己的自定義算子,也可通過Parser、Optimizer等工具打造出屬于自己的模型編譯器,極大提升開發(fā)效率。

圖片5.png

“周易”Compass AI軟件平臺(tái)已支持超 160 種算子與 270 多種模型,顯著提升開發(fā)部署效率,助力客戶快速實(shí)現(xiàn) AI 應(yīng)用創(chuàng)新與落地。


性能提升:讓端側(cè)大模型“跑得穩(wěn)、答得順”

“周易”X3遵循“軟硬協(xié)同、全周期服務(wù)與成就客戶”的產(chǎn)品準(zhǔn)則,提供從硬件、軟件到售后服務(wù)的全鏈路支持,以前瞻性設(shè)計(jì)、專業(yè)團(tuán)隊(duì)交付與深度服務(wù)投入,全面助力客戶大模型產(chǎn)品成功與商業(yè)化落地。

“周易”X3在架構(gòu)層面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新,集成了業(yè)界矚目的關(guān)鍵特性。

1.集成自研解壓硬件WDC:使大模型Weight軟件無損壓縮后通過硬件解壓能獲得額外15%~20%等效帶寬提升。

2.新增端側(cè)大模型運(yùn)行必備的W4A8/W4A16計(jì)算加速模式:對(duì)模型權(quán)重進(jìn)行低比特量化,大幅降低帶寬消耗,支持云端大模型向端側(cè)的高效遷移。

3.集成AI專屬硬件引擎AIFF(AI Fixed-Function)與專用硬化調(diào)度器:實(shí)現(xiàn)超低至0.5%的CPU負(fù)載與低調(diào)度延遲,靈活支持端側(cè)多任務(wù)場(chǎng)景和任意優(yōu)先級(jí)調(diào)度場(chǎng)景,確保高優(yōu)先級(jí)任務(wù)的即時(shí)響應(yīng)。

4.支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合計(jì)算,強(qiáng)浮點(diǎn)計(jì)算:可靈活適配智能手機(jī)邊緣部署、AI PC推理、智能汽車等從傳統(tǒng)CNN到前沿大模型的數(shù)據(jù)類型需求,平衡性能與能效。

在上述關(guān)鍵技術(shù)的加持下,“周易”X3獲得了優(yōu)異的計(jì)算性能:?jiǎn)蜟luster最高支持4個(gè)Core,擁有8-80 FP8 TFLOPS算力且可靈活配置,單Core帶寬高達(dá)256GB/s。相較于“周易”X2產(chǎn)品,“周易”X3的CNN模型性能提升30%-50%,多核算力線性度達(dá)到70%-80%。在同算力規(guī)格下,AIGC大模型能力較上一代產(chǎn)品實(shí)現(xiàn)10倍增長(zhǎng),這得益于16倍的FP16 TFLOPS、4倍的計(jì)算核心帶寬、超過10倍的Softmax和LayerNorm性能提升共同驅(qū)動(dòng)。

圖片6.png

借助“周易”X3的超能力,端側(cè)大模型推理將更高效。

實(shí)測(cè)結(jié)果表明,在Llama2 7B大模型實(shí)測(cè)中,“周易”X3 NPU IP在Prefill階段算力利用率高達(dá)72%,并在安謀科技Arm China自研的解壓硬件WDC的加持下,實(shí)現(xiàn)Decode階段有效帶寬利用率超100%,遠(yuǎn)超行業(yè)平均水平,滿足大模型解碼階段的高吞吐需求。


總結(jié)

“周易”X3 NPU IP的發(fā)布,標(biāo)志著安謀科技Arm China“All in AI”產(chǎn)品戰(zhàn)略的正式開啟。從“周易”Z1的基礎(chǔ)感知到“周易”X3的復(fù)雜認(rèn)知,這一技術(shù)演進(jìn)路徑清晰地表明,端側(cè)AI正在從單一的功能實(shí)現(xiàn),邁向融合多種模型、適應(yīng)動(dòng)態(tài)場(chǎng)景的“全民普及”新階段


subscribe.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。