《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 英偉達(dá)詳解GPU集群可選追蹤技術(shù)

英偉達(dá)詳解GPU集群可選追蹤技術(shù)

可遠(yuǎn)程查看功耗、溫度等,不具備后門、終止開關(guān)
2025-12-15
來源:IT之家
關(guān)鍵詞: 英偉達(dá) GPU 監(jiān)控

12 月 14 日消息,英偉達(dá)官方本周(12 月 10 日)在官網(wǎng)發(fā)布博文,詳細(xì)介紹正在開發(fā)的可視化 GPU 集群監(jiān)控方案,可幫助云服務(wù)合作伙伴計(jì)算 GPU 的正常運(yùn)行時間。

援引官方新聞稿,該方案由用戶自愿選擇、客戶自行安裝,可用于監(jiān)控 GPU 的使用情況、配置以及錯誤信息,內(nèi)含開源的客戶端軟件代理,旨在幫助客戶充分發(fā)揮 GPU 系統(tǒng)的價值。

這套軟件能進(jìn)行以下操作:

追蹤功耗峰值,在控制能耗預(yù)算的同時最大化每瓦性能

監(jiān)控整個 GPU 集群的利用率、內(nèi)存帶寬以及互聯(lián)狀況

盡早發(fā)現(xiàn)熱控制問題,避免因過熱出現(xiàn)降頻、組件老化等風(fēng)險(xiǎn)

確認(rèn)軟件配置與設(shè)置的一致性,確保結(jié)果可復(fù)現(xiàn)、運(yùn)行可靠

識別錯誤與異常,提早發(fā)現(xiàn)潛在故障部件

官方表示,這套軟件可幫助企業(yè)和云服務(wù)提供商直觀了解其 GPU 集群運(yùn)行狀況,解決系統(tǒng)瓶頸,優(yōu)化生產(chǎn)力,整套服務(wù)通過實(shí)時監(jiān)控實(shí)現(xiàn),每個 GPU 系統(tǒng)會與外部云服務(wù)通信并共享 GPU 指標(biāo)。

format,f_avif.avif (7).jpg

同時英偉達(dá)強(qiáng)調(diào),他們的 GPU 不包含任何硬件追蹤技術(shù)、遠(yuǎn)程終止開關(guān)或后門。

此外,英偉達(dá)計(jì)劃將客戶端軟件代理開源,提供更高的透明度和可審計(jì)性,整套軟件可提供企業(yè) GPU 資產(chǎn)的可視化信息,無法修改 GPU 配置或底層運(yùn)作方式,只能夠提供只讀的遙測數(shù)據(jù),交由客戶自行管理并可按需定制。


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。