12 月 14 日消息,英偉達(dá)官方本周(12 月 10 日)在官網(wǎng)發(fā)布博文,詳細(xì)介紹正在開發(fā)的可視化 GPU 集群監(jiān)控方案,可幫助云服務(wù)合作伙伴計(jì)算 GPU 的正常運(yùn)行時間。
援引官方新聞稿,該方案由用戶自愿選擇、客戶自行安裝,可用于監(jiān)控 GPU 的使用情況、配置以及錯誤信息,內(nèi)含開源的客戶端軟件代理,旨在幫助客戶充分發(fā)揮 GPU 系統(tǒng)的價值。
這套軟件能進(jìn)行以下操作:
追蹤功耗峰值,在控制能耗預(yù)算的同時最大化每瓦性能
監(jiān)控整個 GPU 集群的利用率、內(nèi)存帶寬以及互聯(lián)狀況
盡早發(fā)現(xiàn)熱控制問題,避免因過熱出現(xiàn)降頻、組件老化等風(fēng)險(xiǎn)
確認(rèn)軟件配置與設(shè)置的一致性,確保結(jié)果可復(fù)現(xiàn)、運(yùn)行可靠
識別錯誤與異常,提早發(fā)現(xiàn)潛在故障部件
官方表示,這套軟件可幫助企業(yè)和云服務(wù)提供商直觀了解其 GPU 集群運(yùn)行狀況,解決系統(tǒng)瓶頸,優(yōu)化生產(chǎn)力,整套服務(wù)通過實(shí)時監(jiān)控實(shí)現(xiàn),每個 GPU 系統(tǒng)會與外部云服務(wù)通信并共享 GPU 指標(biāo)。

同時英偉達(dá)強(qiáng)調(diào),他們的 GPU 不包含任何硬件追蹤技術(shù)、遠(yuǎn)程終止開關(guān)或后門。
此外,英偉達(dá)計(jì)劃將客戶端軟件代理開源,提供更高的透明度和可審計(jì)性,整套軟件可提供企業(yè) GPU 資產(chǎn)的可視化信息,無法修改 GPU 配置或底層運(yùn)作方式,只能夠提供只讀的遙測數(shù)據(jù),交由客戶自行管理并可按需定制。

