檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
NPU芯級獨占調(diào)度 NPU芯級獨占調(diào)度是指在調(diào)度NPU資源時,以NPU芯卡為單位進行資源分配的調(diào)度策略。每個Pod在運行時會獨占一個或多個完整的NPU芯片,不會與其他任務(wù)共享NPU芯片的計算資源。
NPU調(diào)度 NPU芯級獨占調(diào)度 NPU拓?fù)涓兄{(diào)度 NPU虛擬化 NPU監(jiān)控 父主題: 調(diào)度
NPU調(diào)度 NPU調(diào)度概述 NPU節(jié)點標(biāo)簽 創(chuàng)建NPU應(yīng)用 父主題: 管理本地集群
昇騰AI加速卡(NPU)應(yīng)用異常如何解決? 故障現(xiàn)象 NPU應(yīng)用下發(fā)失敗或者NPU應(yīng)用無法運行。 解決方法 NPU應(yīng)用創(chuàng)建失敗: 應(yīng)用如果需要申請NPU資源,只能部署到啟用昇騰AI加速卡的節(jié)點上。未在注冊節(jié)點時啟用昇騰AI加速卡的節(jié)點,部署申請NPU資源的應(yīng)用會提示創(chuàng)建失敗。
NPU計算型 NPU計算單元包含的計算資源主要適用于政企客戶部署昇騰云服務(wù)到CloudPond上使用的場景,對應(yīng)華為云昇騰云的實例包含snt系列,用戶可根據(jù)機型規(guī)格情況選擇對應(yīng)的計算資源商品。具體規(guī)格請參考表1。
SSH登錄機器后,檢查NPU卡狀態(tài)。運行如下命令,返回NPU設(shè)備信息。 npu-smi info # 在每個實例節(jié)點上運行此命令可以看到NPU卡狀態(tài) 如出現(xiàn)錯誤,可能是機器上的NPU設(shè)備沒有正常安裝,或者NPU鏡像被其他容器掛載。
NPU調(diào)度概述 UCS本地集群管理支持NPU異構(gòu)資源調(diào)度能力。 可實現(xiàn)快速高效地處理推理和圖像識別等工作。 NPU調(diào)度可以指定Pod申請NPU的數(shù)量,為工作負(fù)載提供NPU資源。 父主題: NPU調(diào)度
指標(biāo) 監(jiān)控級別 備注 cce_npu_memory_total NPU卡 NPU卡顯存總量 cce_npu_memory_used NPU卡 NPU卡顯存使用量 cce_npu_utilization NPU卡 NPU卡算力使用率 如何確認(rèn)節(jié)點NPU驅(qū)動已安裝完成 NPU驅(qū)動安裝成功后需要重啟節(jié)點才能生效
NPU指標(biāo)說明 當(dāng)CCE AI套件(ASCEND NPU)插件版本為2.1.55及以上時,支持使用npu-exporter組件。
如何避免非GPU/NPU負(fù)載調(diào)度到GPU/NPU節(jié)點? 問題現(xiàn)象 當(dāng)集群中存在GPU/NPU節(jié)點和普通節(jié)點混合使用的場景時,普通工作負(fù)載也可以調(diào)度到GPU/NPU節(jié)點上,可能出現(xiàn)GPU/NPU資源未充分利用的情況。
npu-exporter組件共支持采集73個NPU指標(biāo)(如健康狀態(tài)、功耗、溫度等),通過這些指標(biāo)您可以全面了解NPU狀況。關(guān)于NPU指標(biāo)的更多信息,請參見NPU指標(biāo)說明。 本文將進一步為您介紹如何啟用npu-exporter組件以及如何對NPU指標(biāo)進行實時監(jiān)控。
huawei-npu插件 插件簡介 huawei-npu插件是支持容器里使用huawei NPU設(shè)備的管理插件。 安裝本插件后,可支持使用NPU的節(jié)點,實現(xiàn)快速高效地處理推理和圖像識別等工作。
NPU監(jiān)控 NPU指標(biāo)說明 實現(xiàn)NPU指標(biāo)的全面監(jiān)控 父主題: NPU調(diào)度
NPU設(shè)備檢查 功能 檢查節(jié)點是否存在npu設(shè)備。
問題原因 在ModelArts的Notebook中訓(xùn)練出現(xiàn)NPU的昇騰910的NPU-2 AIcore使用率低,但高帶寬內(nèi)存HBM(High Bandwidth Memory)使用率高的情況,可能有以下原因: 代碼適配問題 未充分利用NPU特性:PyTorch在GP和NPU上運行時
創(chuàng)建NPU應(yīng)用 前提條件 如果您需要通過命令行創(chuàng)建,需要使用kubectl連接到集群,詳情請參見通過kubectl連接集群。 約束與限制 當(dāng)前不支持npu負(fù)載多容器能力。
手動實現(xiàn)NPU虛擬化 在CCE中,支持手動進行NPU虛擬化,從而實現(xiàn)節(jié)點級別的NPU切分,允許手動控制每張NPU卡的資源分配,提供更高的靈活性。然而,該方式的配置過程相對復(fù)雜,更適合對NPU資源使用有精細(xì)化需求的場景(如特定算力分配、資源隔離要求嚴(yán)格的業(yè)務(wù))。
NPU虛擬化概述 NPU虛擬化是指將通過資源虛擬化的方式將物理機中配置的NPU(昇騰AI產(chǎn)品)切分為多個虛擬NPU(vNPU),并掛載至容器中使用,以實現(xiàn)對硬件資源的靈活切分與動態(tài)管理。
NPU虛擬化 NPU虛擬化概述 自動實現(xiàn)NPU虛擬化(算力切分) 手動實現(xiàn)NPU虛擬化 父主題: NPU調(diào)度
現(xiàn)有一個Snt3P IDUO2類型的節(jié)點,其內(nèi)部有4張推理卡,每張推理卡有2個NPU芯片。假設(shè)該節(jié)點上剩余3NPU資源,位于2張推理卡,即一個推理卡剩余2個NPU,另一個剩余1個NPU。
選擇NPU節(jié)點,添加標(biāo)簽“accelerator/huawei-npu”,標(biāo)簽值可為空。 圖1 添加npu插件標(biāo)簽 單擊“確定”完成npu節(jié)點標(biāo)簽添加。 父主題: NPU調(diào)度
NPU日志收集上傳 場景描述 當(dāng)NPU出現(xiàn)故障,您可通過本方案收集NPU的日志信息。本方案中生成的日志會保存在節(jié)點上,并自動上傳至技術(shù)支持提供的OBS桶中,日志僅用于問題定位分析,因此需要您提供AK/SK給技術(shù)支持,用于授權(quán)認(rèn)證。
示例:創(chuàng)建DDP分布式訓(xùn)練(PyTorch+NPU) 在深度學(xué)習(xí)領(lǐng)域,使用PyTorch的DistributedDataParallel(DDP)功能在Ascend加速卡上進行分布式訓(xùn)練是一種高效的方式。