檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
NPU調(diào)度 NPU芯級獨占調(diào)度 NPU拓撲感知調(diào)度 NPU虛擬化 NPU監(jiān)控 父主題: 調(diào)度
NPU芯級獨占調(diào)度 NPU芯級獨占調(diào)度是指在調(diào)度NPU資源時,以NPU芯卡為單位進行資源分配的調(diào)度策略。每個Pod在運行時會獨占一個或多個完整的NPU芯片,不會與其他任務共享NPU芯片的計算資源。
NPU調(diào)度 NPU調(diào)度概述 NPU節(jié)點標簽 創(chuàng)建NPU應用 父主題: 管理本地集群
指標 監(jiān)控級別 備注 cce_npu_memory_total NPU卡 NPU卡顯存總量 cce_npu_memory_used NPU卡 NPU卡顯存使用量 cce_npu_utilization NPU卡 NPU卡算力使用率 如何確認節(jié)點NPU驅(qū)動已安裝完成 NPU驅(qū)動安裝成功后需要重啟節(jié)點才能生效
昇騰AI加速卡(NPU)應用異常如何解決? 故障現(xiàn)象 NPU應用下發(fā)失敗或者NPU應用無法運行。 解決方法 NPU應用創(chuàng)建失?。?應用如果需要申請NPU資源,只能部署到啟用昇騰AI加速卡的節(jié)點上。未在注冊節(jié)點時啟用昇騰AI加速卡的節(jié)點,部署申請NPU資源的應用會提示創(chuàng)建失敗。
SSH登錄機器后,檢查NPU卡狀態(tài)。運行如下命令,返回NPU設備信息。 npu-smi info # 在每個實例節(jié)點上運行此命令可以看到NPU卡狀態(tài) 如出現(xiàn)錯誤,可能是機器上的NPU設備沒有正常安裝,或者NPU鏡像被其他容器掛載。
NPU調(diào)度概述 UCS本地集群管理支持NPU異構資源調(diào)度能力。 可實現(xiàn)快速高效地處理推理和圖像識別等工作。 NPU調(diào)度可以指定Pod申請NPU的數(shù)量,為工作負載提供NPU資源。 父主題: NPU調(diào)度
NPU計算型 NPU計算單元包含的計算資源主要適用于政企客戶部署昇騰云服務到CloudPond上使用的場景,對應華為云昇騰云的實例包含snt系列,用戶可根據(jù)機型規(guī)格情況選擇對應的計算資源商品。具體規(guī)格請參考表1。
NPU指標說明 當CCE AI套件(ASCEND NPU)插件版本為2.1.55及以上時,支持使用npu-exporter組件。
如何避免非GPU/NPU負載調(diào)度到GPU/NPU節(jié)點? 問題現(xiàn)象 當集群中存在GPU/NPU節(jié)點和普通節(jié)點混合使用的場景時,普通工作負載也可以調(diào)度到GPU/NPU節(jié)點上,可能出現(xiàn)GPU/NPU資源未充分利用的情況。
huawei-npu插件 插件簡介 huawei-npu插件是支持容器里使用huawei NPU設備的管理插件。 安裝本插件后,可支持使用NPU的節(jié)點,實現(xiàn)快速高效地處理推理和圖像識別等工作。
NPU監(jiān)控 NPU指標說明 實現(xiàn)NPU指標的全面監(jiān)控 父主題: NPU調(diào)度
npu-exporter組件共支持采集73個NPU指標(如健康狀態(tài)、功耗、溫度等),通過這些指標您可以全面了解NPU狀況。關于NPU指標的更多信息,請參見NPU指標說明。 本文將進一步為您介紹如何啟用npu-exporter組件以及如何對NPU指標進行實時監(jiān)控。
NPU設備檢查 功能 檢查節(jié)點是否存在npu設備。
問題原因 在ModelArts的Notebook中訓練出現(xiàn)NPU的昇騰910的NPU-2 AIcore使用率低,但高帶寬內(nèi)存HBM(High Bandwidth Memory)使用率高的情況,可能有以下原因: 代碼適配問題 未充分利用NPU特性:PyTorch在GP和NPU上運行時
NPU拓撲感知調(diào)度 節(jié)點內(nèi)NPU拓撲親和調(diào)度 超節(jié)點拓撲親和調(diào)度 父主題: NPU調(diào)度
創(chuàng)建NPU應用 前提條件 如果您需要通過命令行創(chuàng)建,需要使用kubectl連接到集群,詳情請參見通過kubectl連接集群。 約束與限制 當前不支持npu負載多容器能力。
手動實現(xiàn)NPU虛擬化 在CCE中,支持手動進行NPU虛擬化,從而實現(xiàn)節(jié)點級別的NPU切分,允許手動控制每張NPU卡的資源分配,提供更高的靈活性。然而,該方式的配置過程相對復雜,更適合對NPU資源使用有精細化需求的場景(如特定算力分配、資源隔離要求嚴格的業(yè)務)。
NPU虛擬化概述 NPU虛擬化是指將通過資源虛擬化的方式將物理機中配置的NPU(昇騰AI產(chǎn)品)切分為多個虛擬NPU(vNPU),并掛載至容器中使用,以實現(xiàn)對硬件資源的靈活切分與動態(tài)管理。
自動實現(xiàn)NPU虛擬化(算力切分) 在CCE中,通過CCE AI套件(Ascend NPU)插件的ascend-vnpu-manager組件可以實現(xiàn)節(jié)點池粒度的NPU虛擬化,以生成虛擬NPU(vNPU),從而實現(xiàn)資源的高效利用。
NPU虛擬化 NPU虛擬化概述 自動實現(xiàn)NPU虛擬化(算力切分) 手動實現(xiàn)NPU虛擬化 父主題: NPU調(diào)度
現(xiàn)有一個Snt3P IDUO2類型的節(jié)點,其內(nèi)部有4張推理卡,每張推理卡有2個NPU芯片。假設該節(jié)點上剩余3NPU資源,位于2張推理卡,即一個推理卡剩余2個NPU,另一個剩余1個NPU。
示例:創(chuàng)建DDP分布式訓練(PyTorch+NPU) 在深度學習領域,使用PyTorch的DistributedDataParallel(DDP)功能在Ascend加速卡上進行分布式訓練是一種高效的方式。
建議搭配使用 對象存儲服務OBS 人臉識別服務FRS 云日志服務LTS API網(wǎng)關APIG 函數(shù)工作流FunctionGraph 輕量級邊緣AI應用場景 從云上HiLens平臺在線將AI應用部署到帶一定AI算力的邊緣設備上,比如帶AI加速卡(GPU或NPU)的邊緣智能盒子或服務器。