檢測到您已登錄華為云國際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
圖1 多卡均分調(diào)度 表1 多卡均分調(diào)度參數(shù)說明 參數(shù) 示例 說明 卡數(shù) 1 必填項(xiàng),表示多卡均分調(diào)度的GPU卡數(shù)量。 總顯存 128 必填項(xiàng),表示申請(qǐng)的GPU顯存值,單位為MiB,需為正整數(shù),且為128的倍數(shù)。若配置的顯存超過GPU卡的顯存總和,將會(huì)出現(xiàn)無法調(diào)度狀況。
圖26 CUDA安裝成功 父主題: 管理GPU加速型ECS的GPU驅(qū)動(dòng)
圖表說明 圖1 GPU視圖圖表 表1 GPU圖表說明 圖表名稱 單位 說明 集群-顯存使用率 百分比 集群的顯存使用率 計(jì)算公式:集群內(nèi)容器顯存使用總量/集群內(nèi)顯存總量 集群-算力使用率 百分比 集群的算力使用率 計(jì)算公式:集群內(nèi)容器算力使用總量/集群內(nèi)算力總量 節(jié)點(diǎn)-顯存使用量
GPU調(diào)度 GPU節(jié)點(diǎn)驅(qū)動(dòng)版本 使用Kubernetes默認(rèn)GPU調(diào)度 GPU虛擬化 GPU監(jiān)控 GPU彈性伸縮 GPU故障處理 父主題: 調(diào)度
GPU負(fù)載 使用Tensorflow訓(xùn)練神經(jīng)網(wǎng)絡(luò)
GPU虛擬化:UCS On Premises GPU采用xGPU虛擬化技術(shù),能夠動(dòng)態(tài)對(duì)GPU設(shè)備顯存與算力進(jìn)行劃分,單個(gè)GPU卡最多虛擬化成20個(gè)GPU虛擬設(shè)備。
圖1 v1.27集群異構(gòu)資源配置 v1.28及以上集群:支持節(jié)點(diǎn)池級(jí)別的GPU虛擬化開關(guān)。 圖2 v1.28及以上集群異構(gòu)資源配置 單擊“確認(rèn)配置”進(jìn)行保存。
圖1 系統(tǒng)日志 執(zhí)行以下命令,開啟驅(qū)動(dòng)持久化模式。 nvidia-smi -pm 1 執(zhí)行以下命令,打開并編輯“/etc/rc.local”文件。
圖5 HPA策略創(chuàng)建成功 相關(guān)文檔 GPU虛擬化節(jié)點(diǎn)彈性伸縮配置 父主題: GPU彈性伸縮
GPU彈性伸縮 基于GPU監(jiān)控指標(biāo)配置工作負(fù)載彈性伸縮 GPU虛擬化節(jié)點(diǎn)彈性伸縮配置 父主題: GPU調(diào)度
GPU驅(qū)動(dòng)支持列表 當(dāng)前GPU驅(qū)動(dòng)支持列表僅針對(duì)1.2.28及以上版本的CCE AI套件(NVIDIA GPU)插件。 如果您需要安裝最新版本的GPU驅(qū)動(dòng),請(qǐng)將您的CCE AI套件(NVIDIA GPU)插件升級(jí)到最新版本。
、圖形圖像加速等加速工作負(fù)載。
GPU虛擬化 GPU虛擬化概述 準(zhǔn)備GPU虛擬化資源 使用GPU虛擬化 GPU虛擬化兼容Kubernetes默認(rèn)GPU調(diào)度 GPU虛擬化多卡均分調(diào)度 父主題: GPU調(diào)度
通過節(jié)點(diǎn)池升級(jí)節(jié)點(diǎn)的GPU驅(qū)動(dòng)版本 如果您使用的CUDA庫無法與當(dāng)前的NVIDIA驅(qū)動(dòng)版本匹配,您需要升級(jí)節(jié)點(diǎn)的驅(qū)動(dòng)版本才可以正常使用GPU節(jié)點(diǎn)。
GPU調(diào)度 GPU調(diào)度概述 準(zhǔn)備GPU資源 創(chuàng)建GPU應(yīng)用 監(jiān)控GPU資源 父主題: 管理本地集群
方法2:查詢?cè)品?wù)器安裝的驅(qū)動(dòng)版本:whereis nvidia 圖1 查詢安裝的驅(qū)動(dòng)版本 根據(jù)查詢的驅(qū)動(dòng)版本從NVIDIA官網(wǎng)下載驅(qū)動(dòng)包(此處重新下載驅(qū)動(dòng)包是為了執(zhí)行卸載動(dòng)作,且后續(xù)重新安裝驅(qū)動(dòng)時(shí)需要此安裝包)。
GPU節(jié)點(diǎn)驅(qū)動(dòng)版本 選擇GPU節(jié)點(diǎn)驅(qū)動(dòng)版本 CCE推薦的GPU驅(qū)動(dòng)版本列表 手動(dòng)更新GPU節(jié)點(diǎn)驅(qū)動(dòng)版本 通過節(jié)點(diǎn)池升級(jí)節(jié)點(diǎn)的GPU驅(qū)動(dòng)版本 父主題: GPU調(diào)度
基礎(chǔ)、虛擬化及Pod級(jí)資源指標(biāo)的全面監(jiān)控 GPU視圖 XGPU視圖 父主題: GPU監(jiān)控
GPU實(shí)例故障分類列表 GPU實(shí)例故障的分類列表如表1所示。
GPU數(shù)量小于1時(shí),不支持跨GPU分配,如0.5 GPU只會(huì)分配到一張卡上。 指定nvidia.com/gpu后,在調(diào)度時(shí)不會(huì)將負(fù)載調(diào)度到?jīng)]有GPU的節(jié)點(diǎn)。如果缺乏GPU資源,會(huì)報(bào)類似如下的Kubernetes事件。