檢測到您已登錄華為云國際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
圖形加速型 G3 NVIDIA M60(GPU直通) 2048 4.8TFLOPS單精度浮點(diǎn)計(jì)算 云桌面、圖像渲染、3D可視化、重載圖形設(shè)計(jì)。
共享模式:表示GPU共享調(diào)度,即多個(gè)容器可共享同一張物理GPU卡的計(jì)算資源和顯存。 圖1 GPU整卡 (可選步驟)如果需要為該工作負(fù)載指定GPU資源,請(qǐng)?jiān)?ldquo;GPU顯卡”處選擇對(duì)應(yīng)GPU資源。選擇完成后,系統(tǒng)將根據(jù)資源類型讓Pod與相關(guān)節(jié)點(diǎn)親和,從而讓Pod選擇正確的節(jié)點(diǎn)。
為什么選擇華為云GPU加速云服務(wù)器 GACS 超強(qiáng)計(jì)算能力,從容應(yīng)對(duì)海量計(jì)算場景 超強(qiáng)計(jì)算能力,從容應(yīng)對(duì)海量計(jì)算場景 提供超強(qiáng)算力的GPU計(jì)算卡和自研昇騰加速卡,滿足人工智能、科學(xué)計(jì)算、圖形工作站等計(jì)算場景 網(wǎng)絡(luò)性能出色,支持GPU Direct over RDMA,100G超高帶寬
圖5 參數(shù)選擇 驅(qū)動(dòng)信息確認(rèn)完畢,單擊“Find”按鈕,會(huì)跳轉(zhuǎn)到驅(qū)動(dòng)信息展示頁面,找到需要下載的驅(qū)動(dòng),單擊“view”跳轉(zhuǎn)到下載頁面。 圖6 驅(qū)動(dòng)信息 鼠標(biāo)右鍵單擊“Download”按鈕,復(fù)制下載鏈接。
cce_gpu_graphics_clock Gauge MHz GPU卡 GPU圖形處理器頻率 cce_gpu_video_clock Gauge MHz GPU卡 GPU視頻處理器頻率 物理狀態(tài)數(shù)據(jù) cce_gpu_temperature Gauge ℃ GPU卡 GPU溫度
GPU監(jiān)控 GPU監(jiān)控指標(biāo)說明 實(shí)現(xiàn)GPU基礎(chǔ)、虛擬化及Pod級(jí)資源指標(biāo)的全面監(jiān)控 實(shí)現(xiàn)DCGM指標(biāo)的全面監(jiān)控 父主題: GPU調(diào)度
表2 Xid錯(cuò)誤(用戶程序) Xid Xid報(bào)錯(cuò)說明 13 報(bào)錯(cuò)信息“GR: SW Notify Error”,表示GPU的圖形引擎在運(yùn)行過程中遇到問題,可能是用戶程序越界(概率較大)、非法指令和寄存器、硬件(概率較?。┑仍?qū)е碌摹?/p>
當(dāng)顯存設(shè)置為單張GPU卡的容量上限或算力設(shè)置為100%時(shí),將會(huì)使用整張GPU卡。 使用GPU虛擬化時(shí),工作負(fù)載調(diào)度器將默認(rèn)指定為Volcano且不可更改。 圖1 設(shè)置GPU配額 本文主要為您介紹GPU虛擬化的使用,其他參數(shù)詳情請(qǐng)參見工作負(fù)載。
相關(guān)文檔 GPU虛擬化多卡均分調(diào)度 GPU彈性伸縮 GPU監(jiān)控 GPU故障處理 父主題: GPU虛擬化
GPU虛擬化概述 CCE GPU虛擬化采用自研xGPU虛擬化技術(shù),能夠動(dòng)態(tài)對(duì)GPU設(shè)備顯存與算力進(jìn)行劃分,單個(gè)GPU卡最多虛擬化成20個(gè)GPU虛擬設(shè)備。
圖2 訪問Prometheus 在頁面上方單擊“Graph”,即可在搜索欄中搜索需要的GPU指標(biāo),查看相關(guān)信息。 圖3 查看GPU監(jiān)控指標(biāo) 單擊“Status > Targets”,您可以查看Prometheus監(jiān)控的所有指標(biāo)。
圖7 查看CUDA安裝結(jié)果 父主題: 管理GPU加速型ECS的GPU驅(qū)動(dòng)
表1 GPU驅(qū)動(dòng)支持的加速能力 驅(qū)動(dòng)類型 License CUDA OpenGL DirectX Vulkan 典型應(yīng)用場景 說明 GRID驅(qū)動(dòng) 需要 支持 支持 支持 支持 3D渲染、圖形工作站、游戲加速 付費(fèi)使用,需要購買License,滿足圖形圖像類應(yīng)用加速用途。
圖6 稍后重啟 如果不需要重啟,單擊“關(guān)閉”。 圖7 關(guān)閉 返回桌面,在空白處右鍵單擊,選擇“NVIDIA控制面板”,查看驅(qū)動(dòng)版本,判斷驅(qū)動(dòng)是否安裝成功。 若顯示如下版本,表示驅(qū)動(dòng)安裝成功。 圖8 驅(qū)動(dòng)版本 父主題: 管理GPU加速型ECS的GPU驅(qū)動(dòng)
圖11 License Server管理控制臺(tái) 父主題: 管理GPU加速型ECS的GPU驅(qū)動(dòng)
圖1 開啟集群級(jí)別GPU虛擬化 節(jié)點(diǎn)池級(jí)別的GPU虛擬化:安裝2.7.2及以上版本的CCE AI套件(NVIDIA GPU)插件時(shí),支持以節(jié)點(diǎn)池級(jí)別配置GPU虛擬化開關(guān)。 在“GPU配置 > 節(jié)點(diǎn)池配置”中單擊添加行。
T4 GPU設(shè)備顯示異常 問題描述 使用NVIDIA Tesla T4 GPU的云服務(wù)器,例如Pi2或G6規(guī)格,執(zhí)行nvidia-smi命令查看GPU使用情況時(shí),顯示如下: No devices were found 原因分析 NVIDIA Tesla T4 GPU是NVIDIA的新版本
圖1 Nvidia驅(qū)動(dòng)與CUDA Toolkit版本的配套關(guān)系 CUDA Toolkit和驅(qū)動(dòng)的版本兼容性列表 在選擇Nvidia驅(qū)動(dòng)時(shí),需要保證驅(qū)動(dòng)版本兼容CUDA Toolkit版本,官方提供配套關(guān)系如下表。
手動(dòng)更新GPU節(jié)點(diǎn)的驅(qū)動(dòng)版本為臨時(shí)方案,適用于需要對(duì)某個(gè)節(jié)點(diǎn)進(jìn)行差異化配置的場景,但節(jié)點(diǎn)重啟后將自動(dòng)重置為CCE AI套件(NVIDIA GPU)插件配置中指定的版本。 如果需要穩(wěn)定升級(jí)GPU節(jié)點(diǎn)驅(qū)動(dòng),推薦使用通過節(jié)點(diǎn)池升級(jí)節(jié)點(diǎn)的GPU驅(qū)動(dòng)版本。
圖10 卸載CUDA驅(qū)動(dòng) CUDA庫卸載成功,會(huì)返回”Successfully uninstalled”。 移除CUDA庫和cuDNN庫: rm -rf /usr/local/cuda-11.2 父主題: 管理GPU加速型ECS的GPU驅(qū)動(dòng)