檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
圖形加速型 G3 NVIDIA M60(GPU直通) 2048 4.8TFLOPS單精度浮點計算 云桌面、圖像渲染、3D可視化、重載圖形設(shè)計。
為什么選擇華為云GPU加速云服務(wù)器 GACS 超強計算能力,從容應(yīng)對海量計算場景 超強計算能力,從容應(yīng)對海量計算場景 提供超強算力的GPU計算卡和自研昇騰加速卡,滿足人工智能、科學計算、圖形工作站等計算場景 網(wǎng)絡(luò)性能出色,支持GPU Direct over RDMA,100G超高帶寬
共享模式:表示GPU共享調(diào)度,即多個容器可共享同一張物理GPU卡的計算資源和顯存。 圖1 GPU整卡 (可選步驟)如果需要為該工作負載指定GPU資源,請在“GPU顯卡”處選擇對應(yīng)GPU資源。選擇完成后,系統(tǒng)將根據(jù)資源類型讓Pod與相關(guān)節(jié)點親和,從而讓Pod選擇正確的節(jié)點。
一鍵部署 關(guān)于AI繪圖應(yīng)用Stable Diffusion 關(guān)于Stable Diffusion 注意:開啟部署前請確保資源準備就緒(建議提前購買GPU套餐包) 注意:開啟部署前請確保資源準備就緒(建議提前購買GPU套餐包) 華為云Serverless應(yīng)用中心托管的Stable Diffusion
圖7 查看CUDA安裝結(jié)果 父主題: 管理GPU加速型ECS的GPU驅(qū)動
當顯存設(shè)置為單張GPU卡的容量上限或算力設(shè)置為100%時,將會使用整張GPU卡。 使用GPU虛擬化時,工作負載調(diào)度器將默認指定為Volcano且不可更改。 圖1 設(shè)置GPU配額 本文主要為您介紹GPU虛擬化的使用,其他參數(shù)詳情請參見工作負載。
cce_gpu_graphics_clock Gauge MHz GPU卡 GPU圖形處理器頻率 cce_gpu_video_clock Gauge MHz GPU卡 GPU視頻處理器頻率 物理狀態(tài)數(shù)據(jù) cce_gpu_temperature Gauge ℃ GPU卡 GPU溫度
圖5 參數(shù)選擇 驅(qū)動信息確認完畢,單擊“Find”按鈕,會跳轉(zhuǎn)到驅(qū)動信息展示頁面,找到需要下載的驅(qū)動,單擊“view”跳轉(zhuǎn)到下載頁面。 圖6 驅(qū)動信息 鼠標右鍵單擊“Download”按鈕,復(fù)制下載鏈接。
圖5 HPA策略創(chuàng)建成功 相關(guān)文檔 GPU虛擬化節(jié)點彈性伸縮配置 父主題: GPU彈性伸縮
GPU監(jiān)控 GPU監(jiān)控指標說明 實現(xiàn)GPU基礎(chǔ)、虛擬化及Pod級資源指標的全面監(jiān)控 實現(xiàn)DCGM指標的全面監(jiān)控 父主題: GPU調(diào)度
GPU虛擬化概述 CCE GPU虛擬化采用自研xGPU虛擬化技術(shù),能夠動態(tài)對GPU設(shè)備顯存與算力進行劃分,單個GPU卡最多虛擬化成20個GPU虛擬設(shè)備。
圖1 v1.27集群異構(gòu)資源配置 v1.28及以上集群:支持節(jié)點池級別的GPU虛擬化開關(guān)。 圖2 v1.28及以上集群異構(gòu)資源配置 單擊“確認配置”進行保存。
圖2 訪問Prometheus 在頁面上方單擊“Graph”,即可在搜索欄中搜索需要的GPU指標,查看相關(guān)信息。 圖3 查看GPU監(jiān)控指標 單擊“Status > Targets”,您可以查看Prometheus監(jiān)控的所有指標。
表1 GPU驅(qū)動支持的加速能力 驅(qū)動類型 License CUDA OpenGL DirectX Vulkan 典型應(yīng)用場景 說明 GRID驅(qū)動 需要 支持 支持 支持 支持 3D渲染、圖形工作站、游戲加速 付費使用,需要購買License,滿足圖形圖像類應(yīng)用加速用途。
相關(guān)文檔 GPU虛擬化多卡均分調(diào)度 GPU彈性伸縮 GPU監(jiān)控 GPU故障處理 父主題: GPU虛擬化
圖6 稍后重啟 如果不需要重啟,單擊“關(guān)閉”。 圖7 關(guān)閉 返回桌面,在空白處右鍵單擊,選擇“NVIDIA控制面板”,查看驅(qū)動版本,判斷驅(qū)動是否安裝成功。 若顯示如下版本,表示驅(qū)動安裝成功。 圖8 驅(qū)動版本 父主題: 管理GPU加速型ECS的GPU驅(qū)動
圖1 Nvidia驅(qū)動與CUDA Toolkit版本的配套關(guān)系 CUDA Toolkit和驅(qū)動的版本兼容性列表 在選擇Nvidia驅(qū)動時,需要保證驅(qū)動版本兼容CUDA Toolkit版本,官方提供配套關(guān)系如下表。
圖11 License Server管理控制臺 父主題: 管理GPU加速型ECS的GPU驅(qū)動
圖1 開啟集群級別GPU虛擬化 節(jié)點池級別的GPU虛擬化:安裝2.7.2及以上版本的CCE AI套件(NVIDIA GPU)插件時,支持以節(jié)點池級別配置GPU虛擬化開關(guān)。 在“GPU配置 > 節(jié)點池配置”中單擊添加行。
T4 GPU設(shè)備顯示異常 問題描述 使用NVIDIA Tesla T4 GPU的云服務(wù)器,例如Pi2或G6規(guī)格,執(zhí)行nvidia-smi命令查看GPU使用情況時,顯示如下: No devices were found 原因分析 NVIDIA Tesla T4 GPU是NVIDIA的新版本
圖10 卸載CUDA驅(qū)動 CUDA庫卸載成功,會返回”Successfully uninstalled”。 移除CUDA庫和cuDNN庫: rm -rf /usr/local/cuda-11.2 父主題: 管理GPU加速型ECS的GPU驅(qū)動