檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
建議搭配使用 對(duì)象存儲(chǔ)服務(wù)OBS 人臉識(shí)別服務(wù)FRS 云日志服務(wù)LTS API網(wǎng)關(guān)APIG 函數(shù)工作流FunctionGraph 輕量級(jí)邊緣AI應(yīng)用場(chǎng)景 從云上HiLens平臺(tái)在線將AI應(yīng)用部署到帶一定AI算力的邊緣設(shè)備上,比如帶AI加速卡(GPU或NPU)的邊緣智能盒子或服務(wù)器。
集群中已安裝CCE AI套件(Ascend NPU)插件,且版本在2.1.23及以上,具體步驟請(qǐng)參見(jiàn)CCE AI套件(Ascend NPU)。 約束與限制 在單個(gè)Pod內(nèi),僅支持1個(gè)容器申請(qǐng)NPU資源,且不允許init容器申請(qǐng)NPU資源,否則Pod將無(wú)法被調(diào)度。
昇騰AI加速卡(NPU)應(yīng)用異常如何解決? 故障現(xiàn)象 NPU應(yīng)用下發(fā)失敗或者NPU應(yīng)用無(wú)法運(yùn)行。 解決方法 NPU應(yīng)用創(chuàng)建失?。?應(yīng)用如果需要申請(qǐng)NPU資源,只能部署到啟用昇騰AI加速卡的節(jié)點(diǎn)上。未在注冊(cè)節(jié)點(diǎn)時(shí)啟用昇騰AI加速卡的節(jié)點(diǎn),部署申請(qǐng)NPU資源的應(yīng)用會(huì)提示創(chuàng)建失敗。
如何避免非GPU/NPU負(fù)載調(diào)度到GPU/NPU節(jié)點(diǎn)? 問(wèn)題現(xiàn)象 當(dāng)集群中存在GPU/NPU節(jié)點(diǎn)和普通節(jié)點(diǎn)混合使用的場(chǎng)景時(shí),普通工作負(fù)載也可以調(diào)度到GPU/NPU節(jié)點(diǎn)上,可能出現(xiàn)GPU/NPU資源未充分利用的情況。
CCE AI套件(Ascend NPU) 插件介紹 CCE AI套件(Ascend NPU)是支持容器里使用NPU設(shè)備的管理插件。 安裝本插件后,可創(chuàng)建“AI加速型”節(jié)點(diǎn),實(shí)現(xiàn)快速高效地處理推理和圖像識(shí)別等工作。
NPU日志收集上傳 場(chǎng)景描述 當(dāng)NPU出現(xiàn)故障,您可通過(guò)本方案收集NPU的日志信息。本方案中生成的日志會(huì)保存在節(jié)點(diǎn)上,并自動(dòng)上傳至技術(shù)支持提供的OBS桶中,日志僅用于問(wèn)題定位分析,因此需要您提供AK/SK給技術(shù)支持,用于授權(quán)認(rèn)證。
基于PyTorch NPU快速部署開(kāi)源大模型 基于PyTorch NPU快速部署開(kāi)源大模型 查看部署指南 方案咨詢 該解決方案有何用途?
去年都是在華為云上買(mǎi)linux服務(wù)器配置gpu版本的mindspore跑程序,也明顯比cpu的快很多但是今年用modelarts上這個(gè)ascend跑同樣的代碼,發(fā)現(xiàn)速度和cpu差不多,而且好像也沒(méi)有g(shù)pu的版本正常的話ascend應(yīng)該是用這個(gè)npu跑深度學(xué)習(xí)的是嗎?
環(huán)境 昊算平臺(tái) 910b NPU docker容器 下載中心 Ascend/pytorch 安裝torch_npu插件-安裝步驟-配置與安裝-開(kāi)發(fā)文檔-昇騰社區(qū) 安裝流程 查閱所需的對(duì)應(yīng)版本 PyTorch Extension版本號(hào)采用{PyTorch版本}-{昇騰版本}命名規(guī)則,
登錄HOST查詢NPU芯片名稱命令:npu-smi info 父主題: 安裝與維護(hù)
NPU驅(qū)動(dòng)升級(jí)失敗如何解決? 在NPU驅(qū)動(dòng)升級(jí)過(guò)程中,可能因版本兼容性或環(huán)境配置等問(wèn)題導(dǎo)致命令報(bào)錯(cuò)。本文整理了NPU驅(qū)動(dòng)升級(jí)過(guò)程中的典型報(bào)錯(cuò)場(chǎng)景及其解決方案,您可根據(jù)實(shí)際報(bào)錯(cuò)代碼或錯(cuò)誤描述快速解決問(wèn)題。
實(shí)施步驟 準(zhǔn)備工作 快速部署 開(kāi)始使用 快速卸載
## 2 解決辦法 通過(guò)查找onnxruntime社區(qū),可以發(fā)現(xiàn)npu已經(jīng)對(duì)onnxruntime進(jìn)行了適配,參考如下文檔:[onnxruntime/docs/execution-providers/community-maintained/CANN-ExecutionProvider.md
對(duì)于這種場(chǎng)景昇騰NPU有什么更好的方案呢? 在昇騰NPU方案中,我們可以利用NPU上的媒體處理硬件模塊DVPP,以及內(nèi)置的SpatialTransformer算子結(jié)合把整個(gè)流程都在芯片內(nèi)完成。
!RANK=0 WORLD_SIZE=1 MASTER_ADDR=127.0.0.1 MASTER_PORT=任意端口號(hào)\ python 執(zhí)行腳本 --model 模型名稱 --data-path 指定訓(xùn)練數(shù)據(jù)的路徑 --vae 變分自編碼器類(lèi)型\ --global-batch-size
CCE AI套件(Ascend NPU)版本發(fā)布記錄 CCE會(huì)定期發(fā)布CCE AI套件(Ascend NPU)插件新版本,進(jìn)行特性更新、性能優(yōu)化和BUG修復(fù),以提升用戶體驗(yàn)和系統(tǒng)穩(wěn)定性。
模型NPU卡數(shù)、梯度累積值取值表 不同模型推薦的訓(xùn)練參數(shù)和計(jì)算規(guī)格要求如表1所示。規(guī)格與節(jié)點(diǎn)數(shù)中的1*節(jié)點(diǎn) & 4*Ascend表示單機(jī)4卡,以此類(lèi)推。
() 如果是第一種,則說(shuō)明真實(shí)報(bào)錯(cuò)點(diǎn)在新增的torch.npu.synchronize()之前 如果是第二種,則說(shuō)明真實(shí)報(bào)錯(cuò)點(diǎn)在新增的torch.npu.synchronize()之后 第三步:不停地打torch.npu.synchronize(),直到找打這一行:它前面的torch.npu.synchronize
比如如下算法:圖像去噪、SIFT算法獲取特征、獲取角點(diǎn)、圖像矯正