檢測到您已登錄華為云國際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
主流開源大模型基于Lite Cluster適配MindSpeed-LLM PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901) 場景介紹 準(zhǔn)備工作 訓(xùn)練任務(wù) 查看日志和性能 訓(xùn)練腳本說明參考 常見錯(cuò)誤原因和解決方法 父主題: LLM大語言模型訓(xùn)練歷史版本文檔
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 訓(xùn)練作業(yè)找不到GP 父主題: 訓(xùn)練作業(yè)
查詢訓(xùn)練作業(yè)列表 功能介紹 查詢訓(xùn)練作業(yè)列表接口用于獲取ModelArts平臺(tái)上所有訓(xùn)練作業(yè)的列表。 該接口適用于以下場景:當(dāng)用戶需要查看平臺(tái)上的所有訓(xùn)練作業(yè)時(shí),可以通過此接口獲取作業(yè)列表。使用該接口的前提條件是用戶具有查看訓(xùn)練作業(yè)列表的權(quán)限。查詢操作完成后,平臺(tái)將返回包含訓(xùn)練作
安裝依賴和模型包 手動(dòng)下載模型權(quán)重到/home/ma-user/work目錄下: 官網(wǎng)下載地址(需登錄)。 SDXL下載鏈接:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main modelscope下載地址:
獲取訓(xùn)練作業(yè)支持的公共規(guī)格 功能介紹 獲取訓(xùn)練作業(yè)支持的公共規(guī)格接口用于獲取ModelArts平臺(tái)上支持的訓(xùn)練作業(yè)資源規(guī)格列表。 該接口適用于以下場景:當(dāng)用戶需要了解平臺(tái)支持的資源規(guī)格以進(jìn)行訓(xùn)練作業(yè)配置時(shí),可以通過此接口獲取規(guī)格列表。使用該接口的前提條件是用戶具有查看資源規(guī)格的權(quán)
Ascend相關(guān)問題 Cann軟件與Ascend驅(qū)動(dòng)版本不匹配 訓(xùn)練作業(yè)的日志出現(xiàn)detect failed(昇騰預(yù)檢失?。?父主題: 訓(xùn)練作業(yè)
什么是Airflow Apache Airflow是一個(gè)提供基于DAG有向無環(huán)圖來編排工作流的、可視化的分布式任務(wù)調(diào)度平臺(tái),與Oozie、Azkaban等任務(wù)流調(diào)度平臺(tái)類似。Airflow在2014年由Airbnb發(fā)起,2016年3月進(jìn)入Apac
示例:創(chuàng)建DDP分布式訓(xùn)練(PyTorch+GPU) 在分布式訓(xùn)練場景中,使用PyTorch的DistributedDataParallel(DDP)功能是實(shí)現(xiàn)高效訓(xùn)練的重要方式。為了幫助用戶更好地理解和應(yīng)用這一功能,本文將詳細(xì)介紹三種通過訓(xùn)練作業(yè)啟動(dòng)PyTorchDDP訓(xùn)練的方法,并提供對(duì)應(yīng)的代碼示例。
全鏈條閉環(huán)平臺(tái),打造一站式解決方案,打通數(shù)據(jù)、算法、訓(xùn)練、評(píng)估、部署全過程,推動(dòng)AI能力高效迭代,助力業(yè)務(wù)價(jià)值創(chuàng)新。商品規(guī)格: 1、訓(xùn)練和推理服務(wù)授權(quán)包含:數(shù)據(jù)集管理(樣本采集、樣本標(biāo)注)、模型管理(模型的訓(xùn)練、模型的精度驗(yàn)證)、算法管理(算法的應(yīng)用服務(wù))報(bào)表管理(數(shù)據(jù)集統(tǒng)計(jì)、模
長訓(xùn)Loss比對(duì)結(jié)果 在單卡環(huán)境下,執(zhí)行一個(gè)Epoch訓(xùn)練任務(wù),GPU和NPU訓(xùn)練疊加效果如下: 上圖中的紅色曲線為GPU Loss折線圖,藍(lán)色曲線為NPU訓(xùn)練Loss折線圖。在整網(wǎng)訓(xùn)練單個(gè)Epoch情況下,Loss總體的絕對(duì)偏差大約為0.08181。 父主題: 精度對(duì)齊
該路徑,訓(xùn)練作業(yè)的日志信息則保存該路徑下。 最后,提交訓(xùn)練作業(yè),訓(xùn)練完成后,請參考查看日志和性能章節(jié)查看SFT微調(diào)的日志和性能。了解更多ModelArts訓(xùn)練功能,可查看模型開發(fā)簡介。 父主題: Qwen-VL模型基于Standard+OBS適配PyTorch NPU訓(xùn)練指導(dǎo)(6
調(diào)用API創(chuàng)建訓(xùn)練作業(yè),訓(xùn)練作業(yè)異常 問題現(xiàn)象 調(diào)用API接口創(chuàng)建訓(xùn)練作業(yè)(專屬資源池為CPU規(guī)格),訓(xùn)練作業(yè)狀態(tài)由“創(chuàng)建中”轉(zhuǎn)變?yōu)?ldquo;異常”,訓(xùn)練作業(yè)詳情界面“規(guī)格信息”為“--”。 原因分析 調(diào)用接口傳入了CPU規(guī)格的專屬資源池不支持的參數(shù)。 處理步驟 檢查API請求的請求體中
ModelArts訓(xùn)練時(shí)使用os.system('cd xxx')無法進(jìn)入文件夾怎么辦? 當(dāng)在訓(xùn)練作業(yè)的啟動(dòng)腳本中使用os.system('cd xxx')無法進(jìn)入相應(yīng)的文件夾時(shí),建議使用如下方法: import os os.chdir('/home/work/user-job-dir/xxx')
Qwen-VL基于Standard+OBS+SFS適配PyTorch NPU訓(xùn)練指導(dǎo)(6.3.912) 場景介紹 準(zhǔn)備工作 SFT全參微調(diào)訓(xùn)練 LoRA微調(diào)訓(xùn)練 查看日志和性能 訓(xùn)練腳本說明 常見錯(cuò)誤原因和解決方法 父主題: MLLM多模態(tài)模型訓(xùn)練推理
自定義鏡像的方式創(chuàng)建訓(xùn)練作業(yè)。 AI Engine 選擇代碼使用的AI引擎及其版本。支持的AI引擎與ModelArts管理控制臺(tái)里ModelArts支持的預(yù)置鏡像列表一致。 Boot File Path 訓(xùn)練啟動(dòng)文件,所選啟動(dòng)文件必須是當(dāng)前PyCharm訓(xùn)練工程中的文件。當(dāng)“Algorithm
步驟九:提交訓(xùn)練作業(yè)并調(diào)試 當(dāng)創(chuàng)建訓(xùn)練作業(yè)的參數(shù)配置完成后,單擊“提交”,在信息確認(rèn)頁面單擊“確定”,提交調(diào)試訓(xùn)練作業(yè)。 在訓(xùn)練作業(yè)列表中,剛創(chuàng)建的訓(xùn)練作業(yè)狀態(tài)為“等待中”。 在訓(xùn)練作業(yè)列表中,當(dāng)訓(xùn)練作業(yè)的狀態(tài)變?yōu)?ldquo;運(yùn)行中”時(shí),單擊訓(xùn)練作業(yè)名稱進(jìn)入訓(xùn)練詳情頁,在訓(xùn)練詳情頁單擊Ju
使用VS Code創(chuàng)建并調(diào)試訓(xùn)練作業(yè) 由于AI開發(fā)者會(huì)使用VS Code工具開發(fā)算法或模型,為方便快速將本地代碼提交到ModelArts的訓(xùn)練環(huán)境、貼近本地開發(fā)習(xí)慣地編寫啟動(dòng)命令,ModelArts提供了一個(gè)訓(xùn)練作業(yè)場景下的IDE插件ModelArts-HuaweiCloud,用
TensorFlow-1.8作業(yè)連接OBS時(shí)反復(fù)出現(xiàn)提示錯(cuò)誤 TensorFlow在OBS寫入TensorBoard到達(dá)5GB時(shí)停止 保存模型時(shí)出現(xiàn)Unable to connect to endpoint錯(cuò)誤 OBS復(fù)制過程中提示“BrokenPipeError: Broken
像和啟動(dòng)命令來優(yōu)化PyTorch DDP訓(xùn)練流程,從而在Ascend加速卡上實(shí)現(xiàn)高效的分布式訓(xùn)練。 前提條件 需要有Ascend加速卡資源池。 創(chuàng)建訓(xùn)練作業(yè) 本案例創(chuàng)建訓(xùn)練作業(yè)時(shí),需要配置如下參數(shù)。 表1 創(chuàng)建訓(xùn)練作業(yè)的配置說明 參數(shù)名稱 說明 “創(chuàng)建方式” 選擇“自定義算法”。
device側(cè)隨機(jī)性無法通過seed等自動(dòng)化方式固定,先通過切換CPU側(cè)計(jì)算初始化之后再切回device側(cè)。在train.py中做如下圖第215行代碼修改。 重新訓(xùn)練Dump比對(duì)分析后續(xù)計(jì)算是否存在偏差。比對(duì)之后發(fā)現(xiàn):Tensor.__mul__.2在forward計(jì)算階段的第一個(gè)input存在偏差。