檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
訓(xùn)練結(jié)果輸出 日志及權(quán)重 訓(xùn)練過程中,MindSpeed-LLM框架訓(xùn)練loss、性能信息日志會(huì)在最后的Rank節(jié)點(diǎn)打印,Llama-Factory框架loss、性能信息日志會(huì)在第一個(gè)Rank節(jié)點(diǎn)打印。訓(xùn)練結(jié)果結(jié)構(gòu)說明如下: MindSpeed-LLM |──{af_output_dir}
創(chuàng)建訓(xùn)練作業(yè)提示錯(cuò)誤碼ModelArts.2763 問題現(xiàn)象 創(chuàng)建訓(xùn)練作業(yè)時(shí),提示ModelArts.2763 : 選擇的支持實(shí)例無效,請檢查請求中信息的合法性。 原因分析 用戶選擇的訓(xùn)練規(guī)格資源和算法不匹配。 例如:算法支持的是GP規(guī)格,創(chuàng)建訓(xùn)練作業(yè)時(shí)選擇了ASCEND規(guī)格的資源類型。
訓(xùn)練性能測試 流程圖 訓(xùn)練性能測試流程圖如下圖所示: 圖1 訓(xùn)練性能測試流程 執(zhí)行性能比較腳本 完成benchmark啟動(dòng)任務(wù)。 進(jìn)入test-benchmark目錄執(zhí)行命令。 ascendfactory-cli performance <cfgs_yaml_file> --baseline
訓(xùn)練精度測試流程圖如下圖所示。 圖1 訓(xùn)練精度測試流程圖 執(zhí)行訓(xùn)練任務(wù) 創(chuàng)建精度訓(xùn)練benchmark目錄。 # 任意目錄創(chuàng)建 mkdir accuracy-test-benchmark 進(jìn)入上步驟創(chuàng)建目錄執(zhí)行訓(xùn)練命令,可以多次執(zhí)行,按自己實(shí)際情況。 ascendfactory-cli train <cfgs_yaml_file>
查看日志和性能 查看日志 訓(xùn)練過程中,訓(xùn)練日志會(huì)在第一個(gè)的Rank節(jié)點(diǎn)打印。 圖1 打印訓(xùn)練日志 訓(xùn)練完成后,如果需要單獨(dú)獲取訓(xùn)練日志文件,日志存放在第一個(gè)的Rank節(jié)點(diǎn)中;日志存放路徑為:對應(yīng)修改重要參數(shù)表格中output_dir參數(shù)值路徑下的trainer_log.jsonl文件
】。 步驟二:啟動(dòng)訓(xùn)練任務(wù) 在任意目錄都可執(zhí)行訓(xùn)練命令,如新建test_benchmark目錄下。 預(yù)訓(xùn)練及微調(diào)階段模型最小卡數(shù)參考各模型支持的最小卡數(shù)和序列長度,按自己實(shí)際情況決定。 單機(jī)<可選>: # 默認(rèn)8卡 ascendfactory-cli train <cfgs_yaml_file>
專屬資源池的訓(xùn)練作業(yè)才能正常掛載SFS。因此,當(dāng)訓(xùn)練作業(yè)掛載SFS失敗時(shí),可能是網(wǎng)絡(luò)不通導(dǎo)致的。 處理步驟 進(jìn)入訓(xùn)練作業(yè)詳情頁,在左側(cè)獲取SFS Turbo的名稱。 圖1 獲取SFS Turbo的名稱 登錄彈性文件服務(wù)SFS控制臺(tái),在SFS Turbo列表找到訓(xùn)練作業(yè)掛載的SFS
例如vcjob-main-0。 kubectl logs -f ${pod_name} 等待模型載入 執(zhí)行訓(xùn)練啟動(dòng)命令后,等待模型載入,當(dāng)出現(xiàn)“training”關(guān)鍵字時(shí),表示開始訓(xùn)練。訓(xùn)練過程中,訓(xùn)練日志會(huì)在最后的Rank節(jié)點(diǎn)打印。 圖1 等待模型載入 訓(xùn)練完成后,生成的權(quán)重文
訓(xùn)練性能測試 流程圖 訓(xùn)練性能測試流程圖如下圖所示。 圖1 訓(xùn)練性能測試流程 執(zhí)行性能比較腳本 完成benchmark訓(xùn)練任務(wù)。 進(jìn)入test-benchmark目錄執(zhí)行命令。 ascendfactory-cli performance <cfgs_yaml_file> --baseline
建議使用官方提供的鏡像部署訓(xùn)練服務(wù)。鏡像地址{image_url}參見表4獲取。 docker pull {image_url} 步驟三:制作訓(xùn)練鏡像 進(jìn)入解壓后代碼包目錄下的Dockerfile文件同級目錄(見軟件包結(jié)構(gòu)中的"AscendCloud-LLM代碼包關(guān)鍵訓(xùn)練文件"),通過Do
--name ${container_name} 容器名稱,進(jìn)入容器時(shí)會(huì)用到,此處可以自己定義一個(gè)容器名稱,例如sdxl-diffusers。 --privileged:表示特權(quán)容器,會(huì)掛載機(jī)器所有的卡,本訓(xùn)練需要8卡訓(xùn)練。 -v ${work_dir}:${container_work_
下: 在ModelArts管理控制臺(tái),使用訓(xùn)練的自定義鏡像創(chuàng)建訓(xùn)練作業(yè)時(shí),“創(chuàng)建方式”選擇“自定義算法”,“啟動(dòng)方式”選擇“自定義”。 例如,當(dāng)訓(xùn)練代碼啟動(dòng)腳本在OBS路徑為“obs://bucket-name/app/code/train.py”,創(chuàng)建作業(yè)時(shí)配置代碼目錄為“/b
準(zhǔn)備權(quán)重 獲取對應(yīng)模型的權(quán)重文件,獲取鏈接參考支持的模型列表和權(quán)重文件。 在創(chuàng)建的OBS桶下創(chuàng)建文件夾用以存放權(quán)重文件,例如在桶中創(chuàng)建文件夾。將下載的權(quán)重文件上傳至OBS中,得到OBS下數(shù)據(jù)集結(jié)構(gòu)。此處以qwen-14b舉例。 obs://${bucket_name}/${folder-name}/
AI平臺(tái)咨詢與規(guī)劃服務(wù) 基于華為云AI平臺(tái),結(jié)合客戶業(yè)務(wù)場景,提供AI平臺(tái)規(guī)劃設(shè)計(jì)可行性分析和場景化建??尚行苑治龇?wù)。 工作說明書 常見問題 計(jì)費(fèi)說明 父主題: 咨詢與規(guī)劃
size(GBS)、seq_len(SEQ_LEN)為訓(xùn)練時(shí)設(shè)置的參數(shù)。 loss收斂情況:日志里存在lm loss參數(shù) ,lm loss參數(shù)隨著訓(xùn)練迭代周期持續(xù)性減小,并逐漸趨于穩(wěn)定平緩。 圖2 查看日志和性能 父主題: Qwen-VL模型基于Standard+OBS適配PyTorch NPU訓(xùn)練指導(dǎo)(6.3.912)
d-qwenvl-7b中創(chuàng)建文件夾training_data。 利用OBS Browser+工具將步驟1下載的數(shù)據(jù)集上傳至步驟2創(chuàng)建的文件夾目錄下。得到OBS下數(shù)據(jù)集結(jié)構(gòu): obs://standard-qwenvl-7b └── training_data
[smtp]# If you want airflow to send emails on retries, failure, and you want to use# the airflow.utils.email.send_email_smtp function, you have
方技術(shù)支持下載獲取。 模型軟件包結(jié)構(gòu)說明 AscendCloud-6.3.912代碼包中AscendCloud-AIGC代碼包結(jié)構(gòu)介紹如下,訓(xùn)練腳本以分類的方式集中在scripts文件夾中: AscendCloud-AIGC-6.3.912-xxx ├─aigc_inference
獲取訓(xùn)練作業(yè)流程階段信息列表 功能介紹 獲取訓(xùn)練作業(yè)流程階段信息列表接口用于獲取ModelArts平臺(tái)上指定訓(xùn)練作業(yè)的流程階段信息列表。 該接口適用于以下場景:當(dāng)用戶需要查看特定訓(xùn)練作業(yè)的流程階段記錄時(shí),可以通過此接口獲取階段信息列表。使用該接口的前提條件是用戶已知訓(xùn)練作業(yè)ID,
準(zhǔn)備資源 準(zhǔn)備數(shù)據(jù) 準(zhǔn)備權(quán)重 準(zhǔn)備代碼 準(zhǔn)備鏡像 準(zhǔn)備Notebook(可選) 父主題: 主流開源大模型基于Standard+OBS適配MindSpeed-LLM PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)