檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪(fǎng)問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
執(zhí)行訓(xùn)練任務(wù) ascendfactory-cli方式啟動(dòng)(推薦) demo.sh方式啟動(dòng)(歷史版本) 父主題: 主流開(kāi)源大模型基于Lite Server適配LlamaFactory PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)
準(zhǔn)備數(shù)據(jù) 準(zhǔn)備訓(xùn)練數(shù)據(jù),可以用本案使用的數(shù)據(jù)集,也可以使用自己準(zhǔn)備的數(shù)據(jù)集。 準(zhǔn)備鏡像 準(zhǔn)備訓(xùn)練模型適用的容器鏡像。 執(zhí)行訓(xùn)練任務(wù)(預(yù)訓(xùn)練/微調(diào)) 執(zhí)行訓(xùn)練任務(wù)(推薦) 介紹如何進(jìn)行預(yù)訓(xùn)練,包括訓(xùn)練數(shù)據(jù)處理、超參配置、創(chuàng)建訓(xùn)練任務(wù)及性能查看。 查看訓(xùn)練結(jié)果 查看日志和性能 查看訓(xùn)練后的日志,訓(xùn)練的性能結(jié)果。
支持的模型列表 模型列表分為表1 大語(yǔ)言模型列表和表2 多模態(tài)模型列表,詳細(xì)如下。 表1 支持的大語(yǔ)言模型列表和權(quán)重獲取地址 模型系列 訓(xùn)練模型 訓(xùn)練場(chǎng)景 訓(xùn)練框架 支持版本 開(kāi)源權(quán)重文件獲取地址 DeepSeek系列 DeepSeek-R1-671B 預(yù)訓(xùn)練、微調(diào) MindSpeed-LLM
SFT全參微調(diào)訓(xùn)練 前提條件 已上傳訓(xùn)練代碼、訓(xùn)練權(quán)重文件和數(shù)據(jù)集到OBS中,具體參考代碼上傳至OBS。 Step1 創(chuàng)建訓(xùn)練任務(wù) 創(chuàng)建訓(xùn)練作業(yè),并自定義名稱(chēng)、描述等信息。選擇自定義算法,啟動(dòng)方式自定義,以及選擇上傳的鏡像。 圖1 創(chuàng)建訓(xùn)練作業(yè) 訓(xùn)練作業(yè)啟動(dòng)命令中輸入: cd /
自定義鏡像訓(xùn)練作業(yè)配置實(shí)例間SSH免密互信 在使用基于MPI和Horovod框架的自定義鏡像進(jìn)行分布式訓(xùn)練時(shí),如果未配置訓(xùn)練作業(yè)實(shí)例間的SSH免密互信,將會(huì)導(dǎo)致訓(xùn)練任務(wù)失敗。為確保實(shí)例間的通信順暢,必須預(yù)先配置實(shí)例間SSH免密互信,確保分布式訓(xùn)練任務(wù)順利進(jìn)行。 配置實(shí)例間SSH免
執(zhí)行訓(xùn)練任務(wù) 執(zhí)行訓(xùn)練任務(wù)(推薦) 執(zhí)行訓(xùn)練任務(wù)(歷史版本) 父主題: 主流開(kāi)源大模型基于Standard+OBS適配MindSpeed-LLM PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)
建議與總結(jié) 在創(chuàng)建訓(xùn)練作業(yè)前,推薦您先使用ModelArts開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼,避免代碼遷移過(guò)程中的錯(cuò)誤。 直接使用線(xiàn)上notebook環(huán)境調(diào)試請(qǐng)參考使用JupyterLab開(kāi)發(fā)模型。 配置本地IDE(Pycharm或者VSCode)聯(lián)接云上環(huán)境調(diào)試請(qǐng)參考使用本地IDE開(kāi)發(fā)模型。 OBS
義鏡像,來(lái)避免該影響??蓞⒁?jiàn)文檔模型訓(xùn)練中使用自定義鏡像介紹。 建議與總結(jié) 在創(chuàng)建訓(xùn)練作業(yè)前,推薦您先使用ModelArts開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼,避免代碼遷移過(guò)程中的錯(cuò)誤。 直接使用線(xiàn)上notebook環(huán)境調(diào)試請(qǐng)參考使用JupyterLab開(kāi)發(fā)模型。 配置本地IDE(Pychar
業(yè)的華為方技術(shù)支持下載獲取。 AscendCloud-LLM代碼包關(guān)鍵訓(xùn)練文件介紹如下: |——AscendCloud-LLM |──llm_train # 模型訓(xùn)練代碼包 |──AscendFactory |──examples/
55 表3 模型鏡像版本 機(jī)型 模型 版本 Snt9B CANN cann_8.1.rc1 驅(qū)動(dòng) 24.1.0.6 PyTorch 2.5.1 Snt9B23 CANN 8.1.RC1 驅(qū)動(dòng) 24.1.RC3.5 PyTorch 2.5.1 父主題: 主流開(kāi)源大模型基于ModelArts
訓(xùn)練腳本說(shuō)明參考 數(shù)據(jù)說(shuō)明 模型最小卡數(shù)配置 父主題: 主流開(kāi)源大模型基于Lite Cluster適配MindSpeed-LLM PyTorch NPU訓(xùn)練指導(dǎo)(6.5.905)
支持的模型列表 訓(xùn)練支持的模型列表 本方案支持以下模型的訓(xùn)練,如表1所示。 表1 支持的模型列表 序號(hào) 支持模型 支持模型參數(shù)量 權(quán)重文件獲取地址 1 Qwen2 qwen2-0.5b https://huggingface.co/Qwen/Qwen2-0.5B-Instruct
將下載的原始數(shù)據(jù)存放在{work_dir}/llm_train/AscendFactory/data目錄下。具體步驟如下: 解壓data.tgz壓縮包 tar -zxvf /home/ma-user/ws/llm_train/AscendFactory/data.tgz 進(jìn)入到/
ndSpore等,大量的開(kāi)發(fā)者基于主流AI引擎,開(kāi)發(fā)并訓(xùn)練其業(yè)務(wù)所需的模型。 評(píng)估模型 訓(xùn)練得到模型之后,整個(gè)開(kāi)發(fā)過(guò)程還不算結(jié)束,需要對(duì)模型進(jìn)行評(píng)估和考察。經(jīng)常不能一次性獲得一個(gè)滿(mǎn)意的模型,需要反復(fù)的調(diào)整算法參數(shù)、數(shù)據(jù),不斷評(píng)估訓(xùn)練生成的模型。 一些常用的指標(biāo),如準(zhǔn)確率、召回率、
準(zhǔn)備鏡像環(huán)境 準(zhǔn)備訓(xùn)練模型適用的容器鏡像,包括獲取鏡像地址,了解鏡像中包含的各類(lèi)固件版本,配置物理機(jī)環(huán)境操作。 鏡像地址 本教程中用到的訓(xùn)練和推理的基礎(chǔ)鏡像地址和配套版本關(guān)系如下表所示,請(qǐng)?zhí)崆傲私狻?表1 基礎(chǔ)容器鏡像地址 鏡像用途 鏡像地址 基礎(chǔ)鏡像 swr.cn-southwest-2
日志采集與存儲(chǔ) 查看用戶(hù)訓(xùn)練日志(Proc Log) Proc Log是由用戶(hù)訓(xùn)練代碼產(chǎn)生的打屏日志,當(dāng)用戶(hù)通過(guò)常用框架的方式啟動(dòng)單機(jī)多卡或多機(jī)多卡的Ascend規(guī)格訓(xùn)練作業(yè)時(shí),每一張Ascend加速卡對(duì)應(yīng)的訓(xùn)練進(jìn)程都會(huì)產(chǎn)生一份python打印在屏幕上的日志。同一臺(tái)節(jié)點(diǎn)上多個(gè)訓(xùn)練進(jìn)程的日志會(huì)
訓(xùn)練腳本存放目錄說(shuō)明 在A(yíng)scendCloud-AIGC代碼包的multimodal_algorithm目錄下集成了多個(gè)多模態(tài)模型的適配腳本,用戶(hù)可通過(guò)不同模型中的xxx_install.sh腳本一鍵適配。在用戶(hù)通過(guò)Dockerfile構(gòu)建模型的環(huán)境鏡像時(shí)會(huì)執(zhí)行該腳本,這會(huì)從gi
1000 用于模型中間版本地保存。 當(dāng)參數(shù)值>=TRAIN_ITERS時(shí),生成模型僅保存經(jīng)過(guò)TRAIN_ITERS次訓(xùn)練后的最后一個(gè)版本。 當(dāng)參數(shù)值<TRAIN_ITERS時(shí),生成模型會(huì)每經(jīng)過(guò)SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次數(shù)=TRAIN_ITERS//SAVE_INTERVAL+1
建議與總結(jié) 在創(chuàng)建訓(xùn)練作業(yè)前,推薦您先使用ModelArts開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼,避免代碼遷移過(guò)程中的錯(cuò)誤。 直接使用線(xiàn)上notebook環(huán)境調(diào)試請(qǐng)參考使用JupyterLab開(kāi)發(fā)模型。 配置本地IDE(Pycharm或者VSCode)聯(lián)接云上環(huán)境調(diào)試請(qǐng)參考使用本地IDE開(kāi)發(fā)模型。 父主題:
專(zhuān)屬資源池的訓(xùn)練作業(yè)才能正常掛載SFS。因此,當(dāng)訓(xùn)練作業(yè)掛載SFS失敗時(shí),可能是網(wǎng)絡(luò)不通導(dǎo)致的。 處理步驟 進(jìn)入訓(xùn)練作業(yè)詳情頁(yè),在左側(cè)獲取SFS Turbo的名稱(chēng)。 圖1 獲取SFS Turbo的名稱(chēng) 登錄彈性文件服務(wù)SFS控制臺(tái),在SFS Turbo列表找到訓(xùn)練作業(yè)掛載的SFS