檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
Integer 訓(xùn)練作業(yè)的引擎類型。 engine_name String 訓(xùn)練作業(yè)的引擎名稱。 engine_id Long 訓(xùn)練作業(yè)的引擎ID。 engine_version String 訓(xùn)練作業(yè)使用的引擎版本。 train_url String 訓(xùn)練作業(yè)的輸出文件OBS路
系統(tǒng)容器異常退出 問題現(xiàn)象 在訓(xùn)練創(chuàng)建后出現(xiàn)“系統(tǒng)容器異常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
準備代碼 準備鏡像環(huán)境 DockerFile構(gòu)建鏡像(可選) 準備數(shù)據(jù)(可選) 父主題: 主流開源大模型基于Lite Server適配LlamaFactory PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)
故障快恢方案 資源HA冷備快恢說明 超節(jié)點內(nèi)故障告警 超節(jié)點重部署運維 節(jié)點重部署檢測 父主題: 主流開源大模型基于Lite Cluster適配AscendFactory NPU訓(xùn)練解決方案
--local-dir <模型下載路徑> 如果要下載指定版本的模型文件,則命令如下: huggingface-cli download --resume-download Qwen/Qwen-VL-Chat --revision <模型版本> --local-dir <模型下載路徑> 方法三:使用專用多線程下載器
準備鏡像 鏡像方案說明 ECS獲取基礎(chǔ)鏡像 ECS中構(gòu)建新鏡像 ECS中上傳新鏡像 父主題: 準備工作
訓(xùn)練作業(yè)訓(xùn)練失敗報錯:TypeError: unhashable type: ‘list’ 問題現(xiàn)象 使用訂閱算法圖像分類-EfficientNetB4進行訓(xùn)練報錯:TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多標簽分類導(dǎo)致(即一個圖片用了1個以上的標簽)。
準備鏡像 準備訓(xùn)練模型適用的容器鏡像,包括獲取鏡像地址,了解鏡像中包含的各類固件版本,配置物理機環(huán)境操作。 鏡像地址 本教程中用到的訓(xùn)練和推理的基礎(chǔ)鏡像地址和配套版本關(guān)系如下表所示,請?zhí)崆傲私狻?表1 基礎(chǔ)容器鏡像地址 鏡像用途 鏡像地址 基礎(chǔ)鏡像 swr.cn-southwest-2
訓(xùn)練作業(yè)參數(shù)配置 創(chuàng)建訓(xùn)練作業(yè)參數(shù) 查詢訓(xùn)練作業(yè)參數(shù)列表 更新訓(xùn)練作業(yè)參數(shù) 刪除訓(xùn)練作業(yè)參數(shù) 查詢訓(xùn)練作業(yè)參數(shù)詳情 父主題: 訓(xùn)練管理(舊版)
執(zhí)行訓(xùn)練任務(wù) ascendfactory-cli方式啟動(推薦) demo.sh方式啟動(歷史版本) 父主題: 主流開源大模型基于Lite Server適配LlamaFactory PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)
訓(xùn)練日志介紹 本章介紹在Lite Cluster模式下訓(xùn)練日志配置及對接建議,包含四部分內(nèi)容:CANN應(yīng)用類日志、訓(xùn)練日志、NPU Device 日志、OS日志,其中客戶自定義的訓(xùn)練日志(寫入SFS Turbo日志)在此章節(jié)不涉及。 在訓(xùn)練過程中,有多種類型的日志可用于監(jiān)控和分析:
Turbo方式“超參”框填寫】 指定輸出目錄。訓(xùn)練過程中生成的模型參數(shù)和日志文件將保存在這個目錄下 backend_config.train_from_scratch false 用于指示模型是否從頭開始訓(xùn)練。如果設(shè)置為true,模型將從一個全新的初始狀態(tài)開始訓(xùn)練則不加載權(quán)重?!総rue or false】,默認false
本案例僅支持在專屬資源池上運行,確保專屬資源池可以訪問公網(wǎng)。 文檔更新內(nèi)容 6.3.912版本是第一次發(fā)布 支持的模型列表 本方案支持以下模型的訓(xùn)練,如表1所示。 表1 支持的模型列表 序號 支持模型 支持模型參數(shù)量 權(quán)重文件獲取地址 框架 1 Qwen-VL 7b https://huggingface
準備代碼 將數(shù)據(jù)預(yù)熱到SFS Turbo 準備鏡像 父主題: Qwen-VL基于Standard+OBS+SFS適配PyTorch NPU訓(xùn)練指導(dǎo)(6.3.912)
本章節(jié)主要介紹通過DockerFile文件構(gòu)建訓(xùn)練鏡像,將訓(xùn)練過程中依賴包封裝使用,過程中需要連接互聯(lián)網(wǎng)git clone,請確保環(huán)境可以訪問公網(wǎng),詳解操作如下: 進入代碼包Dockerfile文件同級目錄: cd /home/ma-user/ws/llm_train/AscendFactory
查看日志和性能 查看日志 訓(xùn)練過程中,訓(xùn)練日志會在最后的Rank節(jié)點打印。 圖1 打印訓(xùn)練日志 訓(xùn)練完成后,如果需要單獨獲取訓(xùn)練日志文件,可以在${OUTPUT_SAVE_DIR}/log路徑下獲取。 查看性能 訓(xùn)練性能主要通過訓(xùn)練日志中的2個指標查看,吞吐量和loss收斂情況。
訓(xùn)練參數(shù)配置說明【舊】 如果用戶希望自定義參數(shù)進行訓(xùn)練,可直接編輯對應(yīng)模型的訓(xùn)練腳本,請根據(jù)實際模型修改。 表1 模型訓(xùn)練腳本參數(shù) 參數(shù) 示例值 參數(shù)說明 ORIGINAL_TRAIN_DATA_PATH 【預(yù)訓(xùn)練:pt】預(yù)訓(xùn)練數(shù)據(jù)集相對或絕對地址 【微調(diào):sft】微調(diào)數(shù)據(jù)集相對或絕對地址
15編寫的LeNet網(wǎng)絡(luò)的minist手寫數(shù)字識別”的程序; 2、模型遷移,將原代碼遷移成能在昇騰AI處理器上進行訓(xùn)練的代碼; 3、將遷移后的代碼跑在ModelArts平臺上。 一、本地跑通基于LeNet網(wǎng)絡(luò)的minist手寫數(shù)字識別代碼 目前昇騰支持的遷移模型是Tensorflow1.15,所以本地需要在Tensorflow1
AI開發(fā)平臺ModelArts AI開發(fā)平臺ModelArts ModelArts Standard ModelArts Standard 端到端的模型生產(chǎn)工具鏈,高效、易用的AI開發(fā)、訓(xùn)練、推理一站式平臺 端到端的模型生產(chǎn)工具鏈,高效、易用的AI開發(fā)、訓(xùn)練、推理一站式平臺 購買
支持的模型列表 模型列表分為表1 大語言模型列表和表2 多模態(tài)模型列表,詳細如下。 表1 支持的大語言模型列表和權(quán)重獲取地址 模型參數(shù)量 是否適配MindSpeed-LLM 是否適配Llama-Factory 是否適配VeRL 開源權(quán)重文件獲取地址 llama3.1-8b √ √