檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
運(yùn)行訓(xùn)練作業(yè)時(shí)提示URL連接超時(shí) 問(wèn)題現(xiàn)象 訓(xùn)練作業(yè)在運(yùn)行時(shí)提示URL連接超時(shí),具體報(bào)錯(cuò)如下: urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析 由于安全性問(wèn)題在ModelArts上不能聯(lián)網(wǎng)下載。
json,數(shù)據(jù)大?。?1.5 MB。 強(qiáng)化學(xué)習(xí)(VeRL),數(shù)據(jù)集分為train和test兩種,示例截圖如下: 大語(yǔ)言模型:https://huggingface.co/datasets/openai/gsm8k/tree/main 多模態(tài)模型:https://huggingface.co/data
參考benchmark-準(zhǔn)備工作,開(kāi)始訓(xùn)練測(cè)試,具體步驟參考訓(xùn)練性能測(cè)試或訓(xùn)練精度測(cè)試,根據(jù)實(shí)際情況決定。 父主題: 訓(xùn)練評(píng)測(cè)
-a -G root ma-user 其他現(xiàn)象,可以在已有的訓(xùn)練故障案例查找。 建議與總結(jié) 用戶使用自定義鏡像訓(xùn)練作業(yè)時(shí),建議按照訓(xùn)練作業(yè)自定義鏡像規(guī)范制作鏡像。文檔中同時(shí)提供了端到端的示例供用戶參考。 父主題: 訓(xùn)練作業(yè)運(yùn)行失敗
各模型支持的最小卡數(shù)和序列長(zhǎng)度 模型訓(xùn)練時(shí)間、集群規(guī)模預(yù)測(cè) 針對(duì)不同模型,集群規(guī)格(Snt9b、Snt9b23)、數(shù)據(jù)集大小等均會(huì)導(dǎo)致訓(xùn)練時(shí)間、集群卡數(shù)規(guī)模不同,如訓(xùn)練過(guò)程中對(duì)卡數(shù)或訓(xùn)練時(shí)間有要求,可根據(jù)以下公式計(jì)算預(yù)測(cè): 訓(xùn)練時(shí)間(秒):Time=Tok總/(TPS*N卡數(shù))*
各訓(xùn)練框架支持的模型和特性 LlamaFactory支持的模型和關(guān)鍵特性 表1 LlamaFactory支持的模型和關(guān)鍵特性 模型類型 模型系列 模型名稱 LlamaFactory 訓(xùn)練方法(PT、SFT、DPO) 長(zhǎng)序列并行 (Ring Attention、Ulysses) 序
準(zhǔn)備代碼 本教程中用到的訓(xùn)練推理代碼和如下表所示,請(qǐng)?zhí)崆皽?zhǔn)備好。 獲取模型軟件包 本方案支持的模型對(duì)應(yīng)的軟件和依賴包獲取地址如表1所示,模型列表、對(duì)應(yīng)的開(kāi)源權(quán)重獲取地址如表1 支持的模型列表所示。 表1 模型對(duì)應(yīng)的軟件包和依賴包獲取地址 代碼包名稱 代碼說(shuō)明 下載地址 AscendCloud-6
訓(xùn)練日志介紹 本章介紹在Lite Cluster模式下訓(xùn)練日志配置及對(duì)接建議,包含四部分內(nèi)容:CANN應(yīng)用類日志、訓(xùn)練日志、NPU Device 日志、OS日志,其中客戶自定義的訓(xùn)練日志(寫入SFS Turbo日志)在此章節(jié)不涉及。 在訓(xùn)練過(guò)程中,有多種類型的日志可用于監(jiān)控和分析:
數(shù)據(jù)可以用來(lái)對(duì)語(yǔ)言模型進(jìn)行指令調(diào)優(yōu),使語(yǔ)言模型更好地遵循指令。 預(yù)訓(xùn)練使用的Alpaca數(shù)據(jù)集下載:https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56
規(guī)格接口獲取引擎規(guī)格ID。 train_url 否 String 訓(xùn)練作業(yè)的輸出文件OBS路徑URL,默認(rèn)為空,如“/usr/train/”。 log_url 否 String 訓(xùn)練作業(yè)的日志OBS輸出路徑URL,默認(rèn)為空。如:“/usr/train/”。 user_image_url
創(chuàng)建訓(xùn)練作業(yè)鏡像保存任務(wù) - CreateSaveImageJob 功能介紹 創(chuàng)建訓(xùn)練作業(yè)鏡像保存任務(wù)接口用于為已存在的訓(xùn)練作業(yè)創(chuàng)建一個(gè)鏡像保存任務(wù)。 該接口適用于以下場(chǎng)景:當(dāng)用戶需要將訓(xùn)練作業(yè)的當(dāng)前狀態(tài)或模型保存為鏡像,以便后續(xù)復(fù)用或分享時(shí),可以通過(guò)此接口創(chuàng)建一個(gè)鏡像保存任務(wù)。
√ √ 更新訓(xùn)練作業(yè) PUT /v2/{project_id}/training-jobs/{training_job_id} modelarts:trainJob:update - √ √ 刪除訓(xùn)練作業(yè) DELETE /v2/{project_id}/training-jobs/{training_job_id}
義鏡像,來(lái)避免該影響??蓞⒁?jiàn)文檔模型訓(xùn)練中使用自定義鏡像介紹。 建議與總結(jié) 在創(chuàng)建訓(xùn)練作業(yè)前,推薦您先使用ModelArts開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼,避免代碼遷移過(guò)程中的錯(cuò)誤。 直接使用線上notebook環(huán)境調(diào)試請(qǐng)參考使用JupyterLab開(kāi)發(fā)模型。 配置本地IDE(Pychar
訓(xùn)練腳本說(shuō)明 Yaml配置文件參數(shù)配置說(shuō)明 模型NPU卡數(shù)、梯度累積值取值表 各個(gè)模型訓(xùn)練前文件替換 NPU_Flash_Attn融合算子約束 BF16和FP16說(shuō)明 錄制Profiling 父主題: 主流開(kāi)源大模型基于Lite Server適配LlamaFactory PyTorch
訓(xùn)練服務(wù)配置說(shuō)明 參數(shù)配置說(shuō)明 tokenizer文件修改 訓(xùn)練數(shù)據(jù)說(shuō)明 VeRL數(shù)據(jù)處理樣例腳本 父主題: 主流開(kāi)源大模型基于Lite Cluster適配AscendFactory NPU訓(xùn)練解決方案
bash 步驟五:下載模型權(quán)重 下載權(quán)重文件至容器目錄,需要用到的模型地址如下。 Wan-AI/Wan2.1-T2V-14B-Diffusers,地址:https://huggingface.co/Wan-AI/Wan2.1-T2V-14B-Diffusers Wan-AI/Wan2.1-T2V-1
ma_node_container_space_used_percent 該指標(biāo)用于統(tǒng)計(jì)容器空間的使用率 ≥0 連續(xù)2個(gè)周期 原始值 > 90% 緊急 NPU AI處理器HBM內(nèi)存利用率 ma_node_npu_hbm_util 昇騰系列AI處理器HBM內(nèi)存利用率(昇騰910 AI處理器專屬)
CreateTrainingJob 查詢訓(xùn)練作業(yè)詳情 - ShowTrainingJobDetails 更新訓(xùn)練作業(yè)描述 - ChangeTrainingJobDescription 刪除訓(xùn)練作業(yè) - DeleteTrainingJob 終止訓(xùn)練作業(yè) - StopTrainingJob 查詢訓(xùn)練作業(yè)指定任務(wù)的日志(預(yù)覽)
將pretrained改成false,提前下載好預(yù)訓(xùn)練模型,加載下載好的預(yù)訓(xùn)練模型位置即可,可參考如下代碼。 import torch import torchvision.models as models model1 = models.resnet34(pretrained=False, progress=True)
訓(xùn)練作業(yè)失敗,如何使用開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼? 在創(chuàng)建訓(xùn)練作業(yè)前,推薦您先使用ModelArts開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼,避免代碼遷移過(guò)程中的錯(cuò)誤。 直接使用線上notebook環(huán)境調(diào)試請(qǐng)參考使用JupyterLab開(kāi)發(fā)模型。 配置本地IDE(Pycharm或者VsCode)聯(lián)接云上環(huán)境調(diào)試請(qǐng)參考使用本地IDE開(kāi)發(fā)模型。