檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
準(zhǔn)備資源 創(chuàng)建專屬資源池 本文檔中的模型運(yùn)行環(huán)境是ModelArts Standard,用戶需要購買專屬資源池,具體步驟請參考創(chuàng)建資源池。 資源規(guī)格要求: 計(jì)算規(guī)格:用戶可參考表1。 硬盤空間:至少200GB。 昇騰資源規(guī)格: Ascend: 1*ascend-snt9b表示昇騰單卡。
路徑,在“main.py”中將“project_dir”添加到“sys.path”中,再導(dǎo)入: import os import sys # __file__為獲取當(dāng)前執(zhí)行腳本main.py的絕對路徑 # os.path.dirname(__file__)獲取main.py的父目錄,即project_dir的絕對路徑
準(zhǔn)備代碼 本教程中用到的模型軟件包如下表所示,請?zhí)崆皽?zhǔn)備好。 獲取模型軟件包 本方案支持的模型對應(yīng)的軟件和依賴包獲取地址如表1所示。 表1 模型對應(yīng)的軟件包和依賴包獲取地址 代碼包名稱 代碼說明 下載地址 AscendCloud-6.5.901-xxx.zip 說明: 軟件包名稱中的xxx表示時間戳。
909-xxx.zip軟件包中。 模型每次推理的圖片數(shù)量必須是支持的batchsize,比如當(dāng)前轉(zhuǎn)換的mindir模型batchsize僅支持1,那么模型推理輸入的圖片數(shù)只能是1張;如果當(dāng)前轉(zhuǎn)換的mindir模型的batchsize支持多個,比如1,2,4,8,那么模型推理輸入的圖片數(shù)可以是1,2,4,8。
本案例僅支持在專屬資源池上運(yùn)行,確保專屬資源池可以訪問公網(wǎng)。 文檔更新內(nèi)容 6.3.912版本是第一次發(fā)布 支持的模型列表 本方案支持以下模型的訓(xùn)練,如表1所示。 表1 支持的模型列表 序號 支持模型 支持模型參數(shù)量 權(quán)重文件獲取地址 框架 1 Qwen-VL 7b https://huggingface
準(zhǔn)備代碼 將數(shù)據(jù)預(yù)熱到SFS Turbo 準(zhǔn)備鏡像 父主題: Qwen-VL基于Standard+OBS+SFS適配PyTorch NPU訓(xùn)練指導(dǎo)(6.3.912)
LoRA微調(diào)訓(xùn)練 前提條件 已上傳訓(xùn)練代碼、訓(xùn)練權(quán)重文件和數(shù)據(jù)集到OBS中,具體參考代碼上傳至OBS。 Step1 創(chuàng)建訓(xùn)練任務(wù) 創(chuàng)建訓(xùn)練作業(yè),并自定義名稱、描述等信息。選擇自定義算法,啟動方式自定義,以及選擇上傳的鏡像。 圖1 創(chuàng)建訓(xùn)練作業(yè) 訓(xùn)練作業(yè)啟動命令中輸入: cd /h
AI開發(fā)平臺(ModelArts)服務(wù)等級協(xié)議 打印全部 公告 本服務(wù)等級協(xié)議(以下簡稱“SLA”)是您與華為云簽訂的《華為云用戶協(xié)議》(以下簡稱為“協(xié)議”)的不可分割的組成部分。協(xié)議中定義的術(shù)語在本SLA項(xiàng)下具有相同含義,但本SLA另有定義的情形除外。若本SLA的條款與條件與協(xié)
系統(tǒng)容器異常退出 問題現(xiàn)象 在訓(xùn)練創(chuàng)建后出現(xiàn)“系統(tǒng)容器異常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
用來對語言模型進(jìn)行指令調(diào)優(yōu),使語言模型更好地遵循指令。 預(yù)訓(xùn)練使用的Alpaca數(shù)據(jù)集下載:https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56
訓(xùn)練作業(yè)參數(shù)配置 創(chuàng)建訓(xùn)練作業(yè)參數(shù) 查詢訓(xùn)練作業(yè)參數(shù)列表 更新訓(xùn)練作業(yè)參數(shù) 刪除訓(xùn)練作業(yè)參數(shù) 查詢訓(xùn)練作業(yè)參數(shù)詳情 父主題: 訓(xùn)練管理(舊版)
訓(xùn)練腳本說明 訓(xùn)練啟動腳本說明和參數(shù)配置 訓(xùn)練tokenizer文件說明 斷點(diǎn)續(xù)訓(xùn)和故障快恢說明 父主題: 主流開源大模型基于Standard+OBS適配MindSpeed-LLM PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)
參數(shù)配置說明 MindSpeed-LLM Llama-Factory 父主題: 訓(xùn)練服務(wù)配置說明
[smtp]# If you want airflow to send emails on retries, failure, and you want to use# the airflow.utils.email.send_email_smtp function, you have
準(zhǔn)備數(shù)據(jù) 準(zhǔn)備訓(xùn)練數(shù)據(jù),可以用本案使用的數(shù)據(jù)集,也可以使用自己準(zhǔn)備的數(shù)據(jù)集。 準(zhǔn)備鏡像 準(zhǔn)備訓(xùn)練模型適用的容器鏡像。 執(zhí)行訓(xùn)練任務(wù)(預(yù)訓(xùn)練/微調(diào)) 執(zhí)行訓(xùn)練任務(wù)(推薦) 介紹如何進(jìn)行訓(xùn)練,包括訓(xùn)練數(shù)據(jù)處理、超參配置、訓(xùn)練任務(wù)、性能查看。 查看訓(xùn)練結(jié)果 查看日志和性能 查看訓(xùn)練后的日志,訓(xùn)練的性能結(jié)果。
訓(xùn)練作業(yè)狀態(tài)顯示“審核作業(yè)初始化” 問題現(xiàn)象 當(dāng)創(chuàng)建訓(xùn)練作業(yè)的“算法來源”選擇“自定義”鏡像創(chuàng)建訓(xùn)練作業(yè)時,訓(xùn)練作業(yè)狀態(tài)顯示審核作業(yè)初始化。 原因分析 自定義鏡像首次運(yùn)行時,需要先審核鏡像。 通過審核之后才可創(chuàng)建作業(yè),即當(dāng)前狀態(tài)為審核作業(yè)初始化。 父主題: 業(yè)務(wù)代碼問題
創(chuàng)建訓(xùn)練作業(yè)提示錯誤碼ModelArts.2763 問題現(xiàn)象 創(chuàng)建訓(xùn)練作業(yè)時,提示ModelArts.2763 : 選擇的支持實(shí)例無效,請檢查請求中信息的合法性。 原因分析 用戶選擇的訓(xùn)練規(guī)格資源和算法不匹配。 例如:算法支持的是GP規(guī)格,創(chuàng)建訓(xùn)練作業(yè)時選擇了ASCEND規(guī)格的資源類型。
訓(xùn)練作業(yè)訓(xùn)練失敗報錯:TypeError: unhashable type: ‘list’ 問題現(xiàn)象 使用訂閱算法圖像分類-EfficientNetB4進(jìn)行訓(xùn)練報錯:TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多標(biāo)簽分類導(dǎo)致(即一個圖片用了1個以上的標(biāo)簽)。
SFT全參微調(diào)訓(xùn)練 前提條件 已上傳訓(xùn)練代碼、訓(xùn)練權(quán)重文件和數(shù)據(jù)集到OBS中,具體參考代碼上傳至OBS。 Step1 創(chuàng)建訓(xùn)練任務(wù) 創(chuàng)建訓(xùn)練作業(yè),并自定義名稱、描述等信息。選擇自定義算法,啟動方式自定義,以及選擇上傳的鏡像。 圖1 創(chuàng)建訓(xùn)練作業(yè) 訓(xùn)練作業(yè)啟動命令中輸入: cd /
支持的模型列表 模型列表分為表1 大語言模型列表和表2 多模態(tài)模型列表,詳細(xì)如下。 表1 支持的大語言模型列表和權(quán)重獲取地址 模型系列 訓(xùn)練模型 訓(xùn)練場景 訓(xùn)練框架 支持版本 開源權(quán)重文件獲取地址 DeepSeek系列 DeepSeek-R1-671B 預(yù)訓(xùn)練、微調(diào) MindSpeed-LLM