檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
獲取訓(xùn)練配額 功能介紹 獲取用戶的訓(xùn)練配額。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動(dòng)認(rèn)證鑒權(quán)。API Explorer可以自動(dòng)生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI GET /v2/{project_id}/training-quotas
d-qwenvl-7b中創(chuàng)建文件夾training_data。 利用OBS Browser+工具將步驟1下載的數(shù)據(jù)集上傳至步驟2創(chuàng)建的文件夾目錄下。得到OBS下數(shù)據(jù)集結(jié)構(gòu): obs://standard-qwenvl-7b └── training_data
推理模型量化 使用AWQ量化工具轉(zhuǎn)換權(quán)重 使用SmoothQuant量化工具轉(zhuǎn)換權(quán)重 使用kv-cache-int8量化 使用GPTQ量化 父主題: 主流開(kāi)源大模型基于Standard適配PyTorch NPU推理指導(dǎo)(6.3.911)
訓(xùn)練作業(yè)失敗,如何使用開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼? 在創(chuàng)建訓(xùn)練作業(yè)前,推薦您先使用ModelArts開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼,避免代碼遷移過(guò)程中的錯(cuò)誤。 直接使用線上notebook環(huán)境調(diào)試請(qǐng)參考使用JupyterLab開(kāi)發(fā)模型。 配置本地IDE(Pycharm或者VsCode)聯(lián)接云上環(huán)境調(diào)試請(qǐng)參考使用本地IDE開(kāi)發(fā)模型。
準(zhǔn)備AscendFactory訓(xùn)練代碼、分詞器Tokenizer和推理代、訓(xùn)練數(shù)據(jù),可以用本案使用的數(shù)據(jù)集,也可以使用自己準(zhǔn)備的數(shù)據(jù)集。 準(zhǔn)備鏡像 準(zhǔn)備訓(xùn)練模型適用的容器鏡像。 執(zhí)行訓(xùn)練任務(wù)(預(yù)訓(xùn)練/微調(diào)) 執(zhí)行訓(xùn)練任務(wù) 介紹如何進(jìn)行預(yù)訓(xùn)練,包括訓(xùn)練數(shù)據(jù)處理、超參配置、創(chuàng)建訓(xùn)練任務(wù)及性能查看。
Snt9B23環(huán)境平臺(tái)進(jìn)行模型訓(xùn)練,包含多種訓(xùn)練階段、策略,運(yùn)行環(huán)境適用Lite Server、ModelArts Standard(二選一),客戶根據(jù)實(shí)際選擇,指導(dǎo)用戶高效訓(xùn)練開(kāi)源模型,實(shí)現(xiàn)創(chuàng)新與優(yōu)化。 AscendFactory適配訓(xùn)練階段、策略 表1 適配訓(xùn)練階段、策略 訓(xùn)練框架 預(yù)訓(xùn)練(PT)
Standard(二選一),客戶根據(jù)實(shí)際選擇,指導(dǎo)用戶高效訓(xùn)練開(kāi)源模型,實(shí)現(xiàn)創(chuàng)新與優(yōu)化,其內(nèi)容包括最優(yōu)性能推薦配置、精度和性能驗(yàn)證的benchmark,訓(xùn)練日志管理等。 AscendFactory適配訓(xùn)練階段、策略 表1 適配訓(xùn)練階段、策略 訓(xùn)練框架 預(yù)訓(xùn)練(PT) 強(qiáng)化學(xué)習(xí) 微調(diào)(SFT) GRPO
name}為pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 訓(xùn)練過(guò)程中,訓(xùn)練日志會(huì)在最后的Rank節(jié)點(diǎn)打印。 圖1 打印訓(xùn)練日志 查看性能 訓(xùn)練性能主要通過(guò)訓(xùn)練日志中的2個(gè)指標(biāo)查看,吞吐量和loss收斂情況。 吞吐量(tokens/s/p):global
訓(xùn)練服務(wù)評(píng)測(cè) 介紹如何使用benchmark工具對(duì)訓(xùn)練性能(吞吐)、精度(loss、下游打分)開(kāi)展評(píng)測(cè)對(duì)比,對(duì)比結(jié)果以excel文件呈現(xiàn),方便用戶驗(yàn)證發(fā)布模型的質(zhì)量。評(píng)測(cè)包括以下兩部分: 性能評(píng)測(cè) 精度評(píng)測(cè) 約束限制 訓(xùn)練服務(wù)評(píng)測(cè)目前僅適配了Lite Server環(huán)境部署的微調(diào)(SFT)訓(xùn)練階段。
Standard訓(xùn)練模型 模型訓(xùn)練使用流程 準(zhǔn)備模型訓(xùn)練代碼 準(zhǔn)備模型訓(xùn)練鏡像 創(chuàng)建調(diào)試訓(xùn)練作業(yè) 創(chuàng)建算法 創(chuàng)建生產(chǎn)訓(xùn)練作業(yè)(舊版頁(yè)面) 創(chuàng)建生產(chǎn)訓(xùn)練作業(yè)(新版頁(yè)面) 分布式模型訓(xùn)練 模型訓(xùn)練存儲(chǔ)加速 訓(xùn)練作業(yè)動(dòng)態(tài)路由加速 增量模型訓(xùn)練 自動(dòng)模型優(yōu)化(AutoSearch) 模型訓(xùn)練高可靠性
路徑,在“main.py”中將“project_dir”添加到“sys.path”中,再導(dǎo)入: import os import sys # __file__為獲取當(dāng)前執(zhí)行腳本main.py的絕對(duì)路徑 # os.path.dirname(__file__)獲取main.py的父目錄,即project_dir的絕對(duì)路徑
Session初始化,與使用SDK調(diào)測(cè)單機(jī)訓(xùn)練作業(yè)中的1相同。 準(zhǔn)備訓(xùn)練數(shù)據(jù),與使用SDK調(diào)測(cè)單機(jī)訓(xùn)練作業(yè)中的2相同,唯一的不同在于obs_path參數(shù)是必選的。 準(zhǔn)備訓(xùn)練腳本。 from modelarts.train_params import TrainingFiles code_dir
solve/master/aishell1_test.csv sed -i '1d' aishell1_test.csv sed -i 's/,/ /g' aishell1_test.csv cat aishell1_test.csv | awk -F "/" '{print $5}'
在ModelArts上如何創(chuàng)建引用第三方依賴包的訓(xùn)練作業(yè)? ModelArts支持訓(xùn)練模型過(guò)程中安裝第三方依賴包。在訓(xùn)練代碼目錄下放置“pip-requirements.txt”文件后,在訓(xùn)練啟動(dòng)文件被執(zhí)行前系統(tǒng)會(huì)執(zhí)行如下命令,以安裝用戶指定的Python Packages。 pip
支持訂閱AI Gallery中的算法構(gòu)建模型 訓(xùn)練管理 支持基于不同的數(shù)據(jù),選擇不同規(guī)格的資源池用于模型訓(xùn)練;支持使用以下三種方式開(kāi)發(fā)模型:訂閱算法、自定義算法、自定義鏡像 AI應(yīng)用管理 支持將訓(xùn)練作業(yè)中得到的模型、本地開(kāi)發(fā)的模型部署為AI應(yīng)用,并進(jìn)行統(tǒng)一管理;提供模型轉(zhuǎn)換能力,方便能夠?qū)⒛P筒渴鹪诓煌脑O(shè)備上
vd_eval.sh中的參數(shù) 模型存放的地方,如果根據(jù)第2步的方式保存的模型,設(shè)置如下: CKPT="llama-vid/llama-vid-7b-full-224-video-fps-1" 調(diào)用openai的key,評(píng)估精度時(shí)需要調(diào)用openai,需要填寫正確的key,這個(gè)可能
方案架構(gòu)圖 本架構(gòu)描述了部署開(kāi)源三方大模型訓(xùn)練的整體方案: 架構(gòu)整體主要針對(duì)Lite Server場(chǎng)景下使用開(kāi)源三方大模型給出建議方案,重點(diǎn)關(guān)注模型如何訓(xùn)練以及調(diào)優(yōu)、運(yùn)維等方面。 訓(xùn)練使用Lite Server + SFS Turbo作為基礎(chǔ)設(shè)施進(jìn)行模型部署,申請(qǐng)Lite server資源建議綁定EIP方便公網(wǎng)訪問(wèn)。
AI平臺(tái)咨詢與規(guī)劃服務(wù) 基于華為云AI平臺(tái),結(jié)合客戶業(yè)務(wù)場(chǎng)景,提供AI平臺(tái)規(guī)劃設(shè)計(jì)可行性分析和場(chǎng)景化建??尚行苑治龇?wù)。 工作說(shuō)明書 常見(jiàn)問(wèn)題 計(jì)費(fèi)說(shuō)明 父主題: 咨詢與規(guī)劃
訓(xùn)練腳本說(shuō)明 Yaml配置文件參數(shù)配置說(shuō)明 模型NPU卡數(shù)、梯度累積值取值表 各個(gè)模型訓(xùn)練前文件替換 NPU_Flash_Attn融合算子約束 BF16和FP16說(shuō)明 錄制Profiling 父主題: 主流開(kāi)源大模型基于Lite Server適配LlamaFactory PyTorch
訓(xùn)練準(zhǔn)備工作 準(zhǔn)備Lite Server環(huán)境 準(zhǔn)備軟件包、權(quán)重、訓(xùn)練數(shù)據(jù)集 準(zhǔn)備鏡像 父主題: 主流開(kāi)源大模型基于ModelArts Lite Server適配AscendFactory PyTorch NPU訓(xùn)練指導(dǎo)(New)