檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
IntellIj平臺同時支撐包括Goland、Pycharm等在內(nèi)的IDE,若在其它相關IDE上開發(fā),請下載配置好對應語言的編譯器或者解釋器。 這里以IDEA為例介紹IntelliJ平臺插件的安裝流程,其他IntelliJ系列的IDE請參考IDEA。
訓練評測 工具介紹及準備工作 訓練性能測試 訓練精度測試 父主題: 主流開源大模型基于Lite Server適配MindSpeed-LLM PyTorch NPU訓練指導(6.5.901)
運行訓練作業(yè)時提示URL連接超時 問題現(xiàn)象 訓練作業(yè)在運行時提示URL連接超時,具體報錯如下: urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析 由于安全性問題在ModelArts上不能聯(lián)網(wǎng)下載。
Terminal日志信息的概覽建議。 包含Detail信息及修改示例的HTML信息。 按照建議信息做如下修改: 親和優(yōu)化器使能,在train.py中修改優(yōu)化器為apex混合精度模式下的DDP優(yōu)化方式(修改點:注釋第161和167行,增加第168~170行)。 二進制調(diào)優(yōu)使能,減少算子編譯耗時,在train.py頭文件導入之后添加
log_dir/xx.log #保存訓練日志 訓練后的產(chǎn)物路徑說明如下。 # 日志路徑: 指定${log_dir} # 訓練輸出權重路徑: {container_work_dir}/Qwen-VL/output_qwen 訓練過程中,訓練日志會在最后的Rank節(jié)點打印。 日志里
D-Plan AI 生態(tài)伙伴計劃 D-Plan AI 生態(tài)伙伴計劃 D-Plan AI 生態(tài)伙伴計劃是圍繞華為云一站式AI開發(fā)平臺ModelArts推出的一項合作伙伴計劃,旨在與合作伙伴一起構建合作共贏的AI生態(tài)體系,加速AI應用落地,華為云向伙伴提供培訓、技術、營銷和銷售的全面支持。
√ √ 更新訓練作業(yè) PUT /v2/{project_id}/training-jobs/{training_job_id} modelarts:trainJob:update - √ √ 刪除訓練作業(yè) DELETE /v2/{project_id}/training-jobs/{training_job_id}
d-qwenvl-7b中創(chuàng)建文件夾training_data。 利用OBS Browser+工具將步驟1下載的數(shù)據(jù)集上傳至步驟2創(chuàng)建的文件夾目錄下。得到OBS下數(shù)據(jù)集結構: obs://standard-qwenvl-7b └── training_data
它基于一個預先訓練好的模型,通過調(diào)整模型的參數(shù),使其能夠更好地擬合特定任務的數(shù)據(jù)分布。 與從頭開始訓練模型相比,監(jiān)督式微調(diào)能夠充分利用預訓練模型的知識和特征表示,從而加速訓練過程并提高模型的性能。 訓練階段下有不同的訓練策略,分為全參數(shù)訓練、部分參數(shù)訓練、LoRA、QLoRA,本文檔主要支持全參數(shù)(Full)和LoRA、LoRA+。
co/stabilityai/stable-diffusion-3.5-large/tree/main(需登錄) 步驟三:安裝依賴 進入容器中/home/ma-user/aigc_train/torch_npu/sd35路徑下。 cd /home/ma-user/aigc_train/torch_npu/sd35
index=False) Step7 VAE訓練 vae訓練分為3個階段,后兩次訓練根據(jù)其前一次訓練的結果繼續(xù)訓練。 第一階段訓練 torchrun --nnodes=1 --nproc_per_node=8 train_vae.py configs/vae/train/stage1.py --data-path
訓練benchmark工具 工具介紹及準備工作 訓練性能測試 訓練精度測試 父主題: 主流開源大模型基于Lite Server適配LlamaFactory PyTorch NPU訓練指導(6.5.901)
準備AscendFactory訓練代碼、分詞器Tokenizer和推理代、訓練數(shù)據(jù),可以用本案使用的數(shù)據(jù)集,也可以使用自己準備的數(shù)據(jù)集。 準備鏡像 準備訓練模型適用的容器鏡像。 執(zhí)行訓練任務(預訓練/微調(diào)) 執(zhí)行訓練任務 介紹如何進行預訓練,包括訓練數(shù)據(jù)處理、超參配置、創(chuàng)建訓練任務及性能查看。
準備工作 準備資源 準備權重 準備代碼 準備鏡像 準備Notebook 父主題: 主流開源大模型基于Standard適配PyTorch NPU推理指導(6.3.911)
-a -G root ma-user 其他現(xiàn)象,可以在已有的訓練故障案例查找。 建議與總結 用戶使用自定義鏡像訓練作業(yè)時,建議按照訓練作業(yè)自定義鏡像規(guī)范制作鏡像。文檔中同時提供了端到端的示例供用戶參考。 父主題: 訓練作業(yè)運行失敗
Snt9B23環(huán)境平臺進行模型訓練,包含多種訓練階段、策略,運行環(huán)境適用Lite Server、ModelArts Standard(二選一),客戶根據(jù)實際選擇,指導用戶高效訓練開源模型,實現(xiàn)創(chuàng)新與優(yōu)化。 AscendFactory適配訓練階段、策略 表1 適配訓練階段、策略 訓練框架 預訓練(PT)
規(guī)格接口獲取引擎規(guī)格ID。 train_url 否 String 訓練作業(yè)的輸出文件OBS路徑URL,默認為空,如“/usr/train/”。 log_url 否 String 訓練作業(yè)的日志OBS輸出路徑URL,默認為空。如:“/usr/train/”。 user_image_url
推理模型量化 使用AWQ量化工具轉換權重 使用SmoothQuant量化工具轉換權重 使用kv-cache-int8量化 使用GPTQ量化 父主題: 主流開源大模型基于Standard適配PyTorch NPU推理指導(6.3.911)
Standard(二選一),客戶根據(jù)實際選擇,指導用戶高效訓練開源模型,實現(xiàn)創(chuàng)新與優(yōu)化,其內(nèi)容包括最優(yōu)性能推薦配置、精度和性能驗證的benchmark,訓練日志管理等。 AscendFactory適配訓練階段、策略 表1 適配訓練階段、策略 訓練框架 預訓練(PT) 強化學習 微調(diào)(SFT) GRPO
訓練服務評測 介紹如何使用benchmark工具對訓練性能(吞吐)、精度(loss、下游打分)開展評測對比,對比結果以excel文件呈現(xiàn),方便用戶驗證發(fā)布模型的質(zhì)量。評測包括以下兩部分: 性能評測 精度評測 約束限制 訓練服務評測目前僅適配了Lite Server環(huán)境部署的微調(diào)(SFT)訓練階段。