檢測到您已登錄華為云國際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
視頻生成模型訓(xùn)練推理 Wan系列視頻生成模型基于Lite Server適配Pytorch NPU的推理指導(dǎo)(6.5.907) Wan2.1系列、HunyuanVideo和Cogvideo視頻生成模型基于Lite Server適配Pytorch NPU的推理指導(dǎo)(6.5.906) Wan2
內(nèi)容審核模型訓(xùn)練推理 Bert基于Lite Server適配MindSpore Lite推理指導(dǎo)(6.3.910) Yolov8基于Lite Server適配MindSpore Lite推理指導(dǎo)(6.3.909) Paraformer基于Lite Server適配PyTorch NPU推理指導(dǎo)(6
增量模型訓(xùn)練 什么是增量訓(xùn)練 增量訓(xùn)練(Incremental Learning)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種訓(xùn)練方法,它允許人工智能(AI)模型在已經(jīng)學(xué)習(xí)了一定知識(shí)的基礎(chǔ)上,增加新的訓(xùn)練數(shù)據(jù)到當(dāng)前訓(xùn)練流程中,擴(kuò)展當(dāng)前模型的知識(shí)和能力,而不需要從頭開始。 增量訓(xùn)練不需要一次性存儲(chǔ)所有的
Server適配PyTorch NPU的訓(xùn)練指導(dǎo)(6.5.901) Hunyuan-DiT基于Lite Server部署適配PyTorch NPU推理指導(dǎo)(6.3.909) Open-Clip基于Lite Server適配PyTorch NPU訓(xùn)練指導(dǎo) AIGC工具tailor使用指導(dǎo)
指定查詢的排序方式,默認(rèn)是根據(jù)引擎查找“engine”,目前支持的排序還有模型名稱“model_name”,“model_precision”模型用途“model_usage”,模型精度描述“model_precision”,模型大小“model_size”,模型創(chuàng)建時(shí)間“create_time”,運(yùn)行參數(shù)“parameter”。
tputs/train_url_0" train_url = args.train_url # 判斷輸出路徑中是否有模型文件。如果無文件則默認(rèn)從頭訓(xùn)練,如果有模型文件,則加載epoch值最大的ckpt文件當(dāng)做預(yù)訓(xùn)練模型。 if os.listdir(train_url):
7-aarch64-snt3p 構(gòu)建自定義訓(xùn)練鏡像 圖1 訓(xùn)練作業(yè)的自定義鏡像制作流程 場景一:預(yù)置鏡像滿足ModelArts訓(xùn)練平臺(tái)約束,但不滿足代碼依賴的要求,需要額外安裝軟件包。 具體案例參考使用預(yù)置鏡像制作自定義鏡像用于訓(xùn)練模型。 場景二:已有本地鏡像滿足代碼依賴的要求,
PyTorch NPU訓(xùn)練指導(dǎo)(6.5.902) 主流開源大模型基于Lite Server適配LlamaFactory PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901) 主流開源大模型基于Lite Server適配MindSpeed-LLM PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)
ModelArts Studio(MaaS)模型訓(xùn)練 使用ModelArts Studio(MaaS)調(diào)優(yōu)模型
查詢訓(xùn)練作業(yè)指定任務(wù)的運(yùn)行指標(biāo) 功能介紹 查詢訓(xùn)練作業(yè)指定任務(wù)的運(yùn)行指標(biāo)接口用于獲取ModelArts平臺(tái)上指定訓(xùn)練作業(yè)任務(wù)的運(yùn)行指標(biāo)。 該接口適用于以下場景:當(dāng)用戶需要查看特定訓(xùn)練任務(wù)的性能指標(biāo)時(shí),可以通過此接口獲取運(yùn)行指標(biāo)。使用該接口的前提條件是用戶已知訓(xùn)練作業(yè)ID和任務(wù)ID
A/training/,訓(xùn)練代碼會(huì)被自動(dòng)下載至${MA_JOB_DIR}/training/。 假設(shè)訓(xùn)練代碼的OBS目錄為obs://bucket-A/XXX/{training-project}/,“{training-project}”是存放訓(xùn)練代碼的文件夾名稱。訓(xùn)練時(shí)會(huì)自動(dòng)
準(zhǔn)備模型訓(xùn)練代碼 預(yù)置框架啟動(dòng)文件的啟動(dòng)流程說明 開發(fā)用于預(yù)置框架訓(xùn)練的代碼 開發(fā)用于自定義鏡像訓(xùn)練的代碼 自定義鏡像訓(xùn)練作業(yè)配置實(shí)例間SSH免密互信 父主題: 使用ModelArts Standard訓(xùn)練模型
模型訓(xùn)練必備要素包括訓(xùn)練代碼、訓(xùn)練框架、訓(xùn)練數(shù)據(jù)。 訓(xùn)練代碼包含訓(xùn)練作業(yè)的啟動(dòng)文件或啟動(dòng)命令、訓(xùn)練依賴包等內(nèi)容。 當(dāng)使用預(yù)置框架創(chuàng)建訓(xùn)練作業(yè)時(shí),訓(xùn)練代碼的開發(fā)規(guī)范可以參考開發(fā)用于預(yù)置框架訓(xùn)練的代碼。 當(dāng)使用自定義鏡像創(chuàng)建訓(xùn)練作業(yè)時(shí),訓(xùn)練代碼的開發(fā)規(guī)范可以參考開發(fā)用于自定義鏡像訓(xùn)練的代碼。
訓(xùn)練日志包括普通訓(xùn)練日志和Ascend相關(guān)日志。 普通日志說明:當(dāng)使用Ascend之外的資源訓(xùn)練時(shí)僅產(chǎn)生普通訓(xùn)練日志,普通日志中包含訓(xùn)練進(jìn)程日志、pip-requirement.txt安裝日志和ModelArts平臺(tái)日志。 Ascend場景日志說明:使用Ascend資源訓(xùn)練時(shí)會(huì)產(chǎn)
用戶還可以創(chuàng)建訓(xùn)練作業(yè)的數(shù)量。 jobs jobs結(jié)構(gòu)數(shù)組 訓(xùn)練作業(yè)的屬性列表,具體請(qǐng)參見表4。 quotas Integer 訓(xùn)練作業(yè)的運(yùn)行數(shù)量上限。 表4 jobs屬性列表 參數(shù) 參數(shù)類型 說明 job_id Long 訓(xùn)練作業(yè)的ID。 job_name String 訓(xùn)練作業(yè)的名稱。
外網(wǎng)訪問限制 日志提示“ Network is unreachable” 運(yùn)行訓(xùn)練作業(yè)時(shí)提示URL連接超時(shí) 父主題: 訓(xùn)練作業(yè)
快速查找訓(xùn)練作業(yè)。 在“訓(xùn)練作業(yè)”列表中,單擊作業(yè)名稱,進(jìn)入訓(xùn)練作業(yè)詳情頁。 在訓(xùn)練作業(yè)詳情頁的左側(cè),可以查看此次訓(xùn)練作業(yè)的基本信息和算法配置的相關(guān)信息。 訓(xùn)練作業(yè)基本信息 表1 訓(xùn)練作業(yè)基本信息 參數(shù) 說明 “作業(yè)ID” 訓(xùn)練作業(yè)唯一標(biāo)識(shí)。 “作業(yè)狀態(tài)” 訓(xùn)練作業(yè)狀態(tài)。 說明:
訓(xùn)練作業(yè)創(chuàng)建失敗報(bào)錯(cuò): 準(zhǔn)備階段超時(shí)??赡茉蚴强鐓^(qū)域算法同步或者創(chuàng)建共享存儲(chǔ)超時(shí) 訓(xùn)練作業(yè)已排隊(duì),正在等待資源分配 訓(xùn)練作業(yè)排隊(duì)失敗 訓(xùn)練作業(yè)開始運(yùn)行 訓(xùn)練作業(yè)運(yùn)行成功 訓(xùn)練作業(yè)運(yùn)行失敗 訓(xùn)練作業(yè)被搶占 系統(tǒng)檢測到您的作業(yè)疑似卡死,請(qǐng)及時(shí)前往作業(yè)詳情界面查看并處理 訓(xùn)練作業(yè)已重啟
查看訓(xùn)練作業(yè)標(biāo)簽 通過給訓(xùn)練作業(yè)添加標(biāo)簽,可以標(biāo)識(shí)云資源,便于快速搜索訓(xùn)練作業(yè)。 在ModelArts管理控制臺(tái)的左側(cè)導(dǎo)航欄中選擇“模型訓(xùn)練 > 訓(xùn)練作業(yè)”。 在訓(xùn)練作業(yè)列表中,單擊作業(yè)名稱進(jìn)入訓(xùn)練作業(yè)詳情頁面。 在訓(xùn)練作業(yè)詳情頁面,單擊“標(biāo)簽”頁簽查看標(biāo)簽信息。 支持添加、修改
管理模型訓(xùn)練作業(yè) 查看訓(xùn)練作業(yè)詳情 訓(xùn)練作業(yè)流程可視化 查看訓(xùn)練作業(yè)資源占用情況 查看模型評(píng)估結(jié)果 查看訓(xùn)練作業(yè)事件 查看訓(xùn)練作業(yè)日志 修改訓(xùn)練作業(yè)優(yōu)先級(jí) 使用Cloud Shell調(diào)試生產(chǎn)訓(xùn)練作業(yè) 保存調(diào)試模式訓(xùn)練作業(yè)鏡像 復(fù)制、停止或刪除訓(xùn)練作業(yè) 管理訓(xùn)練容器環(huán)境變量 查看訓(xùn)練作業(yè)標(biāo)簽