檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
在ModelArts上如何提升訓(xùn)練效率并減少與OBS的交互? 場景描述 在使用ModelArts進(jìn)行自定義深度學(xué)習(xí)訓(xùn)練時(shí),訓(xùn)練數(shù)據(jù)通常存儲在對象存儲服務(wù)(OBS)中,且訓(xùn)練數(shù)據(jù)較大時(shí)(如200GB以上),每次都需要使用GP資源池進(jìn)行訓(xùn)練,且訓(xùn)練效率低。 希望提升訓(xùn)練效率,同時(shí)減少與對象存
在ModelArts訓(xùn)練代碼中,如何獲取依賴文件所在的路徑? 由于用戶本地開發(fā)的代碼需要上傳至ModelArts后臺,訓(xùn)練代碼中涉及到依賴文件的路徑時(shí),用戶設(shè)置有誤的場景較多。因此推薦通用的解決方案:使用os接口得到依賴文件的絕對路徑,避免報(bào)錯(cuò)。 以下示例展示如何通過os接口獲得其他文件夾下的依賴文件路徑。
/mnt/sfs_turbo 在ECS中設(shè)置ModelArts用戶可讀權(quán)限 在ModelArts訓(xùn)練平臺使用自定義鏡像時(shí),默認(rèn)用戶為ma-user、默認(rèn)用戶組為ma-group。如果在訓(xùn)練時(shí)調(diào)用ECS中的文件,需要修改文件權(quán)限改為ma-user可讀,否則會出現(xiàn)Permission denied錯(cuò)誤。
創(chuàng)建訓(xùn)練作業(yè) 功能介紹 創(chuàng)建一個(gè)訓(xùn)練作業(yè)。 該接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id
pth 步驟五:開始訓(xùn)練 進(jìn)入SparseDrive源碼目錄,執(zhí)行如下命令進(jìn)行訓(xùn)練。 進(jìn)行8卡訓(xùn)練(精度) bash test/train_full.sh 進(jìn)行8卡訓(xùn)練(性能) bash test/train_performance.sh 進(jìn)行16卡訓(xùn)練(性能) NPUS=16
在ModelArts訓(xùn)練作業(yè)中如何判斷文件夾是否復(fù)制完畢? 您可以在訓(xùn)練作業(yè)啟動文件的腳本中,通過如下方式獲取復(fù)制和被復(fù)制文件夾大小,根據(jù)結(jié)果判斷是否復(fù)制完畢: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file'
分布式訓(xùn)練? ModelArts會幫用戶生成RANK_TABLE_FILE文件,可通過環(huán)境變量查看文件位置。 在Notebook中打開terminal,可以運(yùn)行如下命令查看RANK_TABLE_FILE: 1 env | grep RANK 在訓(xùn)練作業(yè)中,您可以在訓(xùn)練啟動腳本
在排查完精度偏差來源之后發(fā)現(xiàn),Loss最大絕對偏差減少為0.0003,Loss結(jié)果對齊。 需要注意訓(xùn)練引入隨機(jī)性的目的是為了增加結(jié)果的魯棒性,理論上不會對訓(xùn)練模型的收斂與否造成影響。 此處做隨機(jī)性固定主要的目的是為了訓(xùn)練結(jié)果可完全復(fù)現(xiàn),從而實(shí)現(xiàn)NPU和標(biāo)桿的精度對齊。 父主題: 精度對齊
UM_GPUS”為ModelArts訓(xùn)練容器中預(yù)置的環(huán)境變量。訓(xùn)練容器環(huán)境變量詳細(xì)介紹可參考查看訓(xùn)練容器環(huán)境變量。 run.sh中的OUTPUT_PATH是訓(xùn)練過程中保存模型權(quán)重、訓(xùn)練配置等中間結(jié)果的路徑。如果訓(xùn)練腳本中“config.TRAIN.AUTO_RESUME”為“Tr
秉持以客戶為中心的服務(wù)理念,專注解決客戶業(yè)務(wù)的痛點(diǎn)問題 服務(wù)內(nèi)容 AI平臺架構(gòu)規(guī)劃服務(wù) 基于客戶業(yè)務(wù)場景的需求分析,提供AI平臺的規(guī)劃設(shè)計(jì)可行性分析服務(wù),包含ModelArts的訓(xùn)練或推理方案咨詢 AI平臺場景化建模方案規(guī)劃服務(wù) 基于客戶業(yè)務(wù)場景的需求分析,提供AI平臺的場景化建??尚行苑治龇?wù) 服務(wù)流程 提交服務(wù)申請
原因:Moxing在進(jìn)行文件復(fù)制時(shí),未找到train_data_obs目錄。 處理建議:修改train_data_obs目錄為正確地址,重新啟動訓(xùn)練作業(yè)。 另外在Moxing下載OBS對象過程中,不要?jiǎng)h除相應(yīng)OBS目錄下的對象,否則Moxing在下載到被刪除的對象時(shí)會下載失敗。 查看訓(xùn)練作業(yè)的“日志”,出現(xiàn)報(bào)錯(cuò)“CUDA
訓(xùn)練作業(yè)的日志出現(xiàn)detect failed(昇騰預(yù)檢失?。?問題現(xiàn)象 訓(xùn)練啟動的日志出現(xiàn)如下相關(guān)錯(cuò)誤: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed
如何將在ModelArts中訓(xùn)練好的模型下載或遷移到其他賬號? 通過訓(xùn)練作業(yè)訓(xùn)練好的模型可以下載,然后將下載的模型上傳存儲至其他賬號對應(yīng)區(qū)域的OBS中。 獲取模型下載路徑 登錄ModelArts管理控制臺,在左側(cè)導(dǎo)航欄中選擇“模型訓(xùn)練 > 訓(xùn)練作業(yè)”,進(jìn)入“訓(xùn)練作業(yè)”列表。 在訓(xùn)練作業(yè)列表中,單擊目標(biāo)訓(xùn)練作業(yè)名稱,查看該作業(yè)的詳情。
文件夾保存 stage1 訓(xùn)練的日志,output2/0 文件夾保存 stage2 訓(xùn)練的日志。 性能訓(xùn)練與評估。 默認(rèn)使用 8 卡訓(xùn)練與評估,執(zhí)行訓(xùn)練指令。 # 執(zhí)行訓(xùn)練腳本 bash test/train_performance.sh 使用 16 卡進(jìn)行性能訓(xùn)練與評估。 在 test/train_performance
查詢訓(xùn)練作業(yè)鏡像保存任務(wù) 功能介紹 查詢訓(xùn)練作業(yè)鏡像保存任務(wù)接口用于獲取ModelArts平臺上指定訓(xùn)練作業(yè)的鏡像保存任務(wù)信息。 該接口適用于以下場景:當(dāng)用戶需要查看特定訓(xùn)練作業(yè)的鏡像保存任務(wù)狀態(tài)時(shí),可以通過此接口獲取任務(wù)信息。使用該接口的前提條件是用戶已知訓(xùn)練作業(yè)ID,并具有查
查詢訓(xùn)練作業(yè)日志 功能介紹 按行來查詢訓(xùn)練作業(yè)日志詳細(xì)信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 參數(shù)說明如表1所示。 表1 路徑參數(shù) 參數(shù) 是否必選 參數(shù)類型
UniAD模型基于ModelArts Lite Server適配PyTorch NPU訓(xùn)練指導(dǎo) 方案概覽 本方案介紹了在ModelArts Lite Server上使用昇騰計(jì)算資源Snt9B或Snt9B23開展Uniad模型的訓(xùn)練過程。 UniAD是一個(gè)遵循面向規(guī)劃理念的統(tǒng)一自動
停止訓(xùn)練作業(yè)版本 功能介紹 停止訓(xùn)練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 參數(shù)說明如表1所示。
PointPillar模型基于ModelArts Lite Server適配PyTorch NPU訓(xùn)練指導(dǎo) 方案概覽 PointPillar是一種高效的三維目標(biāo)檢測模型,專為自動駕駛場景設(shè)計(jì),其核心創(chuàng)新在于將點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為偽圖像,再利用成熟的2D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,實(shí)現(xiàn)了速度與精度的平衡,尤其適合實(shí)時(shí)自動駕駛系統(tǒng)。
OpenVLA模型基于ModelArts Lite Server適配PyTorch NPU訓(xùn)練指導(dǎo) 方案概覽 OpenVLA (Open-Source Vision-Language-Action Model) 是一個(gè)簡潔且可拓展的視覺語言動作模型訓(xùn)練與微調(diào)代碼庫。其構(gòu)建于Prismatic