檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪(fǎng)問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
在ModelArts上如何提升訓(xùn)練效率并減少與OBS的交互? 場(chǎng)景描述 在使用ModelArts進(jìn)行自定義深度學(xué)習(xí)訓(xùn)練時(shí),訓(xùn)練數(shù)據(jù)通常存儲(chǔ)在對(duì)象存儲(chǔ)服務(wù)(OBS)中,且訓(xùn)練數(shù)據(jù)較大時(shí)(如200GB以上),每次都需要使用GP資源池進(jìn)行訓(xùn)練,且訓(xùn)練效率低。 希望提升訓(xùn)練效率,同時(shí)減少與對(duì)象存
在ModelArts訓(xùn)練代碼中,如何獲取依賴(lài)文件所在的路徑? 由于用戶(hù)本地開(kāi)發(fā)的代碼需要上傳至ModelArts后臺(tái),訓(xùn)練代碼中涉及到依賴(lài)文件的路徑時(shí),用戶(hù)設(shè)置有誤的場(chǎng)景較多。因此推薦通用的解決方案:使用os接口得到依賴(lài)文件的絕對(duì)路徑,避免報(bào)錯(cuò)。 以下示例展示如何通過(guò)os接口獲得其他文件夾下的依賴(lài)文件路徑。
在ModelArts Standard上運(yùn)行訓(xùn)練作業(yè)的場(chǎng)景介紹 不同AI模型訓(xùn)練所需要的數(shù)據(jù)量和算力不同,在訓(xùn)練時(shí)選擇合適的存儲(chǔ)及訓(xùn)練方案可提升模型訓(xùn)練效率與資源性?xún)r(jià)比。ModelArts Standard支持單機(jī)單卡、單機(jī)多卡和多機(jī)多卡的訓(xùn)練場(chǎng)景,滿(mǎn)足不同AI模型訓(xùn)練的要求。 ModelArts
權(quán)限問(wèn)題 訓(xùn)練作業(yè)訪(fǎng)問(wèn)OBS時(shí),日志提示“stat:403 reason:Forbidden” 日志提示"Permission denied" 父主題: 訓(xùn)練作業(yè)
/mnt/sfs_turbo 在ECS中設(shè)置ModelArts用戶(hù)可讀權(quán)限 在ModelArts訓(xùn)練平臺(tái)使用自定義鏡像時(shí),默認(rèn)用戶(hù)為ma-user、默認(rèn)用戶(hù)組為ma-group。如果在訓(xùn)練時(shí)調(diào)用ECS中的文件,需要修改文件權(quán)限改為ma-user可讀,否則會(huì)出現(xiàn)Permission denied錯(cuò)誤。
前使用訪(fǎng)問(wèn)密鑰授權(quán)的用戶(hù),建議清空授權(quán),然后使用委托進(jìn)行授權(quán)。 在左側(cè)導(dǎo)航欄中選擇“模型訓(xùn)練 > 訓(xùn)練作業(yè)”,默認(rèn)進(jìn)入“訓(xùn)練作業(yè)”列表。單擊“創(chuàng)建訓(xùn)練作業(yè)”進(jìn)入創(chuàng)建訓(xùn)練作業(yè)頁(yè)面。 在“創(chuàng)建訓(xùn)練作業(yè)”頁(yè)面,填寫(xiě)相關(guān)參數(shù)信息,然后單擊“提交”。 創(chuàng)建方式:選擇“自定義算法”。 啟動(dòng)方式:選擇“自定義”。
建議與總結(jié) 在創(chuàng)建訓(xùn)練作業(yè)前,推薦您先使用ModelArts開(kāi)發(fā)環(huán)境調(diào)試訓(xùn)練代碼,避免代碼遷移過(guò)程中的錯(cuò)誤。 直接使用線(xiàn)上notebook環(huán)境調(diào)試請(qǐng)參考使用JupyterLab開(kāi)發(fā)模型。 配置本地IDE(Pycharm或者VSCode)聯(lián)接云上環(huán)境調(diào)試請(qǐng)參考使用本地IDE開(kāi)發(fā)模型。 父主題:
刪除訓(xùn)練作業(yè) 功能介紹 刪除訓(xùn)練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請(qǐng)通過(guò)查詢(xún)訓(xùn)練作業(yè)列表和查詢(xún)訓(xùn)練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 參數(shù)說(shuō)明如表1所示。 表1 參數(shù)說(shuō)明 參數(shù) 是否必選 參數(shù)類(lèi)型
pth 步驟五:開(kāi)始訓(xùn)練 進(jìn)入SparseDrive源碼目錄,執(zhí)行如下命令進(jìn)行訓(xùn)練。 進(jìn)行8卡訓(xùn)練(精度) bash test/train_full.sh 進(jìn)行8卡訓(xùn)練(性能) bash test/train_performance.sh 進(jìn)行16卡訓(xùn)練(性能) NPUS=16
ckpt的代碼,使能讀取前一次訓(xùn)練保存的預(yù)訓(xùn)練模型。 ModelArts Standard中如何實(shí)現(xiàn)斷點(diǎn)續(xù)訓(xùn)練 在ModelArts Standard訓(xùn)練中實(shí)現(xiàn)斷點(diǎn)續(xù)訓(xùn)練或增量訓(xùn)練,建議使用“訓(xùn)練輸出”功能。 在創(chuàng)建訓(xùn)練作業(yè)時(shí),設(shè)置訓(xùn)練“輸出”參數(shù)為“train_url”,在指定的訓(xùn)練輸出的數(shù)據(jù)存
UM_GPUS”為ModelArts訓(xùn)練容器中預(yù)置的環(huán)境變量。訓(xùn)練容器環(huán)境變量詳細(xì)介紹可參考查看訓(xùn)練容器環(huán)境變量。 run.sh中的OUTPUT_PATH是訓(xùn)練過(guò)程中保存模型權(quán)重、訓(xùn)練配置等中間結(jié)果的路徑。如果訓(xùn)練腳本中“config.TRAIN.AUTO_RESUME”為“Tr
AI平臺(tái)ModelArts資源 AI平臺(tái)ModelArts資源 面向開(kāi)發(fā)者的一站式AI開(kāi)發(fā)平臺(tái),可快速創(chuàng)建和部署模型,管理全周期AI工作流,助力千行百業(yè)智能升級(jí) 面向開(kāi)發(fā)者的一站式AI開(kāi)發(fā)平臺(tái),可快速創(chuàng)建和部署模型,管理全周期AI工作流,助力千行百業(yè)智能升級(jí) 購(gòu)買(mǎi) 控制臺(tái) 文檔 資源與工具
在排查完精度偏差來(lái)源之后發(fā)現(xiàn),Loss最大絕對(duì)偏差減少為0.0003,Loss結(jié)果對(duì)齊。 需要注意訓(xùn)練引入隨機(jī)性的目的是為了增加結(jié)果的魯棒性,理論上不會(huì)對(duì)訓(xùn)練模型的收斂與否造成影響。 此處做隨機(jī)性固定主要的目的是為了訓(xùn)練結(jié)果可完全復(fù)現(xiàn),從而實(shí)現(xiàn)NPU和標(biāo)桿的精度對(duì)齊。 父主題: 精度對(duì)齊
在ModelArts訓(xùn)練作業(yè)中如何判斷文件夾是否復(fù)制完畢? 您可以在訓(xùn)練作業(yè)啟動(dòng)文件的腳本中,通過(guò)如下方式獲取復(fù)制和被復(fù)制文件夾大小,根據(jù)結(jié)果判斷是否復(fù)制完畢: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file'
分布式訓(xùn)練? ModelArts會(huì)幫用戶(hù)生成RANK_TABLE_FILE文件,可通過(guò)環(huán)境變量查看文件位置。 在Notebook中打開(kāi)terminal,可以運(yùn)行如下命令查看RANK_TABLE_FILE: 1 env | grep RANK 在訓(xùn)練作業(yè)中,您可以在訓(xùn)練啟動(dòng)腳本
各個(gè)模型訓(xùn)練前文件替換 在訓(xùn)練開(kāi)始前,因模型權(quán)重文件可能與訓(xùn)練框架不匹配或有優(yōu)化,因此需要針對(duì)模型的tokenizer文件進(jìn)行修改或替換,不同模型的tokenizer文件修改內(nèi)容如下。 falcon-11B模型 在訓(xùn)練開(kāi)始前,針對(duì)falcon-11B模型中的tokenizer文件
創(chuàng)建訓(xùn)練作業(yè) 功能介紹 創(chuàng)建一個(gè)訓(xùn)練作業(yè)。 該接口為異步接口,作業(yè)狀態(tài)請(qǐng)通過(guò)查詢(xún)訓(xùn)練作業(yè)列表和查詢(xún)訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs 參數(shù)說(shuō)明如表1所示。 表1 參數(shù)說(shuō)明 參數(shù) 是否必選 參數(shù)類(lèi)型 說(shuō)明 project_id
像機(jī)。 在首頁(yè)導(dǎo)航欄,進(jìn)入“模型訓(xùn)練”頁(yè)面(選擇攝像機(jī)型號(hào)后,模型訓(xùn)練自動(dòng)解鎖),單擊“華為訓(xùn)練云服務(wù)”進(jìn)入ModelArts模型訓(xùn)練平臺(tái)。如果開(kāi)發(fā)者有自己訓(xùn)練好的模型, 不需要進(jìn)入該步驟。 其中, ModelArts是面向開(kāi)發(fā)者的一站式AI開(kāi)發(fā)平臺(tái),屬于華為云解決方案,需要按照華為云市場(chǎng)要求進(jìn)行注冊(cè)與使用。
文件夾保存 stage1 訓(xùn)練的日志,output2/0 文件夾保存 stage2 訓(xùn)練的日志。 性能訓(xùn)練與評(píng)估。 默認(rèn)使用 8 卡訓(xùn)練與評(píng)估,執(zhí)行訓(xùn)練指令。 # 執(zhí)行訓(xùn)練腳本 bash test/train_performance.sh 使用 16 卡進(jìn)行性能訓(xùn)練與評(píng)估。 在 test/train_performance
UniAD模型基于ModelArts Lite Server適配PyTorch NPU訓(xùn)練指導(dǎo) 方案概覽 本方案介紹了在ModelArts Lite Server上使用昇騰計(jì)算資源Snt9B或Snt9B23開(kāi)展Uniad模型的訓(xùn)練過(guò)程。 UniAD是一個(gè)遵循面向規(guī)劃理念的統(tǒng)一自動(dòng)