檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
950808 轉(zhuǎn) 1
預(yù)約咨詢
工單提交
我有建議
未實名認證
已實名認證
ModelArts模型訓練,俗稱“建?!保竿ㄟ^分析手段、方法和技巧對準備好的數(shù)據(jù)進行探索分析,從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律,為商業(yè)目的提供決策參考。訓練模型的結(jié)果通常是一個或多個機器學習或深度學習模型,模型可以應(yīng)用到新的數(shù)據(jù)中,得到預(yù)測、評價等結(jié)果。
ModelArts模型訓練,俗稱“建?!?,指通過分析手段、方法和技巧對準備好的數(shù)據(jù)進行探索分析,從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律,為商業(yè)目的提供決策參考。訓練模型的結(jié)果通常是一個或多個機器學習或深度學習模型,模型可以應(yīng)用到新的數(shù)據(jù)中,得到預(yù)測、評價等結(jié)果。
針對常見AI引擎,ModelArts提供訓練模式選擇,支持用戶根據(jù)實際場景獲取不同的診斷信息。在訓練作業(yè)創(chuàng)建頁面,支持普通模式、高性能模式和故障診斷模式,默認設(shè)置為普通模式。
主要介紹基于Pytorch引擎的單機多卡數(shù)據(jù)并行訓練、多機多卡數(shù)據(jù)并行訓練。同時,也提供了分布式訓練的適配教程和分布式調(diào)測的代碼示例,可在PyCharm/VSCode/JupyterLab等開發(fā)工具中調(diào)試分布式訓練。
針對AI訓練場景中大模型Checkpoint保存和加載帶來的I/O挑戰(zhàn),華為云提供了基于對象存儲服務(wù)OBS+高性能文件服務(wù)SFS Turbo的AI云存儲解決方案。
ModelArts支持導(dǎo)入本地開發(fā)的算法,格式要求如下:
使用自動學習產(chǎn)生的模型只能在ModelArts上部署上線,無法下載至本地使用。
使用自定義算法或者訂閱算法訓練生成的模型,會存儲至用戶指定的OBS路徑中,供用戶下載。
支持。您可以使用以下三種方式實現(xiàn)圖像分割任務(wù)的訓練。
訓練環(huán)境的當前目錄以及代碼目錄在容器的位置一般通過環(huán)境變量${MA_JOB_DIR}讀取,${MA_JOB_DIR}變量對應(yīng)的實際值是/home/ma-user/modelarts/user-job-dir。
問題分析
創(chuàng)建訓練作業(yè)選擇的代碼目錄有大小和文件個數(shù)限制。
解決方法
將代碼目錄中除代碼以外的文件刪除或存放到其他目錄,保證代碼目錄大小不超過128MB,文件個數(shù)不超過4096個。
ModelArts訓練作業(yè)的程序運行在容器中,容器掛載的目錄地址是唯一的,只有運行時的容器能訪問到。因此訓練作業(yè)的“/cache”是安全的。
在ModelArts管理控制臺,選擇“訓練管理>訓練作業(yè)”,進入訓練作業(yè)列表頁面。在訓練作業(yè)列表中,單擊目標作業(yè)名稱,查看該作業(yè)的詳情。您可以在“資源占用情況”頁簽查看到如下指標信息。
更快的普惠AI平臺
7*24
多渠道服務(wù)支持
備案
提供免費備案服務(wù)
專業(yè)服務(wù)
云業(yè)務(wù)全流程支持
退訂
享無憂退訂服務(wù)
建議反饋
優(yōu)化改進建議
售前咨詢熱線
sales@huaweicloud.com
beian@huaweicloud.com
partner@huaweicloud.com
關(guān)注我們
4000 955 988
950808
華為云微信
掃描二維碼
華為云微信小程序
華為云微博
華為云App
掃描下載華為云App
增值電信業(yè)務(wù)經(jīng)營許可證:B1.B2-20200593 | 域名注冊服務(wù)機構(gòu)許可:黔D3-20230001 | 代理域名注冊服務(wù)機構(gòu):新網(wǎng)、西數(shù)