檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
訓練作業(yè) 創(chuàng)建訓練作業(yè) 訓練作業(yè)調(diào)測 查詢訓練作業(yè)列表 查詢訓練作業(yè)詳情 更新訓練作業(yè)描述 刪除訓練作業(yè) 終止訓練作業(yè) 查詢訓練日志 查詢訓練作業(yè)的運行指標 父主題: 訓練管理
訓練作業(yè) OBS操作相關故障 云上遷移適配故障 硬盤限制故障 外網(wǎng)訪問限制 權限問題 GP相關問題 業(yè)務代碼問題 預置算法運行故障 訓練作業(yè)卡死 訓練作業(yè)運行失敗 專屬資源池創(chuàng)建訓練作業(yè) 訓練作業(yè)性能問題 Ascend相關問題
獲取訓練作業(yè)支持的AI預置框架 功能介紹 獲取訓練作業(yè)支持的AI預置框架。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認證鑒權。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI GET /v2/{project_id}/
管理訓練實驗 訓練實驗 當訓練作業(yè)的數(shù)量較多時,可能會遇到難以快速定位作業(yè)或不便跟蹤的情況。為了便于管理訓練作業(yè),我們引入了訓練實驗的概念,類似于對訓練作業(yè)進行分組管理。用戶可以根據(jù)需求將作業(yè)歸類到不同的訓練實驗中,實現(xiàn)分類管理。每個訓練實驗可以包含多個同類型的作業(yè)。 在管理訓練實
訓練作業(yè)性能問題 訓練作業(yè)性能降低 父主題: 訓練作業(yè)
會話對象,初始化方法請參考Session鑒權。 job_id 是 String 訓練作業(yè)的id,可通過創(chuàng)建訓練作業(yè)生成的訓練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓練作業(yè)列表的響應中獲得。 無成功響應參數(shù)。 表2 調(diào)用訓練接口失敗響應參數(shù) 參數(shù) 類型 描述 error_msg
刪除訓練作業(yè) 功能介紹 刪除訓練作業(yè)接口用于從ModelArts平臺上移除已創(chuàng)建的訓練作業(yè)。 該接口適用于以下場景:當用戶需要清理已完成或不再需要的訓練作業(yè)時,可以通過此接口刪除指定的訓練作業(yè)。使用該接口的前提條件是訓練作業(yè)已存在且用戶具有刪除訓練作業(yè)的權限。刪除操作完成后,訓練
Studio(MaaS)調(diào)優(yōu)模型 在ModelArts Studio大模型即服務平臺支持對模型廣場的預置模型或用戶自建的模型進行調(diào)優(yōu),通過多種訓練方法(如全參微調(diào)、增量預訓練等)優(yōu)化模型性能,從而獲得更符合業(yè)務需求的模型。 場景描述 從模型廣場或“我的模型”中選擇一個模型進行調(diào)優(yōu),當模型完成調(diào)優(yōu)作
Shell的權限,完成配置。 在ModelArts管理控制臺的左側(cè)導航欄中選擇“模型訓練 > 訓練作業(yè)”。 在訓練作業(yè)列表中,單擊作業(yè)名稱進入訓練作業(yè)詳情頁面。 在訓練作業(yè)詳情頁面,單擊“Cloud Shell”頁簽,登錄訓練容器。 連接成功后,Cloud Shell界面提示如下。 圖1 Cloud
如何在ModelArts訓練作業(yè)中加載部分訓練好的參數(shù)? 在訓練作業(yè)時,需要從預訓練的模型中加載部分參數(shù),初始化當前模型。請您通過如下方式加載: 通過如下代碼,您可以查看所有的參數(shù)。 from moxing.tensorflow.utils.hyper_param_flags import
如何獲取ModelArts訓練容器中的文件實際路徑? 如果容器中的文件實際路徑不清楚,可以使用Python獲取當前文件路徑的方法獲取。 os.getcwd() #獲取文件當前工作目錄路徑(絕對路徑) os.path.realpath(__ file __) #獲得文件所在的路徑(絕對路徑)
訓練作業(yè)卡死重啟 當長穩(wěn)的訓練作業(yè)正常運行一段時間后,如果訓練作業(yè)沒有硬件故障,出現(xiàn)卡死時,重啟訓練作業(yè)即可恢復正常。但是,由于訓練作業(yè)卡死時無法自動結(jié)束容器,因此無法使用自動重啟功能,只能設置作業(yè)卡死重啟。當訓練作業(yè)設置為作業(yè)卡死重啟時,ModelArts會在作業(yè)運行過程中檢測
精度對齊 長訓Loss比對結(jié)果 使用Msprobe工具分析偏差 Loss對齊結(jié)果 父主題: 案例:Dit模型訓練遷移
共資源池存在)。 main_container_allocated_resources MainContainerAllocatedResources object 訓練作業(yè)訓練容器實際到手的資源規(guī)格。 表43 FlavorDetail 參數(shù) 參數(shù)類型 描述 flavor_type
訓練作業(yè)卡死檢測 什么是訓練作業(yè)卡死檢測 訓練作業(yè)在運行中可能會因為某些未知原因?qū)е伦鳂I(yè)卡死,如果不能及時發(fā)現(xiàn),就會導致無法及時釋放資源,從而造成極大的資源浪費。為了節(jié)省訓練資源成本,提高使用體驗,ModelArts提供了卡死檢測功能,能自動識別作業(yè)是否卡死,并在日志詳情界面上展
AI開發(fā)平臺 AI開發(fā)平臺連接器用于對接華為云ModelArts云服務。 ModelArts是面向開發(fā)者的一站式AI開發(fā)平臺,為機器學習與深度學習提供海量數(shù)據(jù)預處理及半自動化標注、大規(guī)模分布式Training、自動化模型生成,及端-邊-云模型按需部署能力,幫助用戶快速創(chuàng)建和部署模型,管理全周期AI工作流。
會話對象,初始化方法請參考Session鑒權。 job_id 是 String 訓練作業(yè)的id,可通過創(chuàng)建訓練作業(yè)生成的訓練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓練作業(yè)列表的響應中獲得。 表2 update_job_configs請求參數(shù)說明 參數(shù)
ckpt恢復中斷的訓練 在容錯機制下,如果因為硬件問題導致訓練作業(yè)重啟,用戶可以在代碼中讀取預訓練模型,恢復至重啟前的訓練狀態(tài)。用戶需要在代碼里加上reload ckpt的代碼,使能讀取訓練中斷前保存的預訓練模型。具體請參見斷點續(xù)訓練。 查看容錯與恢復詳情 當訓練作業(yè)發(fā)生故障恢復時(
在ModelArts訓練時如何安裝C++的依賴庫? 在訓練作業(yè)的過程中,會使用到第三方庫。以C++為例,請參考如下操作步驟進行安裝: 將源碼下載至本地并上傳到OBS。使用OBS客戶端上傳文件的操作請參見上傳文件。 將上傳到OBS的源碼使用Moxing復制到開發(fā)環(huán)境Notebook中。
當您使用自定義腳本創(chuàng)建算法的時候,如果您的模型引用了其他依賴,您需要在“算法管理 > 創(chuàng)建算法”的“代碼目錄”下放置相應的文件或安裝包。 安裝python依賴包請參考模型中引用依賴包時,如何創(chuàng)建訓練作業(yè)? 安裝C++的依賴庫請參考如何安裝C++的依賴庫? 在預訓練模型中加載參數(shù)請參考如何在訓練中加載部分訓練好的參數(shù)?