檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
項(xiàng)目實(shí)習(xí)生 AI建模與訓(xùn)練平臺 AI建模與訓(xùn)練平臺 領(lǐng)域方向:人工智能 工作地點(diǎn): 杭州 AI建模與訓(xùn)練平臺 人工智能 杭州 項(xiàng)目簡介 隨著人工智能技術(shù)的發(fā)展,越來越多的行業(yè)開始使用人工智能做智能化轉(zhuǎn)型。本項(xiàng)目旨在開發(fā)一套端到端的人工智能模型開發(fā)平臺。 崗位職責(zé) 從事AI工程化和AI平臺的開發(fā)。
訓(xùn)練管理 訓(xùn)練作業(yè) 資源和引擎規(guī)格接口
、加速、性能提升等服務(wù) 服務(wù)流程 提交服務(wù)申請 場景調(diào)研 方案設(shè)計(jì) 服務(wù)實(shí)施 服務(wù)驗(yàn)收 相關(guān)服務(wù)推薦 ModelArts開發(fā)支持服務(wù) 為客戶提供場景化AI建模服務(wù)與技術(shù)支持 了解詳情 高級人工智能模型需求分析與設(shè)計(jì) 為客戶提供人工智能模型配套的調(diào)研、設(shè)計(jì)及原型開發(fā)等專業(yè)服務(wù) 了解詳情
基于客戶業(yè)務(wù)場景的需求分析,提供AI平臺的規(guī)劃設(shè)計(jì)可行性分析服務(wù),包含ModelArts的訓(xùn)練或推理方案咨詢 AI平臺場景化建模方案規(guī)劃服務(wù) 基于客戶業(yè)務(wù)場景的需求分析,提供AI平臺的場景化建??尚行苑治龇?wù) 服務(wù)流程 提交服務(wù)申請 場景調(diào)研 方案設(shè)計(jì) 服務(wù)實(shí)施 服務(wù)驗(yàn)收 相關(guān)服務(wù)推薦
遇見你,遇見未來 華為云 | +智能,見未來 項(xiàng)目實(shí)習(xí)生 超大規(guī)模AI訓(xùn)練資源智能調(diào)度 超大規(guī)模AI訓(xùn)練資源智能調(diào)度 領(lǐng)域方向:人工智能 工作地點(diǎn): 杭州 超大規(guī)模AI訓(xùn)練資源智能調(diào)度 人工智能 杭州 項(xiàng)目簡介 隨著人工智能訓(xùn)練平臺承載的負(fù)載數(shù)量和類型越來越多的情況下,人工智能平臺底層資源調(diào)度模式會(huì)有很大挑戰(zhàn)
本實(shí)驗(yàn)介紹如何使用自定義鏡像功能創(chuàng)建notebook、創(chuàng)建訓(xùn)練作業(yè)以及部署API服務(wù),通過自定義鏡像功能可靈活滿足開發(fā)者對于AI應(yīng)用開發(fā)環(huán)境的定制需求 了解詳情 搭建ModelArts開發(fā)環(huán)境 通過本實(shí)驗(yàn)掌握在ModerArts上創(chuàng)建Jupyter Notebook編程環(huán)境的操作
創(chuàng)建訓(xùn)練作業(yè) 功能介紹 創(chuàng)建訓(xùn)練作業(yè)接口用于在ModelArts平臺上啟動(dòng)新的訓(xùn)練任務(wù)。 該接口適用于以下場景:當(dāng)用戶需要基于特定的數(shù)據(jù)集和算法模型進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練時(shí),可以通過此接口創(chuàng)建并配置訓(xùn)練作業(yè)。使用該接口的前提條件是用戶已上傳數(shù)據(jù)集和模型代碼至ModelArts平臺,并具
Object 會(huì)話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 get_job_log請求參數(shù)說明 參數(shù) 是否必選 參數(shù)類型
訓(xùn)練管理(舊版) 訓(xùn)練作業(yè) 訓(xùn)練作業(yè)參數(shù)配置 可視化作業(yè) 資源和引擎規(guī)格接口 作業(yè)狀態(tài)參考 父主題: 歷史API
服務(wù)公告 全部公告 > 產(chǎn)品公告 > 【AI開發(fā)平臺ModelArts】新增訓(xùn)練平臺故障檢測和快恢能力 【AI開發(fā)平臺ModelArts】新增訓(xùn)練平臺故障檢測和快恢能力 2025-09-12 尊敬的華為云客戶: 對ModelArts的訓(xùn)練作業(yè)可靠性增強(qiáng),提升檢測、快恢、日志能力等能力
AI平臺咨詢與規(guī)劃服務(wù) 基于華為云AI平臺,結(jié)合客戶業(yè)務(wù)場景,提供AI平臺規(guī)劃設(shè)計(jì)可行性分析和場景化建模可行性分析服務(wù)。 工作說明書 常見問題 計(jì)費(fèi)說明 父主題: 咨詢與規(guī)劃
父主題: 人工智能
訓(xùn)練作業(yè) 創(chuàng)建訓(xùn)練作業(yè) 查詢訓(xùn)練作業(yè)列表 查詢訓(xùn)練作業(yè)版本詳情 刪除訓(xùn)練作業(yè)版本 查詢訓(xùn)練作業(yè)版本列表 創(chuàng)建訓(xùn)練作業(yè)版本 停止訓(xùn)練作業(yè)版本 更新訓(xùn)練作業(yè)描述 刪除訓(xùn)練作業(yè) 獲取訓(xùn)練作業(yè)日志的文件名 查詢預(yù)置算法 查詢訓(xùn)練作業(yè)日志 父主題: 訓(xùn)練管理(舊版)
獲取訓(xùn)練作業(yè)支持的AI預(yù)置框架 功能介紹 獲取訓(xùn)練作業(yè)支持的AI預(yù)置框架。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動(dòng)認(rèn)證鑒權(quán)。API Explorer可以自動(dòng)生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI GET /v2/{project_id}/
訓(xùn)練作業(yè) 創(chuàng)建訓(xùn)練作業(yè) 訓(xùn)練作業(yè)調(diào)測 查詢訓(xùn)練作業(yè)列表 查詢訓(xùn)練作業(yè)詳情 更新訓(xùn)練作業(yè)描述 刪除訓(xùn)練作業(yè) 終止訓(xùn)練作業(yè) 查詢訓(xùn)練日志 查詢訓(xùn)練作業(yè)的運(yùn)行指標(biāo) 父主題: 訓(xùn)練管理
LLM/AIGC/數(shù)字人基于Server適配NPU的訓(xùn)練推理指導(dǎo) ModelArts提供了豐富的關(guān)于Server使用NPU進(jìn)行訓(xùn)練推理的案例指導(dǎo),涵蓋了LLM大語言模型、AIGC圖像等主流應(yīng)用場景。您可查看詳細(xì)指導(dǎo)。
創(chuàng)建訓(xùn)練作業(yè) 示例代碼 在ModelArts notebook平臺,Session鑒權(quán)無需輸入鑒權(quán)參數(shù)。其它平臺的Session鑒權(quán)請參見Session鑒權(quán)。 ModelArts SDK不支持通過在AI Gallery中訂閱的算法創(chuàng)建訓(xùn)練作業(yè)。 示例一:提交常用框架訓(xùn)練作業(yè) Es
保障用戶訓(xùn)練作業(yè)的長穩(wěn)運(yùn)行 提供訓(xùn)練作業(yè)斷點(diǎn)續(xù)訓(xùn)與增量訓(xùn)練能力,即使訓(xùn)練因某些原因中斷,也可以基于checkpoint接續(xù)訓(xùn)練,保障需要長時(shí)間訓(xùn)練的模型的穩(wěn)定性和可靠性,避免重新開始訓(xùn)練耗費(fèi)的時(shí)間與計(jì)算成本 支持訓(xùn)練數(shù)據(jù)使用SFS Turbo文件系統(tǒng)進(jìn)行數(shù)據(jù)掛載,訓(xùn)練作業(yè)產(chǎn)生的
String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 返回參數(shù)說明 參數(shù) 參數(shù)類型 描述 kind String 訓(xùn)練作業(yè)類型。默認(rèn)使用job。 枚舉值: job:訓(xùn)練作業(yè) hetero_job:異構(gòu)作業(yè)
描述 metadata TrainingExperimentResponseMetadata object 訓(xùn)練實(shí)驗(yàn)數(shù)據(jù)。 statistic TrainingExperimentStatistic object 訓(xùn)練實(shí)驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)。 表5 TrainingExperimentResponseMetadata
查詢訓(xùn)練作業(yè)指定任務(wù)的運(yùn)行指標(biāo) 功能介紹 查詢訓(xùn)練作業(yè)指定任務(wù)的運(yùn)行指標(biāo)接口用于獲取ModelArts平臺上指定訓(xùn)練作業(yè)任務(wù)的運(yùn)行指標(biāo)。 該接口適用于以下場景:當(dāng)用戶需要查看特定訓(xùn)練任務(wù)的性能指標(biāo)時(shí),可以通過此接口獲取運(yùn)行指標(biāo)。使用該接口的前提條件是用戶已知訓(xùn)練作業(yè)ID和任務(wù)ID
獲取訓(xùn)練配額 功能介紹 獲取用戶的訓(xùn)練配額。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動(dòng)認(rèn)證鑒權(quán)。API Explorer可以自動(dòng)生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI GET /v2/{project_id}/training-quotas
用戶還可以創(chuàng)建訓(xùn)練作業(yè)的數(shù)量。 jobs jobs結(jié)構(gòu)數(shù)組 訓(xùn)練作業(yè)的屬性列表,具體請參見表4。 quotas Integer 訓(xùn)練作業(yè)的運(yùn)行數(shù)量上限。 表4 jobs屬性列表 參數(shù) 參數(shù)類型 說明 job_id Long 訓(xùn)練作業(yè)的ID。 job_name String 訓(xùn)練作業(yè)的名稱。
查詢訓(xùn)練作業(yè)標(biāo)簽 功能介紹 查詢訓(xùn)練作業(yè)標(biāo)簽。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動(dòng)認(rèn)證鑒權(quán)。API Explorer可以自動(dòng)生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI GET /v2/{project_id}/trainJob/{training_job_id}/tags
AI開發(fā)平臺 AI開發(fā)平臺連接器用于對接華為云ModelArts云服務(wù)。
刪除訓(xùn)練作業(yè) 功能介紹 刪除訓(xùn)練作業(yè)接口用于從ModelArts平臺上移除已創(chuàng)建的訓(xùn)練作業(yè)。 該接口適用于以下場景:當(dāng)用戶需要清理已完成或不再需要的訓(xùn)練作業(yè)時(shí),可以通過此接口刪除指定的訓(xùn)練作業(yè)。使用該接口的前提條件是訓(xùn)練作業(yè)已存在且用戶具有刪除訓(xùn)練作業(yè)的權(quán)限。刪除操作完成后,訓(xùn)練作
公共資源池存在)。 main_container_allocated_resources MainContainerAllocatedResources object 參數(shù)解釋:訓(xùn)練作業(yè)訓(xùn)練容器實(shí)際到手的資源規(guī)格。 表44 FlavorDetail 參數(shù) 參數(shù)類型 描述 flavor_type
訓(xùn)練前卡死 作業(yè)為多節(jié)點(diǎn)訓(xùn)練,且還未開始訓(xùn)練時(shí)發(fā)生卡死,可以在代碼中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。 問題現(xiàn)象1 日志中還未出現(xiàn)NCCL DEBUG信息時(shí)已卡死。 解決方案1 檢查代碼,檢查是否有參數(shù)中未傳入“
會(huì)話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 無成功響應(yīng)參數(shù)。 表2 調(diào)用訓(xùn)練接口失敗響應(yīng)參數(shù) 參數(shù) 類型 描述 error_msg