ModelArts分布式訓(xùn)練
功能介紹
ModelArts提供了如下能力:
- 豐富的官方預(yù)置鏡像,滿足用戶的需求。
- 支持基于預(yù)置鏡像自定義制作專屬開發(fā)環(huán)境,并保存使用。
- 豐富的教程,幫助用戶快速適配分布式訓(xùn)練,使用分布式訓(xùn)練極大減少訓(xùn)練時(shí)間。
- 分布式訓(xùn)練調(diào)測(cè)的能力,可在PyCharm/VSCode/JupyterLab等開發(fā)工具中調(diào)試分布式訓(xùn)練。
約束限制
- 總覽頁面打開的CodeLab不支持此項(xiàng)功能,但是如果用戶在AI Hub中打開了可用的案例,會(huì)自動(dòng)跳轉(zhuǎn)到CodeLab中,此時(shí)是可以使用這項(xiàng)功能的。
- 如果切換了Notebook的規(guī)格,那么只能在Notebook進(jìn)行單機(jī)調(diào)測(cè),不能進(jìn)行分布式調(diào)測(cè),也不能提交遠(yuǎn)程訓(xùn)練任務(wù)。
- 當(dāng)前僅支持Pytorch和MindSpore AI框架,如果MindSpore要進(jìn)行多機(jī)分布式訓(xùn)練調(diào)試,則每臺(tái)機(jī)器上都必須有8張卡。
- ModelArts提供的調(diào)測(cè)代碼中涉及到的OBS路徑,實(shí)際使用時(shí)請(qǐng)?zhí)鎿Q為自己的實(shí)際OBS路徑。
- ModelArts提供的調(diào)測(cè)代碼是以Pytorch為例編寫的,不同的AI框架之間,整體流程是完全相同的,只需要修改個(gè)別的參數(shù)即可。