五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

[快速入門(mén)]消費(fèi)級(jí)卡跟工業(yè)級(jí)卡有什么區(qū)別
工業(yè)數(shù)字模型驅(qū)動(dòng)引擎云服務(wù)

等 云原生底座,支撐構(gòu)建云化SaaS化工業(yè)軟件 云原生底座,支撐構(gòu)建云化SaaS化工業(yè)軟件 云原生架構(gòu),分鐘級(jí)部署,一鍵發(fā)布 公有云、邊緣云(云小站)等多種部署方式 高可靠、高性能、高安全,企業(yè)級(jí)應(yīng)用運(yùn)行無(wú)憂(yōu) 高可靠、高性能、高安全,企業(yè)級(jí)應(yīng)用運(yùn)行無(wú)憂(yōu) 華為10+系統(tǒng)已穩(wěn)定運(yùn)行多年

大模型混合云

千億模型訓(xùn)練算力利用率提升47% · 邊緣推理算力切分,支持1多任務(wù) 云邊協(xié)同 海量邊緣管理,模型邊用邊學(xué) · 10萬(wàn)+邊端推理設(shè)備納管,一鍵式分鐘級(jí)模型部署 · 邊緣推理毫秒級(jí)響應(yīng) · 邊用邊學(xué),模型精度提升20% AI-Native存儲(chǔ) 創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢 · 億級(jí)訓(xùn)練原始數(shù)據(jù)加載效率提升20倍 ·

鍵值存儲(chǔ)服務(wù)KVS

產(chǎn)品優(yōu)勢(shì) 應(yīng)用場(chǎng)景 查看更多 用戶(hù)指南 用戶(hù)指南 申請(qǐng)公測(cè) 存儲(chǔ)倉(cāng)管理 表管理 查看更多 常見(jiàn)問(wèn)題 常見(jiàn)問(wèn)題 本地二級(jí)索引與全局二級(jí)索引什么區(qū)別? 分區(qū)鍵和排序鍵什么區(qū)別? 查看更多 您可能感興趣的產(chǎn)品 您可能感興趣的產(chǎn)品 對(duì)象存儲(chǔ)服務(wù) OBS 提供安全穩(wěn)定、性能領(lǐng)先、無(wú)限彈性擴(kuò)展的存儲(chǔ)能力

語(yǔ)音通話(huà)Voice Call

支持語(yǔ)音轉(zhuǎn)文本,用于服務(wù)高速質(zhì)檢,迅速識(shí)別潛在問(wèn)題和風(fēng)險(xiǎn) 智能運(yùn)維,讓客戶(hù)用得安心、放心、信心 智能運(yùn)維,讓客戶(hù)用得安心、放心、信心 自動(dòng)化全面監(jiān)控,>90%的故障先于客戶(hù)發(fā)現(xiàn) 開(kāi)放運(yùn)維能力,業(yè)務(wù)運(yùn)行情況盡在掌握中 實(shí)現(xiàn)5個(gè)9的電信級(jí)可靠性,確保業(yè)務(wù)穩(wěn)定運(yùn)行 極致體驗(yàn),快速易集成 極致體驗(yàn),快速易集成

開(kāi)天集成工作臺(tái)資源中心

Zero(原AppCube)輕松構(gòu)建專(zhuān)業(yè)級(jí)應(yīng)用,創(chuàng)新隨心所欲,敏捷超乎想象—— 高效易用的低代碼平臺(tái)。 立即使用 API中心 API中心是為API開(kāi)發(fā)者和應(yīng)用開(kāi)發(fā)者構(gòu)建的海量API的匯聚運(yùn)營(yíng)平臺(tái)。通過(guò)統(tǒng)一匯聚和持續(xù)運(yùn)營(yíng),貫通并粘合API生產(chǎn)、API開(kāi)放和API消費(fèi)全場(chǎng)景,實(shí)現(xiàn)API全生命周期

彈性云服務(wù)器 ECS-概覽

高峰擴(kuò)容,存儲(chǔ)秒級(jí)無(wú)損擴(kuò)容,千萬(wàn)級(jí)玩家實(shí)時(shí)暢聊不頓;數(shù)據(jù)強(qiáng)一致高可靠,實(shí)現(xiàn)多區(qū)域TB級(jí)地圖數(shù)據(jù)同步更新,打造全真虛擬互動(dòng)的迷你世界 了解詳情 權(quán)威機(jī)構(gòu)的廣泛認(rèn)可 權(quán)威機(jī)構(gòu)的廣泛認(rèn)可 云計(jì)算服務(wù)能力標(biāo)準(zhǔn)符合性一級(jí)證書(shū) 標(biāo)志著華為云基礎(chǔ)設(shè)施服務(wù)全面滿(mǎn)足工業(yè)和信息化部《云計(jì)算綜合標(biāo)準(zhǔn)化體系建設(shè)指南》的最高要求。

API中心_開(kāi)天aPaaS

輸入姓名、身份證號(hào)碼、手機(jī)號(hào)碼,驗(yàn)證此三項(xiàng)是否匹配。直連三大運(yùn)營(yíng)商,全實(shí)時(shí)接口。 銀行實(shí)名認(rèn)證-銀行二三四要素驗(yàn)證 驗(yàn)證銀行、姓名、手機(jī)號(hào)、身份證號(hào)碼其中幾個(gè)要素是否一致,支持所有銀行,直連銀聯(lián) 驗(yàn)證銀行、姓名、手機(jī)號(hào)、身份證號(hào)碼其中幾個(gè)要素是否一致,支持所有銀行,直連銀聯(lián) iP地址查詢(xún)

高性能彈性文件服務(wù)

多實(shí)例共享存儲(chǔ) 用戶(hù)在同一區(qū)域內(nèi)各個(gè)可用區(qū)內(nèi)的云文件服務(wù)器實(shí)例可以跨可用區(qū)訪(fǎng)問(wèn)已申請(qǐng)的文件存儲(chǔ) 極致性能 極致性能 單文件系統(tǒng)可提供百GB級(jí)帶寬、千萬(wàn)級(jí)IOPS,滿(mǎn)足萬(wàn)AI訓(xùn)練等高性能業(yè)務(wù)需要 多場(chǎng)景覆蓋,滿(mǎn)足各類(lèi)存儲(chǔ)需求 AI云存儲(chǔ) EDA仿真 文件共享 內(nèi)容管理和Web服務(wù) AI云存儲(chǔ) 場(chǎng)景介紹

云計(jì)算_云存儲(chǔ)_云網(wǎng)絡(luò)_云安全_云數(shù)據(jù)庫(kù)_云管理與部署-華為云

iCityS 城市行業(yè)數(shù)智化轉(zhuǎn)型升級(jí)解決方案 工業(yè)智能體 IIT 實(shí)現(xiàn)工業(yè)知識(shí)與AI融合的開(kāi)發(fā)管理平臺(tái) 自動(dòng)駕駛 八爪魚(yú)自動(dòng)駕駛云服務(wù) Octopus 自動(dòng)駕駛端到端開(kāi)發(fā)工具鏈 大數(shù)據(jù) 大數(shù)據(jù)計(jì)算 MapReduce服務(wù) MRS 企業(yè)級(jí)大數(shù)據(jù)集群云服務(wù) 數(shù)據(jù)湖探索 DLI 流處理,批處理和交互式的融合處理

[相關(guān)產(chǎn)品]消費(fèi)級(jí)卡跟工業(yè)級(jí)卡有什么區(qū)別
廁位狀態(tài)監(jiān)測(cè)終端

工作溫度:(-25~+85)℃ NB-IOT(消費(fèi)級(jí)SIM) (-40~+85)℃ ZigBee/ NB-IOT(工業(yè)級(jí)SIM) 存儲(chǔ)溫度:(-40~+85)℃ 2、使用說(shuō)明 2.1 安裝SIM 對(duì)于NB-IOT傳輸方式的終端,用戶(hù)可以自行安裝SIM。 注意:安裝SIM時(shí),需要打開(kāi)產(chǎn)

微信會(huì)員卡

微信會(huì)員、會(huì)員管理系統(tǒng)、微會(huì)員、會(huì)員系統(tǒng)、微信會(huì)員管理系統(tǒng)、微信電子會(huì)員、會(huì)員積分系統(tǒng)、會(huì)員充值系統(tǒng),定制開(kāi)發(fā) 什么是旺鋪貓會(huì)員?旺鋪貓微信會(huì)員,是析客網(wǎng)絡(luò)(高新技術(shù)企業(yè))旗下產(chǎn)品,采用獨(dú)立電商網(wǎng)店SAAS體系,企業(yè)、商家只需要通過(guò)開(kāi)通云端賬號(hào)即可選用套餐,可

消費(fèi)機(jī)

、商店 、美食城等消費(fèi)場(chǎng) 所。在支持非接觸式IC作為電子錢(qián)包基礎(chǔ)之上增加了掃碼支付功能及人臉識(shí)別等多種支付方式,支持多種支付途徑。有效的解決了傳統(tǒng)現(xiàn)金支付帶來(lái)的不衛(wèi)生、速度慢, 易出錯(cuò)等缺陷。另外,四重防護(hù),防污、防水、防油、防蟲(chóng),讓設(shè)備打理起來(lái)更加方便。1.支付方式多樣化;,2

限制高消費(fèi)查詢(xún)

【個(gè)人限制高消費(fèi)名單查詢(xún)】查詢(xún)個(gè)人限制消費(fèi)詳細(xì)信息,包括主體名稱(chēng),法院名稱(chēng)、案件狀態(tài),執(zhí)行標(biāo)的、案號(hào)、法定代表人、執(zhí)行文號(hào)、發(fā)布日期、執(zhí)行情況等。直連官方,實(shí)時(shí)查詢(xún)。—— 我們只做精品!一、產(chǎn)品介紹 : 【個(gè)人限制高消費(fèi)名單查詢(xún)】查詢(xún)個(gè)人限制消費(fèi)詳細(xì)信息,包括主體名稱(chēng),法院名稱(chēng)、

天正社交客戶(hù)關(guān)系管理軟件

供標(biāo)簽計(jì)算引擎,支持億級(jí)標(biāo)簽計(jì)算;積分中心:提供靈活積分規(guī)則和積分計(jì)算引擎,財(cái)務(wù)積分成本結(jié)算模型;券中心:提供多種類(lèi)型券規(guī)則配置,支持卡券分發(fā)、領(lǐng)取、核銷(xiāo)管理;營(yíng)銷(xiāo)中心:提供基于標(biāo)簽、行為記錄組合篩選目標(biāo)人群,實(shí)現(xiàn)客戶(hù)精準(zhǔn)營(yíng)銷(xiāo);數(shù)據(jù)與場(chǎng)景驅(qū)動(dòng):基于消費(fèi)者行為標(biāo)簽實(shí)現(xiàn)精準(zhǔn)細(xì)分,通過(guò)流程畫(huà)布快速構(gòu)建營(yíng)銷(xiāo)場(chǎng)景;

井蓋異動(dòng)+水位超限監(jiān)測(cè)終端

0μA 防護(hù)等級(jí):IP68 外殼材質(zhì):采用PC+ABS防老化、防腐蝕,防撞擊材料 工作溫度:(-25~+85)℃ 消費(fèi)級(jí)SIM (-40~+85)℃ 工業(yè)級(jí)SIM/ LoRaWAN 存儲(chǔ)溫度:(-40~+85)℃ 測(cè)量范圍:0°~ 180° 測(cè)量精度:±2°支持國(guó)內(nèi)主流平臺(tái)對(duì)接

企業(yè)級(jí)無(wú)碼化開(kāi)發(fā)平臺(tái)

,無(wú)代碼產(chǎn)品,其核心差異性在于:•  數(shù)據(jù)驅(qū)動(dòng),平臺(tái)的核心是圍繞著發(fā)揮數(shù)據(jù)價(jià)值來(lái)展開(kāi);•  支持企業(yè)級(jí)的復(fù)雜應(yīng)用構(gòu)建,比如城市治理,工業(yè)制造等行業(yè)應(yīng)用;•  應(yīng)用構(gòu)建全流程的無(wú)代碼平臺(tái);各版本產(chǎn)品特點(diǎn): 專(zhuān)業(yè)版:提供數(shù)據(jù)填報(bào)、審批設(shè)計(jì)、應(yīng)用設(shè)計(jì)和數(shù)據(jù)管理模塊,專(zhuān)業(yè)版適用于:純應(yīng)用

無(wú)線(xiàn)水浸智能監(jiān)測(cè)終端

長(zhǎng)度可定制 防護(hù)等級(jí):IP68 外殼材質(zhì):采用PC+ABS防老化、防腐蝕,防撞擊材料 工作溫度:(-25~+85)℃ 消費(fèi)級(jí)SIM (-40~+85)℃ 工業(yè)級(jí)SIM/ LoRaWAN 存儲(chǔ)溫度:(-40~+85)℃安裝簡(jiǎn)單,支持心跳報(bào)文,狀態(tài)變化報(bào)警,異常報(bào)警,支持國(guó)內(nèi)主流平臺(tái)對(duì)接

輕定制小程序

人地址、總金額、實(shí)際付款、下單時(shí)間、訂單狀態(tài)、支付方式、支付狀態(tài)、支付時(shí)間、備注/表單、買(mǎi)家留言、自購(gòu)返利、一級(jí)分銷(xiāo)商、二級(jí)分銷(xiāo)商、三級(jí)分銷(xiāo)商、一級(jí)傭金、二級(jí)傭金、三級(jí)傭金)統(tǒng)計(jì)提現(xiàn)申請(qǐng)用戶(hù)、提現(xiàn)方式、提現(xiàn)金額、提現(xiàn)狀態(tài)、提現(xiàn)時(shí)間支持自動(dòng)打款、手動(dòng)打款(線(xiàn)下打款)支持打款/拒絕提

[相似文章]消費(fèi)級(jí)卡跟工業(yè)級(jí)卡有什么區(qū)別
銀行卡實(shí)名查詢(xún)_銀行卡認(rèn)證_銀行卡實(shí)名認(rèn)證API

銀行實(shí)名查詢(xún) 銀行實(shí)名認(rèn)證-銀行三要素驗(yàn)證 銀行實(shí)名查詢(xún) 銀行實(shí)名認(rèn)證-銀行三要素驗(yàn)證 【銀行三要素驗(yàn)證-銀行三要素實(shí)名認(rèn)證-銀行實(shí)名認(rèn)證-銀行三元素驗(yàn)證-銀行實(shí)名驗(yàn)證-銀行驗(yàn)證】驗(yàn)證銀行卡號(hào)、姓名、身份證號(hào)是否一致,支持所有銀行的借貸記卡【包含地方、商業(yè)

虛擬撥號(hào)電話(huà)_虛擬電話(huà)卡_虛擬號(hào)碼怎么撥打

隱私保護(hù)通話(huà)(Private Number),在不增加SIM的情況下,為用戶(hù)增加隱私號(hào)碼,既能享受優(yōu)質(zhì)的通話(huà)和短信服務(wù),又能隱藏真實(shí)號(hào)碼,保護(hù)個(gè)人隱私。 隱私保護(hù)通話(huà)(Private Number),在不增加SIM的情況下,為用戶(hù)增加隱私號(hào)碼,既能享受優(yōu)質(zhì)的通話(huà)和短信服務(wù),又能隱藏真實(shí)號(hào)碼,保護(hù)個(gè)人隱私。

華為認(rèn)證優(yōu)惠券申請(qǐng)_通用優(yōu)惠券領(lǐng)取_華為充值優(yōu)惠券

現(xiàn)金賬戶(hù)>信用賬戶(hù);多張儲(chǔ)值卡之間的抵扣優(yōu)先級(jí):按失效時(shí)間由近到遠(yuǎn)。 按需消費(fèi)時(shí)間在儲(chǔ)值卡有效期范圍內(nèi),系統(tǒng)即可自動(dòng)使用儲(chǔ)值卡抵扣費(fèi)用。抵扣按需費(fèi)用時(shí),抵扣優(yōu)先級(jí)為:代金券>現(xiàn)金券>儲(chǔ)值卡>現(xiàn)金賬戶(hù)>信用賬戶(hù);多張儲(chǔ)值卡之間的抵扣優(yōu)先級(jí):按失效時(shí)間由近到遠(yuǎn)。 充值優(yōu)惠券-包年/包月產(chǎn)品

工業(yè)物聯(lián)網(wǎng)_物聯(lián)網(wǎng)設(shè)備_工業(yè)物聯(lián)網(wǎng)有哪些應(yīng)用

、典型行業(yè)應(yīng)用場(chǎng)景,工業(yè)物聯(lián)網(wǎng)平臺(tái)的時(shí)序分析、時(shí)序洞察、物實(shí)例時(shí)序探索等具體功能介紹,軟件安裝部署、調(diào)配測(cè)試、物模型分析設(shè)計(jì)、創(chuàng)建維護(hù)等實(shí)操。 查看課程 進(jìn)入社區(qū) 工業(yè)物聯(lián)網(wǎng)相關(guān)云服務(wù)介紹 工業(yè)物聯(lián)網(wǎng)是工業(yè)互聯(lián)網(wǎng)的基礎(chǔ),是智能制造的關(guān)鍵設(shè)施。華為云IoT工業(yè)物聯(lián)平臺(tái)實(shí)現(xiàn)工廠(chǎng)全面實(shí)

?虛擬電話(huà)號(hào)碼軟件的優(yōu)勢(shì)

隱私保護(hù)通話(huà)有數(shù)據(jù)統(tǒng)計(jì)功能嗎? 隱私保護(hù)通話(huà)哪些模式支持回?fù)芄δ埽?隱私保護(hù)通話(huà)各模式什么區(qū)別?如AX和AXB模式什么區(qū)別? 網(wǎng)絡(luò)虛擬電話(huà) 其他相關(guān)問(wèn)題 費(fèi)用問(wèn)題 隱私保護(hù)通話(huà)是預(yù)付費(fèi)還是后付費(fèi)?有無(wú)最低消費(fèi)? 隱私保護(hù)通話(huà)的費(fèi)用組成是什么?哪些計(jì)費(fèi)服務(wù)可取消? 如何查詢(xún)隱私保護(hù)通話(huà)費(fèi)用詳情?

云端硬盤(pán)_企業(yè)級(jí)硬盤(pán)_硬盤(pán)的功能

找回?cái)?shù)據(jù)? 如果您已開(kāi)通回收站功能,請(qǐng)先查看回收站中是否您刪除的云硬盤(pán)。云硬盤(pán)在回收站內(nèi)最多可保存7天。 ,恢復(fù)云硬盤(pán)即可找回?cái)?shù)據(jù)?;謴?fù)方法請(qǐng)參見(jiàn)恢復(fù)回收站內(nèi)的磁盤(pán)。 無(wú),繼續(xù)下一步。 查看是否對(duì)應(yīng)的云硬盤(pán)備份。 ,可以通過(guò)云硬盤(pán)備份找回?cái)?shù)據(jù)。使用云硬盤(pán)備份創(chuàng)建新的云硬盤(pán)

RPA技術(shù)_RPA英文全稱(chēng)_企業(yè)級(jí)RPA

加快捷方便,提高運(yùn)營(yíng)效率,減低成本。此外,該方案完全自主研發(fā),更利于景區(qū)后續(xù)迭代升級(jí)以及定制開(kāi)發(fā)。 該平臺(tái)方案通過(guò)用戶(hù)、功能、角色、數(shù)據(jù)四級(jí)自定義功能設(shè)置,管理層級(jí)劃分精準(zhǔn)清晰,滿(mǎn)足不同組織架構(gòu)企事業(yè)單位使用。系統(tǒng)管理采用角色、權(quán)限管理、權(quán)限編輯實(shí)現(xiàn)用戶(hù)權(quán)限的自定義組合,通過(guò)多個(gè)

比較好的CRM管理系統(tǒng)_CRM公司_CRM網(wǎng)頁(yè)版

售人員及社交網(wǎng)絡(luò)等,這一點(diǎn)非常重要。另外通過(guò)CRM企業(yè)還可以更加了解目標(biāo)潛在客戶(hù)以及如何滿(mǎn)足客戶(hù)的需求。 CRM和SRM什么區(qū)別? CRM系統(tǒng)與SRM系統(tǒng)很大不同。顧名思義,CRM僅關(guān)注客戶(hù)和銷(xiāo)售,而SRM則更多地關(guān)注與供應(yīng)商的互動(dòng)??蛻?hù)關(guān)系管理(CRM)是一種管理公司與當(dāng)前

云服務(wù)器優(yōu)惠券_華為云服務(wù)器優(yōu)惠券_特惠優(yōu)惠券

按用戶(hù)使用時(shí)長(zhǎng)和選擇的保障周期對(duì)應(yīng)價(jià)格計(jì)費(fèi),實(shí)例釋放后出所有整點(diǎn)賬單。且使用期間進(jìn)行關(guān)機(jī)等操作,仍然計(jì)費(fèi)。 計(jì)費(fèi)周期 按訂單的購(gòu)買(mǎi)周期計(jì)費(fèi)。 秒級(jí)計(jì)費(fèi),按小時(shí)結(jié)算。 秒級(jí)計(jì)費(fèi),按小時(shí)結(jié)算。 秒級(jí)計(jì)費(fèi),按小時(shí)結(jié)算。 關(guān)機(jī)計(jì)費(fèi) 按訂單的購(gòu)買(mǎi)周期計(jì)費(fèi)。云服務(wù)器關(guān)機(jī)對(duì)包年/包月計(jì)費(fèi)無(wú)影響。 • 普通實(shí)例(不含本地硬盤(pán)

消費(fèi)級(jí)卡跟工業(yè)級(jí)卡有什么區(qū)別

什么是訓(xùn)練作業(yè)卡死檢測(cè)

訓(xùn)練作業(yè)在運(yùn)行中可能會(huì)因?yàn)槟承┪粗驅(qū)е伦鳂I(yè)卡死,如果不能及時(shí)發(fā)現(xiàn),就會(huì)導(dǎo)致無(wú)法及時(shí)釋放資源,從而造成極大的資源浪費(fèi)。為了節(jié)省訓(xùn)練資源成本,提高使用體驗(yàn), ModelArts 提供了卡死檢測(cè)功能,能自動(dòng)識(shí)別作業(yè)是否卡死,并在日志詳情界面上展示,同時(shí)能配置通知及時(shí)提醒用戶(hù)作業(yè)卡死。

檢測(cè)規(guī)則

卡死檢測(cè)主要是通過(guò)監(jiān)控作業(yè)進(jìn)程的狀態(tài)和資源利用率來(lái)判定作業(yè)是否卡死,會(huì)啟動(dòng)一個(gè)協(xié)程來(lái)周期性地監(jiān)控上述兩個(gè)指標(biāo)的變化情況。卡死檢測(cè)有單實(shí)例和全實(shí)例兩種檢測(cè)規(guī)則,是同時(shí)生效的。

  • 單實(shí)例檢測(cè)
    • 進(jìn)程狀態(tài):只要訓(xùn)練作業(yè)單實(shí)例中的進(jìn)程IO存在變化,就進(jìn)入下一個(gè)檢測(cè)周期。如果在多個(gè)檢測(cè)周期內(nèi),所有進(jìn)程IO都沒(méi)有變化,則進(jìn)入資源利用率檢測(cè)階段。
    • 資源利用率:在作業(yè)單實(shí)例進(jìn)程IO沒(méi)有變化的情況下,采集一定時(shí)間段內(nèi)的GPU利用率或NPU利用率,并根據(jù)這段時(shí)間內(nèi)的GPU利用率或NPU利用率的方差和中位數(shù)來(lái)判斷資源使用率是否有變化。如果沒(méi)有變化,則判定作業(yè)卡死。
  • 全實(shí)例檢測(cè)

    資源利用率:當(dāng)作業(yè)在一段時(shí)間內(nèi)所有運(yùn)行中的實(shí)例的GPU利用率或者NPU利用率沒(méi)有變化,同時(shí)每個(gè)實(shí)例的CPU使用也低于1核,則判定作業(yè)卡死。

系統(tǒng)預(yù)置了卡死檢測(cè)的環(huán)境變量“MA_HANG_DETECT_TIME=30”,表示檢測(cè)到指標(biāo)異常并持續(xù)30分鐘則判定作業(yè)卡死。如果需要修改卡死檢測(cè)時(shí)間,則可以修改環(huán)境變量“MA_HANG_DETECT_TIME”的值,具體操作指導(dǎo)請(qǐng)參見(jiàn)管理訓(xùn)練容器環(huán)境變量

  • 由于檢測(cè)規(guī)則的局限性,當(dāng)前卡死檢測(cè)存在一定的誤檢率。如果是作業(yè)代碼本身邏輯(如長(zhǎng)時(shí)間sleep)導(dǎo)致的卡死,請(qǐng)忽略。
  • 如果對(duì)于誤檢有疑問(wèn)或者卡死問(wèn)題無(wú)法自行解決,您可以前往ModelArts開(kāi)發(fā)者論壇進(jìn)行提問(wèn)或者搜索問(wèn)題。

約束限制

卡死檢測(cè)僅支持資源類(lèi)型為GPU和NPU的訓(xùn)練作業(yè)。

操作步驟

卡死檢測(cè)無(wú)需額外配置,作業(yè)運(yùn)行中會(huì)自動(dòng)執(zhí)行檢測(cè)。檢測(cè)到作業(yè)卡死后會(huì)在訓(xùn)練作業(yè)詳情頁(yè)提示作業(yè)疑似卡死。如需檢測(cè)到卡死后發(fā)送通知(短信、郵件等)請(qǐng)?jiān)谧鳂I(yè)創(chuàng)建頁(yè)面配置事件通知。

常見(jiàn)案例

  1. 復(fù)制數(shù)據(jù)卡死

    問(wèn)題現(xiàn)象

    調(diào)用mox.file.copy_parallel復(fù)制數(shù)據(jù)時(shí)卡死。

    解決方案

    • 復(fù)制文件和文件夾均可采用:
      import moxing as mox
      mox.file.set_auth(is_secure=False)
    • 復(fù)制單個(gè)大文件5G以上時(shí)可采用:
      from moxing.framework.file import file_io

      查看當(dāng)前moxing調(diào)用的接口版本:file_io._LARGE_FILE_METHOD,如果輸出值為1則為V1版本,如果輸出值為2,則為V2版本。

      V1版本修改:file_io._NUMBER_OF_PRO CES SES=1

      V2版本修改:file_io._LARGE_FILE_METHOD = 1,將模式設(shè)置成V1然后用V1的方式修改規(guī)避,也可以直接file_io._LARGE_FILE_T AS K_NUM=1。

    • 復(fù)制文件夾時(shí)可采用:
      mox.file.copy_parallel(threads=0,is_processing=False) 
  2. 訓(xùn)練前卡死

    作業(yè)為多節(jié)點(diǎn)訓(xùn)練,且還未開(kāi)始訓(xùn)練時(shí)發(fā)生卡死,可以在代碼中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。

    • 問(wèn)題現(xiàn)象1

      日志中還未出現(xiàn)NCCL DEBUG信息時(shí)已卡死。

      解決方案1

      檢查代碼,檢查是否有參數(shù)中未傳入“master_ip”“rank”參數(shù)等問(wèn)題。

    • 問(wèn)題現(xiàn)象2
      分布式訓(xùn)練的日志中,發(fā)現(xiàn)有的節(jié)點(diǎn)含有GDR信息,而有的節(jié)點(diǎn)無(wú)GDR信息,導(dǎo)致卡死的原因可能為GDR。
      # 節(jié)點(diǎn)A日志
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-1:1136:1191 [2] NCCL INFO Channel 00 : 3[5f000] -> 10[5b000] [receive] via NET/IB/0/GDRDMA
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-1:1140:1196 [6] NCCL INFO Channel 00 : 14[e1000] -> 15[e9000] via P2P/IPC
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-1:1141:1187 [7] NCCL INFO Channel 00 : 15[e9000] -> 11[5f000] via P2P/IPC
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-1:1138:1189 [4] NCCL INFO Channel 00 : 12[b5000] -> 14[e1000] via P2P/IPC
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-1:1137:1197 [3] NCCL INFO Channel 00 : 11[5f000] -> 16[2d000] [send] via NET/IB/0/GDRDMA
      
      # 節(jié)點(diǎn)B日志
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-2:1139:1198 [2] NCCL INFO Channel 00 : 18[5b000] -> 19[5f000] via P2P/IPC
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-2:1144:1200 [7] NCCL INFO Channel 00 : 23[e9000] -> 20[b5000] via P2P/IPC
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-2:1142:1196 [5] NCCL INFO Channel 00 : 21[be000] -> 17[32000] via P2P/IPC
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-2:1143:1194 [6] NCCL INFO Channel 00 : 22[e1000] -> 21[be000] via P2P/IPC
      modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da6761d5a-worker-2:1141:1191 [4] NCCL INFO Channel 00 : 20[b5000] -> 22[e1000] via P2P/IPC

      解決方案2

      在程序開(kāi)頭設(shè)置“os.environ["NCCL_NET_GDR_LEVEL"] = '0'”關(guān)閉使用GDR,或者尋找運(yùn)維人員將機(jī)器添加GDR。

    • 問(wèn)題現(xiàn)象3

      NCCL信息中報(bào)出Got completion with error 12, opcode 1, len 32478, vendor err 129等通信信息時(shí),說(shuō)明當(dāng)前網(wǎng)絡(luò)不是很穩(wěn)定。

      解決方案3

      可加入3個(gè)環(huán)境變量。

      • NCCL_IB_GID_INDEX=3: 使用RoCE v2協(xié)議,默認(rèn)使用RoCE v1,但是v1在交換機(jī)上沒(méi)有擁塞控制,可能丟包,而且后面的交換機(jī)不會(huì)支持v1,就無(wú)法啟動(dòng)。
      • NCCL_IB_TC=128:數(shù)據(jù)包走交換機(jī)的隊(duì)列4通道,這是RoCE協(xié)議標(biāo)準(zhǔn)。
      • NCCL_IB_TIMEOUT=22:把超時(shí)時(shí)間設(shè)置長(zhǎng)一點(diǎn),正常情況下網(wǎng)絡(luò)不穩(wěn)定會(huì)有5秒鐘左右的間斷,超過(guò)5秒就返回timeout了,改成22預(yù)計(jì)有二十秒左右,算法為4.096 μs * 2 ^ timeout。
  3. 訓(xùn)練中途卡死
    • 問(wèn)題現(xiàn)象1

      檢測(cè)每個(gè)節(jié)點(diǎn)日志是否有報(bào)錯(cuò)信息,某個(gè)節(jié)點(diǎn)報(bào)錯(cuò)但作業(yè)未退出導(dǎo)致整個(gè)訓(xùn)練作業(yè)卡死。

      解決方案1

      查看報(bào)錯(cuò)原因,解決報(bào)錯(cuò)。

    • 問(wèn)題現(xiàn)象2

      作業(yè)卡在sync-batch-norm中或者訓(xùn)練速度變慢。pytorch如果開(kāi)了sync-batch-norm,多機(jī)會(huì)慢,因開(kāi)了sync-batch-norm以后,每一個(gè)iter里面每個(gè)batch-norm層都要做同步,通信量很大,而且要所有節(jié)點(diǎn)同步。

      解決方案2

      關(guān)掉sync-batch-norm,或者升pytorch版本,升級(jí)pytorch到1.10。

    • 問(wèn)題現(xiàn)象3
      作業(yè)卡在tensorboard中,出現(xiàn)報(bào)錯(cuò):
      writer = Sumarywriter('./path/to/log')

      解決方案3

      存儲(chǔ)路徑設(shè)為本地路徑,如cache/tensorboard,不要使用 OBS 路徑。

    • 問(wèn)題現(xiàn)象4

      使用pytorch中的dataloader讀數(shù)據(jù)時(shí),作業(yè)卡在讀數(shù)據(jù)過(guò)程中,日志停在訓(xùn)練的過(guò)程中并不再更新日志。

      解決方案4

      用dataloader讀數(shù)據(jù)時(shí),適當(dāng)減小num_worker。

  4. 訓(xùn)練最后一個(gè)epoch卡死

    問(wèn)題現(xiàn)象

    通過(guò)日志查看數(shù)據(jù)切分是否對(duì)齊,如果未對(duì)齊,容易導(dǎo)致部分進(jìn)程完成訓(xùn)練退出,而部分訓(xùn)練進(jìn)程因未收到其他進(jìn)程反饋卡死,如下圖同一時(shí)間有的進(jìn)程在epoch48,而有的進(jìn)程在epoch49。

    loss exit lane:0.12314446270465851
    step loss is 0.29470521211624146
    [2022-04-26 13:57:20,757][INFO][train_epoch]:Rank:2 Epoch:[48][20384/all] Data Time 0.000(0.000) Net Time 0.705(0.890) Loss 0.3403(0.3792)LR 0.00021887
    [2022-04-26 13:57:20,757][INFO][train_epoch]:Rank:1 Epoch:[48][20384/all] Data Time 0.000(0.000) Net Time 0.705(0.891) Loss 0.3028(0.3466) LR 0.00021887
    [2022-04-26 13:57:20,757][INFO][train_epoch]:Rank:4 Epoch:[49][20384/all] Data Time 0.000(0.147) Net Time 0.705(0.709) Loss 0.3364(0.3414)LR 0.00021887
    [2022-04-26 13:57:20,758][INFO][train_epoch]:Rank:3 Epoch:[49][20384/all] Data Time 0.000 (0.115) Net Time 0.706(0.814) Loss 0.3345(0.3418) LR 0.00021887
    [2022-04-26 13:57:20,758][INFO][train_epoch]:Rank:0 Epoch:[49][20384/all] Data Time 0.000(0.006) Net Time 0.704(0.885) Loss 0.2947(0.3566) LR 0.00021887
    [2022-04-26 13:57:20,758][INFO][train_epoch]:Rank:7 Epoch:[49][20384/all] Data Time 0.001 (0.000) Net Time 0.706 (0.891) Loss 0.3782(0.3614) LR 0.00021887
    [2022-04-26 13:57:20,759][INFO][train_epoch]:Rank:5 Epoch:[48][20384/all] Data Time 0.000(0.000) Net Time 0.706(0.891) Loss 0.5471(0.3642) LR 0.00021887
    [2022-04-26 13:57:20,763][INFO][train_epoch]:Rank:6 Epoch:[49][20384/all] Data Time 0.000(0.000) Net Time 0.704(0.891) Loss 0.2643(0.3390)LR 0.00021887
    stage 1 loss 0.4600560665130615 mul_cls_loss loss:0.01245919056236744 mul_offset_loss 0.44759687781333923 origin stage2_loss 0.048592399805784225
    stage 1 loss:0.4600560665130615 stage 2 loss:0.048592399805784225 loss exit lane:0.10233864188194275

    解決方案

    使用tensor的切分操作對(duì)齊數(shù)據(jù)。

消費(fèi)級(jí)卡跟工業(yè)級(jí)卡有什么區(qū)別常見(jiàn)問(wèn)題

更多常見(jiàn)問(wèn)題 >>

更多相關(guān)專(zhuān)題