五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

社會招聘

華為云可用性工程Lab聚焦云計算可用性與可靠性領域關鍵算法的研究,實現(xiàn)關鍵技術突破與競爭力的持續(xù)提升,確保關鍵服務的高可用性,為用戶帶來更優(yōu)質的使用體驗。歡迎更多的有識之士加入可用性工程Lab,有意向的同學請發(fā)送簡歷到招聘郵箱yujialiang@huawei.com,我們將盡快聯(lián)系您。

崗位名稱

工作地

崗位職責

技能要求

?

云可靠性算法工程師

杭州、

深圳、

上海、

成都、

北京

負責云可靠性相關前沿技術探索和關鍵技術突破,確保云計算系統(tǒng)在復雜的軟硬件環(huán)境中保持高度可靠性和可用性,在以下一個或者多個領域開展研究和落地:

1、AI系統(tǒng)可靠性:圍繞構建高性能、高可靠性的AI集群基礎設施方向,進行算法、系統(tǒng)、產品等探索研究,通過訓練狀態(tài)保存與快速恢復,容錯訓練等技術突破,確保大規(guī)模AI計算任務的持續(xù)穩(wěn)定運行。

2、硬件故障智能化管理:利用機器學習技術從海量的云基礎設施監(jiān)測數(shù)據(jù)中挖掘故障模式,實現(xiàn)對內存、硬盤、電池等關鍵硬件故障的預警、診斷與恢復,推進數(shù)據(jù)中心硬件故障的智能化管理;

3、亞健康管理:基于亞健康檢測與恢復,根因分析與可解釋AI、亞健康故障注入等技術,構建智能化的云計算亞健康治理體系,實現(xiàn)全面感知、自動診斷和快速修復。

4、靜默錯誤:針對云場景下的靜默數(shù)據(jù)錯誤,通過在線測試用例編排調度、智能定界定位等技術,確保數(shù)據(jù)在全生命周期中的安全與完整性;

5、形式化驗證:利用形式化方法對云系統(tǒng)的設計和實現(xiàn)進行深入分析和驗證,確保系統(tǒng)行為的正確性和安全性;

1、計算機科學、軟件工程、人工智能、大數(shù)據(jù)、工業(yè)工程等相關專業(yè);

2、熟悉深度學習、強化學習、自然語言處理等AI背景知識,有大模型項目經(jīng)驗者優(yōu)先;

3、精通但不限于Python/C++/Java等編程語言中一種或多種,熟練使用TensorFlow、PyTorch等機器學習框架;

4、了解云計算系統(tǒng)架構及其故障模型,在可靠性算法、形式化方法、機器學習等領域有扎實的理論基礎,在國內外知名學術會議和期刊發(fā)表過相關領域的研究成果;

4、參與或主導過云計算系統(tǒng)可靠性研究和開發(fā)的實際項目,具有形式化驗證、靜默錯誤、內存硬盤等硬件故障預測、亞健康檢測等領域實踐研究經(jīng)驗者優(yōu)先。

?

云可靠性系統(tǒng)架構師

杭州、

深圳、

上海、

成都、

北京

負責云可靠性系統(tǒng)架構和關鍵能力組件的設計與開發(fā),確保云計算關鍵基礎設施和AI系統(tǒng)的高可靠運行,在以下一個或者多個領域開展研究和落地:

1、云可靠性系統(tǒng)設計:負責跨云服務的通用計算關鍵可靠性能力創(chuàng)新設計和開發(fā),如爆炸半徑控制、負載均衡等;

2、AI系統(tǒng)可靠性:負責AI系統(tǒng)的可靠性架構設計和開發(fā),針對大模型訓練和推理,采用可靠性設計、故障注入和測試、快速恢復等關鍵技術,確保AI集群訓練與推理穩(wěn)定可靠。

1、計算機科學、軟件工程、人工智能、工業(yè)工程等相關專業(yè);

2、精通Python/C++/Java等一種或多種編程語言,熟悉Linux操作系統(tǒng)及常用工具,對云計算平臺有一定了解;

3、熟悉可靠性建模、故障注入、異常檢測等可靠性工程技術;

4、參與或主導過云計算系統(tǒng)可靠性研究和開發(fā)的實際項目經(jīng)驗者優(yōu)先。

云可靠性算法工程師

工作地

杭州、

深圳、

上海、

成都、

北京

崗位職責

負責云可靠性相關前沿技術探索和關鍵技術突破,確保云計算系統(tǒng)在復雜的軟硬件環(huán)境中保持高度可靠性和可用性,在以下一個或者多個領域開展研究和落地:

1、AI系統(tǒng)可靠性:圍繞構建高性能、高可靠性的AI集群基礎設施方向,進行算法、系統(tǒng)、產品等探索研究,通過訓練狀態(tài)保存與快速恢復,容錯訓練等技術突破,確保大規(guī)模AI計算任務的持續(xù)穩(wěn)定運行。

2、硬件故障智能化管理:利用機器學習技術從海量的云基礎設施監(jiān)測數(shù)據(jù)中挖掘故障模式,實現(xiàn)對內存、硬盤、電池等關鍵硬件故障的預警、診斷與恢復,推進數(shù)據(jù)中心硬件故障的智能化管理;

3、亞健康管理:基于亞健康檢測與恢復,根因分析與可解釋AI、亞健康故障注入等技術,構建智能化的云計算亞健康治理體系,實現(xiàn)全面感知、自動診斷和快速修復。

4、靜默錯誤:針對云場景下的靜默數(shù)據(jù)錯誤,通過在線測試用例編排調度、智能定界定位等技術,確保數(shù)據(jù)在全生命周期中的安全與完整性;

5、形式化驗證:利用形式化方法對云系統(tǒng)的設計和實現(xiàn)進行深入分析和驗證,確保系統(tǒng)行為的正確性和安全性;

技能要求

1、計算機科學、軟件工程、人工智能、大數(shù)據(jù)、工業(yè)工程等相關專業(yè);

2、熟悉深度學習、強化學習、自然語言處理等AI背景知識,有大模型項目經(jīng)驗者優(yōu)先;

3、精通但不限于Python/C++/Java等編程語言中一種或多種,熟練使用TensorFlow、PyTorch等機器學習框架;

4、了解云計算系統(tǒng)架構及其故障模型,在可靠性算法、形式化方法、機器學習等領域有扎實的理論基礎,在國內外知名學術會議和期刊發(fā)表過相關領域的研究成果;

4、參與或主導過云計算系統(tǒng)可靠性研究和開發(fā)的實際項目,具有形式化驗證、靜默錯誤、內存硬盤等硬件故障預測、亞健康檢測等領域實踐研究經(jīng)驗者優(yōu)先。

云可靠性系統(tǒng)架構師

工作地

杭州、

深圳、

上海、

成都、

北京

崗位職責

負責云可靠性系統(tǒng)架構和關鍵能力組件的設計與開發(fā),確保云計算關鍵基礎設施和AI系統(tǒng)的高可靠運行,在以下一個或者多個領域開展研究和落地:

1、云可靠性系統(tǒng)設計:負責跨云服務的通用計算關鍵可靠性能力創(chuàng)新設計和開發(fā),如爆炸半徑控制、負載均衡等;

2、AI系統(tǒng)可靠性:負責AI系統(tǒng)的可靠性架構設計和開發(fā),針對大模型訓練和推理,采用可靠性設計、故障注入和測試、快速恢復等關鍵技術,確保AI集群訓練與推理穩(wěn)定可靠。

技能要求

1、計算機科學、軟件工程、人工智能、工業(yè)工程等相關專業(yè);

2、精通Python/C++/Java等一種或多種編程語言,熟悉Linux操作系統(tǒng)及常用工具,對云計算平臺有一定了解;

3、熟悉可靠性建模、故障注入、異常檢測等可靠性工程技術;

4、參與或主導過云計算系統(tǒng)可靠性研究和開發(fā)的實際項目經(jīng)驗者優(yōu)先。