五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

Memory Failure Prediction @ WWW Cup 2025 邀你來(lái)參加!

萬(wàn)卡集群多部件,高耦合,故障發(fā)生牽一發(fā)動(dòng)全身,高可用性是業(yè)界難題。WWW 2025 于悉尼舉辦,華為云聯(lián)合柏林工業(yè)大學(xué)以及中國(guó)科學(xué)技術(shù)大學(xué)發(fā)布 WWW Cup: Memory Failure Prediction Challenge,冠軍獎(jiǎng)金 4.5 萬(wàn)元,邀你來(lái)參加,共同探索數(shù)據(jù)中心集群穩(wěn)定性創(chuàng)新方案。

 

images_173751387844970

 

背景:

隨著人工智能、大數(shù)據(jù)、云計(jì)算等技術(shù)的飛速發(fā)展,云數(shù)據(jù)中心硬件可靠性已成為當(dāng)前業(yè)界廣泛關(guān)注的熱點(diǎn)。比如在大規(guī)模分布式訓(xùn)練場(chǎng)景中,單個(gè)節(jié)點(diǎn)的硬件故障可能導(dǎo)致整個(gè)訓(xùn)練任務(wù)中斷,甚至引發(fā)數(shù)據(jù)丟失或模型損壞。這不僅會(huì)造成大量計(jì)算資源和時(shí)間的浪費(fèi),還可能?chē)?yán)重影響模型訓(xùn)練的收斂性和最終性能,硬件故障也是當(dāng)前大規(guī)模集群運(yùn)營(yíng)中面臨的最關(guān)鍵問(wèn)題。

內(nèi)存作為計(jì)算機(jī)系統(tǒng)中關(guān)鍵部件,計(jì)算機(jī)中所有程序的運(yùn)行都在內(nèi)存中進(jìn)行,其穩(wěn)定性與可靠性直接關(guān)系到整個(gè)系統(tǒng)的運(yùn)行效率和數(shù)據(jù)安全,尤其是高帶寬存儲(chǔ)器技術(shù)的應(yīng)用,更是將內(nèi)存的重要性推向了一個(gè)新的高度。

 

PIC_V2.png

 

賽事:

Memory Failure Prediction @ WWW Cup 2025 發(fā)布了首個(gè)包含宏觀(guān)和微觀(guān)比特信息的大規(guī)模數(shù)據(jù)中心內(nèi)存運(yùn)行狀態(tài)數(shù)據(jù)集 (SmartMem),并且根據(jù)實(shí)際應(yīng)用構(gòu)建了相應(yīng)的評(píng)測(cè)流程,旨在匯聚全球數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)領(lǐng)域的專(zhuān)家,共同探索和開(kāi)發(fā)出能夠有效應(yīng)對(duì)開(kāi)放世界機(jī)器學(xué)習(xí)問(wèn)題的先進(jìn)算法和技術(shù),以提高故障預(yù)測(cè)的準(zhǔn)確性和可信性。參賽者基于提供的內(nèi)存靜態(tài)信息、內(nèi)存故障地址數(shù)據(jù)、內(nèi)存糾錯(cuò)信息,以及故障標(biāo)簽數(shù)據(jù),對(duì)內(nèi)存故障機(jī)理進(jìn)行探索,挖掘出與內(nèi)存故障相關(guān)的特征,并構(gòu)建出一個(gè)能夠準(zhǔn)確預(yù)測(cè)是否會(huì)發(fā)生內(nèi)存故障的模型。

 

Snipaste_2025-01-22_11-04-48.png

 

ACM International World Wide Web Conference(WWW會(huì)議是信息檢索、推薦系統(tǒng)領(lǐng)域頂級(jí)會(huì)議 (CCF-A),從 1994 年開(kāi)始每年舉辦,今年將會(huì)在 4 28 號(hào)在美麗的悉尼召開(kāi)。本次比賽不僅提供最高 4.5 萬(wàn)人民幣獎(jiǎng)金,優(yōu)勝團(tuán)隊(duì)還將受邀與來(lái)自業(yè)界和學(xué)術(shù)界的專(zhuān)家們?cè)?span lang="EN-US"> workshop 中交流討論。通過(guò)本次競(jìng)賽,我們期待推動(dòng)硬件故障預(yù)測(cè)技術(shù)的突破,為構(gòu)建更加穩(wěn)定、可靠的算力基礎(chǔ)設(shè)施系統(tǒng)提供強(qiáng)有力的支持,同時(shí)也為開(kāi)放世界機(jī)器學(xué)習(xí)領(lǐng)域的研究和實(shí)踐積累寶貴經(jīng)驗(yàn)。

 

Snipaste_2025-01-22_11-06-10.png

 

數(shù)據(jù)集以及入門(mén)工具包與基線(xiàn)均已發(fā)布,初賽報(bào)名提交截止時(shí)間 3 1 號(hào),走過(guò)路過(guò)不要錯(cuò)過(guò)喲!

 

報(bào)名鏈接:

hwcloud-ras.github.io

www.codabench.org

 

參考鏈接:

[1] The Llama 3 Technical Report
[2] www.semianalysis.com
[3] Yu et.al, "Investigating Memory Failure Prediction Across CPU Architectures", DSN 2024