亚洲欧美日韩成人在线,夜夜嗨AV一区二区三区网页,亚洲日韩在线素人

華為云AI系統(tǒng)創(chuàng)新Lab論文被國(guó)際頂級(jí)會(huì)議AAAI錄用

2024年12月10日，人工智能?chē)?guó)際頂級(jí)會(huì)議AAAI 2025公布了論文錄用結(jié)果。華為云AI系統(tǒng)創(chuàng)新Lab參與研究的論文《Multi-branch Self-Drafting for LLM Inference Acceleration》被AAAI主會(huì)議接收。這項(xiàng)成果展現(xiàn)了華為云AI系統(tǒng)創(chuàng)新lab在AI系統(tǒng)研究中的最新進(jìn)展和技術(shù)創(chuàng)新。AAAI是人工智能領(lǐng)域最受關(guān)注的國(guó)際學(xué)術(shù)會(huì)議之一，屬于CCF A類(lèi)，在學(xué)術(shù)界享有極高的聲譽(yù)，AAAI 對(duì)論文的評(píng)審標(biāo)準(zhǔn)嚴(yán)格，注重研究工作的學(xué)術(shù)價(jià)值、原創(chuàng)性以及對(duì)人工智能發(fā)展的潛在影響力。AAAI 2025將于2025年2月25日至3月4日在費(fèi)城舉行，屆時(shí)全球的頂尖學(xué)者和企業(yè)將齊聚一堂，共同探討人工智能領(lǐng)域的前沿技術(shù)與未來(lái)發(fā)展方向。以下是論文的核心內(nèi)容概述：

在大語(yǔ)言模型（LLM）部署推理過(guò)程中，推理速度的主要瓶頸往往不是顯卡的算力，而是顯卡的內(nèi)存帶寬。這是因?yàn)樵谕评頃r(shí)，每解碼一個(gè) token 都需要訪問(wèn)模型的全部參數(shù)，導(dǎo)致顯卡處于 memory-bound 狀態(tài)。為解決這一問(wèn)題，常見(jiàn)的方法包括減少模型參數(shù)量，以及通過(guò)并行解碼策略增加每次模型 forward 解碼的 token 數(shù)量。研究者們注意到，大語(yǔ)言模型具有很強(qiáng)的魯棒性，即使輸入中存在一定噪音，也能生成質(zhì)量較高的解碼結(jié)果?；谶@一特性，這個(gè)工作擴(kuò)展了原始自回歸模型的解碼過(guò)程。具體而言，它在原始的解碼流程中增加了多個(gè)起草分支，這些分支用于生成與上下文高度相關(guān)的高質(zhì)量草稿。此外，此工作還注意到，業(yè)界一些常用的從語(yǔ)料庫(kù)中抽取草稿信息的方法，生成的結(jié)果通常更適合概括通用表達(dá)，而非直接在上下文強(qiáng)相關(guān)的實(shí)際模型部署中使用。對(duì)此，此工作設(shè)計(jì)了一種緩存維護(hù)機(jī)制，用于同時(shí)管理兩類(lèi)草稿信息。

在多種開(kāi)源模型和數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明論文方法可以使得LLM每次forward可以解碼2到3.2個(gè)tokens；并且實(shí)現(xiàn)了兩倍左右的端到端的解碼速度的提升。

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

AI 系統(tǒng)創(chuàng)新Lab

AI 系統(tǒng)創(chuàng)新Lab

華為云AI系統(tǒng)創(chuàng)新Lab論文被國(guó)際頂級(jí)會(huì)議AAAI錄用

華為云AI系統(tǒng)創(chuàng)新Lab論文被國(guó)際頂級(jí)會(huì)議AAAI錄用