華為云AI系統(tǒng)創(chuàng)新Lab論文被國(guó)際頂級(jí)會(huì)議AAAI錄用
華為云AI系統(tǒng)創(chuàng)新Lab論文被國(guó)際頂級(jí)會(huì)議AAAI錄用
活動(dòng)對(duì)象:華為云電銷(xiāo)客戶(hù)及渠道伙伴客戶(hù)可參與消費(fèi)滿送活動(dòng),其他客戶(hù)參與前請(qǐng)咨詢(xún)客戶(hù)經(jīng)理
活動(dòng)時(shí)間: 2020年8月12日-2020年9月11日
活動(dòng)期間,華為云用戶(hù)通過(guò)活動(dòng)頁(yè)面購(gòu)買(mǎi)云服務(wù),或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購(gòu)云服務(wù),累計(jì)新購(gòu)實(shí)付付費(fèi)金額達(dá)到一定額度,可兌換相應(yīng)的實(shí)物禮品。活動(dòng)優(yōu)惠券可在本活動(dòng)頁(yè)面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購(gòu)買(mǎi)(未使用年中云鉅惠活動(dòng)優(yōu)惠券)或參與其他活動(dòng)的訂單付費(fèi)金額不計(jì)入統(tǒng)計(jì)范圍內(nèi);
活動(dòng)對(duì)象:華為云電銷(xiāo)客戶(hù)及渠道伙伴客戶(hù)可參與消費(fèi)滿送活動(dòng),其他客戶(hù)參與前請(qǐng)咨詢(xún)客戶(hù)經(jīng)理
2024年12月10日,人工智能?chē)?guó)際頂級(jí)會(huì)議AAAI 2025公布了論文錄用結(jié)果。華為云AI系統(tǒng)創(chuàng)新Lab參與研究的論文《Multi-branch Self-Drafting for LLM Inference Acceleration》被AAAI主會(huì)議接收。這項(xiàng)成果展現(xiàn)了華為云AI系統(tǒng)創(chuàng)新lab在AI系統(tǒng)研究中的最新進(jìn)展和技術(shù)創(chuàng)新。AAAI是人工智能領(lǐng)域最受關(guān)注的國(guó)際學(xué)術(shù)會(huì)議之一,屬于CCF A類(lèi),在學(xué)術(shù)界享有極高的聲譽(yù),AAAI 對(duì)論文的評(píng)審標(biāo)準(zhǔn)嚴(yán)格,注重研究工作的學(xué)術(shù)價(jià)值、原創(chuàng)性以及對(duì)人工智能發(fā)展的潛在影響力。AAAI 2025將于2025年2月25日至3月4日在費(fèi)城舉行,屆時(shí)全球的頂尖學(xué)者和企業(yè)將齊聚一堂,共同探討人工智能領(lǐng)域的前沿技術(shù)與未來(lái)發(fā)展方向。以下是論文的核心內(nèi)容概述:

在大語(yǔ)言模型(LLM)部署推理過(guò)程中,推理速度的主要瓶頸往往不是顯卡的算力,而是顯卡的內(nèi)存帶寬。這是因?yàn)樵谕评頃r(shí),每解碼一個(gè) token 都需要訪問(wèn)模型的全部參數(shù),導(dǎo)致顯卡處于 memory-bound 狀態(tài)。為解決這一問(wèn)題,常見(jiàn)的方法包括減少模型參數(shù)量,以及通過(guò)并行解碼策略增加每次模型 forward 解碼的 token 數(shù)量。研究者們注意到,大語(yǔ)言模型具有很強(qiáng)的魯棒性,即使輸入中存在一定噪音,也能生成質(zhì)量較高的解碼結(jié)果?;谶@一特性,這個(gè)工作擴(kuò)展了原始自回歸模型的解碼過(guò)程。具體而言,它在原始的解碼流程中增加了多個(gè)起草分支,這些分支用于生成與上下文高度相關(guān)的高質(zhì)量草稿。此外,此工作還注意到,業(yè)界一些常用的從語(yǔ)料庫(kù)中抽取草稿信息的方法,生成的結(jié)果通常更適合概括通用表達(dá),而非直接在上下文強(qiáng)相關(guān)的實(shí)際模型部署中使用。對(duì)此,此工作設(shè)計(jì)了一種緩存維護(hù)機(jī)制,用于同時(shí)管理兩類(lèi)草稿信息。

在多種開(kāi)源模型和數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明論文方法可以使得LLM每次forward可以解碼2到3.2個(gè)tokens;并且實(shí)現(xiàn)了兩倍左右的端到端的解碼速度的提升。
