華為云AI系統(tǒng)創(chuàng)新Lab論文被國際頂級會議AAAI錄用
華為云AI系統(tǒng)創(chuàng)新Lab論文被國際頂級會議AAAI錄用
活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費滿送活動,其他客戶參與前請咨詢客戶經(jīng)理
活動時間: 2020年8月12日-2020年9月11日
活動期間,華為云用戶通過活動頁面購買云服務(wù),或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購云服務(wù),累計新購實付付費金額達(dá)到一定額度,可兌換相應(yīng)的實物禮品?;顒觾?yōu)惠券可在本活動頁面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購買(未使用年中云鉅惠活動優(yōu)惠券)或參與其他活動的訂單付費金額不計入統(tǒng)計范圍內(nèi);
活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費滿送活動,其他客戶參與前請咨詢客戶經(jīng)理
2024年12月10日,人工智能國際頂級會議AAAI 2025公布了論文錄用結(jié)果。華為云AI系統(tǒng)創(chuàng)新Lab參與研究的論文《Multi-branch Self-Drafting for LLM Inference Acceleration》被AAAI主會議接收。這項成果展現(xiàn)了華為云AI系統(tǒng)創(chuàng)新lab在AI系統(tǒng)研究中的最新進(jìn)展和技術(shù)創(chuàng)新。AAAI是人工智能領(lǐng)域最受關(guān)注的國際學(xué)術(shù)會議之一,屬于CCF A類,在學(xué)術(shù)界享有極高的聲譽(yù),AAAI 對論文的評審標(biāo)準(zhǔn)嚴(yán)格,注重研究工作的學(xué)術(shù)價值、原創(chuàng)性以及對人工智能發(fā)展的潛在影響力。AAAI 2025將于2025年2月25日至3月4日在費城舉行,屆時全球的頂尖學(xué)者和企業(yè)將齊聚一堂,共同探討人工智能領(lǐng)域的前沿技術(shù)與未來發(fā)展方向。以下是論文的核心內(nèi)容概述:
在大語言模型(LLM)部署推理過程中,推理速度的主要瓶頸往往不是顯卡的算力,而是顯卡的內(nèi)存帶寬。這是因為在推理時,每解碼一個 token 都需要訪問模型的全部參數(shù),導(dǎo)致顯卡處于 memory-bound 狀態(tài)。為解決這一問題,常見的方法包括減少模型參數(shù)量,以及通過并行解碼策略增加每次模型 forward 解碼的 token 數(shù)量。研究者們注意到,大語言模型具有很強(qiáng)的魯棒性,即使輸入中存在一定噪音,也能生成質(zhì)量較高的解碼結(jié)果?;谶@一特性,這個工作擴(kuò)展了原始自回歸模型的解碼過程。具體而言,它在原始的解碼流程中增加了多個起草分支,這些分支用于生成與上下文高度相關(guān)的高質(zhì)量草稿。此外,此工作還注意到,業(yè)界一些常用的從語料庫中抽取草稿信息的方法,生成的結(jié)果通常更適合概括通用表達(dá),而非直接在上下文強(qiáng)相關(guān)的實際模型部署中使用。對此,此工作設(shè)計了一種緩存維護(hù)機(jī)制,用于同時管理兩類草稿信息。
在多種開源模型和數(shù)據(jù)集上的實驗結(jié)果表明論文方法可以使得LLM每次forward可以解碼2到3.2個tokens;并且實現(xiàn)了兩倍左右的端到端的解碼速度的提升。