華為云AI系統(tǒng)創(chuàng)新Lab論文Uni-Dubbing被國際頂級會(huì)議ACL錄用
華為云AI系統(tǒng)創(chuàng)新Lab論文Uni-Dubbing被國際頂級會(huì)議ACL錄用
活動(dòng)對象:華為云電銷客戶及渠道伙伴客戶可參與消費(fèi)滿送活動(dòng),其他客戶參與前請咨詢客戶經(jīng)理
活動(dòng)時(shí)間: 2020年8月12日-2020年9月11日
活動(dòng)期間,華為云用戶通過活動(dòng)頁面購買云服務(wù),或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購云服務(wù),累計(jì)新購實(shí)付付費(fèi)金額達(dá)到一定額度,可兌換相應(yīng)的實(shí)物禮品。活動(dòng)優(yōu)惠券可在本活動(dòng)頁面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購買(未使用年中云鉅惠活動(dòng)優(yōu)惠券)或參與其他活動(dòng)的訂單付費(fèi)金額不計(jì)入統(tǒng)計(jì)范圍內(nèi);
活動(dòng)對象:華為云電銷客戶及渠道伙伴客戶可參與消費(fèi)滿送活動(dòng),其他客戶參與前請咨詢客戶經(jīng)理
2024年5月16日,自然語言處理國際頂級會(huì)議ACL 2024公布了錄用論文結(jié)果。華為云AI系統(tǒng)創(chuàng)新Lab參與的研究論文《Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation》被ACL主會(huì)議接收。ACL是自然語言處理領(lǐng)域最受關(guān)注的國際學(xué)術(shù)會(huì)議之一,屬于CCF A類,對發(fā)表的文章有著嚴(yán)格的評審標(biāo)準(zhǔn),以確保所發(fā)表的研究成果具有較高的學(xué)術(shù)價(jià)值、原創(chuàng)性和影響力。ACL 2024 將于2024年8月11日至16日在泰國曼谷召開。論文主要內(nèi)容如下:
在語音合成領(lǐng)域,越來越重視采用多模態(tài)語音以提升魯棒性。該領(lǐng)域的一個(gè)關(guān)鍵挑戰(zhàn)是音頻與對應(yīng)視頻數(shù)據(jù)集的稀缺性。我們采用了一種方法,在多模態(tài)數(shù)據(jù)集的預(yù)訓(xùn)練階段中整合模態(tài)對齊,通過凍結(jié)視頻模態(tài)特征提取組件和預(yù)訓(xùn)練權(quán)重中的編碼器模塊,獨(dú)特地促進(jìn)了Zero-Shot泛化過程。我們將這種方法稱為“Uni-Dubbing”。我們的方法精細(xì)調(diào)整了多模態(tài)和單模態(tài)音頻數(shù)據(jù)。在多模態(tài)場景中,它實(shí)現(xiàn)了31.73%的詞錯(cuò)誤率(WER),優(yōu)于之前的33.9%最佳表現(xiàn)。在音調(diào)質(zhì)量和同步等指標(biāo)上也表現(xiàn)出色。在單模態(tài)音頻中,它實(shí)現(xiàn)了36.08%的WER,展示了對有限數(shù)據(jù)的適應(yīng)能力。它在視頻翻譯和音頻生成的各種語言任務(wù)中都證明了其領(lǐng)域泛化能力。在433小時(shí)的音頻數(shù)據(jù)訓(xùn)練后,它超越了使用200小時(shí)音頻視覺數(shù)據(jù)的技術(shù)。