聚焦虛擬說話人生成技術(shù),華為云論文被人工智能語音領(lǐng)域頂級會議ICASSP2022接收
聚焦虛擬說話人生成技術(shù),華為云論文被人工智能語音領(lǐng)域頂級會議ICASSP2022接收
活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費(fèi)滿送活動,其他客戶參與前請咨詢客戶經(jīng)理
活動時(shí)間: 2020年8月12日-2020年9月11日
活動期間,華為云用戶通過活動頁面購買云服務(wù),或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購云服務(wù),累計(jì)新購實(shí)付付費(fèi)金額達(dá)到一定額度,可兌換相應(yīng)的實(shí)物禮品?;顒觾?yōu)惠券可在本活動頁面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購買(未使用年中云鉅惠活動優(yōu)惠券)或參與其他活動的訂單付費(fèi)金額不計(jì)入統(tǒng)計(jì)范圍內(nèi);
活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費(fèi)滿送活動,其他客戶參與前請咨詢客戶經(jīng)理
2022年5月7日至13日,人工智能語音領(lǐng)域國際頂級學(xué)術(shù)會議IEEE ICASSP 2022(2022 IEEE International Conference on Acoustics, Speech and Signal Processing)在線上召開,華為云語音語義創(chuàng)新Lab聯(lián)合2012先進(jìn)計(jì)算與存儲Lab類腦計(jì)算團(tuán)隊(duì),攜層層審核后被接收的語音驅(qū)動虛擬說話人的論文《Meta Talk: Learning to Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face with High Definition》參會。 IEEE ICASSP是語音處理及其應(yīng)用領(lǐng)域的頂級會議,錄用十分嚴(yán)格,今年的IEEE ICASSP投稿ID突破9000,根據(jù)官方結(jié)果,最終中稿1800篇被接收。
在本次錄取的工作中,華為研究團(tuán)隊(duì)主要圍繞語音驅(qū)動虛擬人進(jìn)行研究。語音驅(qū)動虛擬說話人模型,旨在生成與輸入語音能夠口型匹配的任意目標(biāo)人像虛擬說話人視頻。目前業(yè)界開發(fā)出了一些先進(jìn)的虛擬說話人生成模型,包括語音驅(qū)動的3D虛擬人視頻生成模型(AudioDVP) 和2D語音-口型生成模型(Wav2lip)。華為研究團(tuán)隊(duì)經(jīng)過多次實(shí)驗(yàn),發(fā)現(xiàn)AudioDVP僅有在數(shù)十小時(shí)大量訓(xùn)練數(shù)據(jù)下才能具有良好唇音同步效果,對應(yīng)目標(biāo)人物模特的訓(xùn)練數(shù)據(jù)錄制成本太高,一旦有更換模特的需求,則需要大量的人力物力來做重新準(zhǔn)備。另外,Wav2lip雖然在超過30小時(shí)的視頻數(shù)據(jù)下構(gòu)建了預(yù)訓(xùn)練模型,具有較好的泛化能力,但是生成的視頻清晰度較低,無法滿足應(yīng)用需求。
基于這些觀察,如下圖一,華為研究團(tuán)隊(duì)提出了一種新的虛擬說話人的生成方法Meta Talk,融合了AudioDVP和Wav2lip各自的優(yōu)點(diǎn),通過自適應(yīng)裁剪模塊、3D人臉模型重建和渲染等模塊相互配合,突破了僅需3分鐘的原始視頻,即可實(shí)現(xiàn)生成唇形同步的4K清晰度且達(dá)到真實(shí)照片逼真程度的虛擬說話人視頻的技術(shù)。
華為研究團(tuán)隊(duì)將此方法與SOTA方法進(jìn)行了測試和比較它們對于任意音頻的驅(qū)動性能,包括ATVG、Wav2lip、AudioDVP和MakeIttalk。如下表所示的用于任意輸入語音對口型性能的定量評價(jià)的度量LSE-D和LSE-C,以及用于評價(jià)圖像質(zhì)量的度量FID和SSIM給出的比較結(jié)果表明,所提方法的唇音同步性能與Wav2Lip相當(dāng),且生成的視頻圖像質(zhì)量最高。此外,如下圖所示,在用任意語音進(jìn)行驅(qū)動時(shí),所提方法與其他四種方法相比,其生成的虛擬說話人的口型與源視頻人物的口型的匹配程度更高,并且生成的人像視頻可以顯示更多的面部紋理細(xì)節(jié),甚至?xí)r人臉臉上的雀斑都能清晰可見。
相關(guān)論文請點(diǎn)擊鏈接:https://ieeexplore.ieee.org/document/9747284