五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

聚焦虛擬說話人生成技術,華為云論文被人工智能語音領域頂級會議ICASSP2022接收

聚焦虛擬說話人生成技術,華為云論文被人工智能語音領域頂級會議ICASSP2022接收

活動規(guī)則

活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費滿送活動,其他客戶參與前請咨詢客戶經(jīng)理

活動時間: 2020年8月12日-2020年9月11日

活動期間,華為云用戶通過活動頁面購買云服務,或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購云服務,累計新購實付付費金額達到一定額度,可兌換相應的實物禮品?;顒觾?yōu)惠券可在本活動頁面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購買(未使用年中云鉅惠活動優(yōu)惠券)或參與其他活動的訂單付費金額不計入統(tǒng)計范圍內(nèi);

活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費滿送活動,其他客戶參與前請咨詢客戶經(jīng)理

        2022年5月7日至13日,人工智能語音領域國際頂級學術會議IEEE ICASSP 2022(2022 IEEE International Conference on Acoustics, Speech and Signal Processing)在線上召開,華為云語音語義創(chuàng)新Lab聯(lián)合2012先進計算與存儲Lab類腦計算團隊,攜層層審核后被接收的語音驅(qū)動虛擬說話人的論文《Meta Talk: Learning to Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face with High Definition》參會。 IEEE ICASSP是語音處理及其應用領域的頂級會議,錄用十分嚴格,今年的IEEE ICASSP投稿ID突破9000,根據(jù)官方結(jié)果,最終中稿1800篇被接收。


       在本次錄取的工作中,華為研究團隊主要圍繞語音驅(qū)動虛擬人進行研究。語音驅(qū)動虛擬說話人模型,旨在生成與輸入語音能夠口型匹配的任意目標人像虛擬說話人視頻。目前業(yè)界開發(fā)出了一些先進的虛擬說話人生成模型,包括語音驅(qū)動的3D虛擬人視頻生成模型(AudioDVP) 和2D語音-口型生成模型(Wav2lip)。華為研究團隊經(jīng)過多次實驗,發(fā)現(xiàn)AudioDVP僅有在數(shù)十小時大量訓練數(shù)據(jù)下才能具有良好唇音同步效果,對應目標人物模特的訓練數(shù)據(jù)錄制成本太高,一旦有更換模特的需求,則需要大量的人力物力來做重新準備。另外,Wav2lip雖然在超過30小時的視頻數(shù)據(jù)下構(gòu)建了預訓練模型,具有較好的泛化能力,但是生成的視頻清晰度較低,無法滿足應用需求。


       基于這些觀察,如下圖一,華為研究團隊提出了一種新的虛擬說話人的生成方法Meta Talk,融合了AudioDVP和Wav2lip各自的優(yōu)點,通過自適應裁剪模塊、3D人臉模型重建和渲染等模塊相互配合,突破了僅需3分鐘的原始視頻,即可實現(xiàn)生成唇形同步的4K清晰度且達到真實照片逼真程度的虛擬說話人視頻的技術。

        華為研究團隊將此方法與SOTA方法進行了測試和比較它們對于任意音頻的驅(qū)動性能,包括ATVG、Wav2lip、AudioDVP和MakeIttalk。如下表所示的用于任意輸入語音對口型性能的定量評價的度量LSE-D和LSE-C,以及用于評價圖像質(zhì)量的度量FID和SSIM給出的比較結(jié)果表明,所提方法的唇音同步性能與Wav2Lip相當,且生成的視頻圖像質(zhì)量最高。此外,如下圖所示,在用任意語音進行驅(qū)動時,所提方法與其他四種方法相比,其生成的虛擬說話人的口型與源視頻人物的口型的匹配程度更高,并且生成的人像視頻可以顯示更多的面部紋理細節(jié),甚至時人臉臉上的雀斑都能清晰可見。

       相關論文請點擊鏈接:https://ieeexplore.ieee.org/document/9747284