華為云語音語義創(chuàng)新Lab 2篇論文被多模態(tài)頂級會議 ACM MM 2022接收
華為云語音語義創(chuàng)新Lab 2篇論文被多模態(tài)頂級會議 ACM MM 2022接收
活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費滿送活動,其他客戶參與前請咨詢客戶經理
活動時間: 2020年8月12日-2020年9月11日
活動期間,華為云用戶通過活動頁面購買云服務,或使用上云禮包優(yōu)惠券在華為云官網新購云服務,累計新購實付付費金額達到一定額度,可兌換相應的實物禮品?;顒觾?yōu)惠券可在本活動頁面中“上云禮包”等方式獲取,在華為云官網直接購買(未使用年中云鉅惠活動優(yōu)惠券)或參與其他活動的訂單付費金額不計入統(tǒng)計范圍內;
活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費滿送活動,其他客戶參與前請咨詢客戶經理
視頻語言定位:Reducing the Vision and Language Bias for Temporal Sentence Grounding.
盡管之前的視頻語言定位的模型已經達到了很好的性能,但是這些方法通常傾向于捕捉數(shù)據(jù)集中的一些選擇性偏差,而不是真正學習到了非常魯棒的多模態(tài)推理能力,然而這種魯棒性的推理能力對于數(shù)據(jù)集中出現(xiàn)次數(shù)非常少的視頻-語言對非常重要。在這篇文章中,我們研究了上述的選擇性偏差,并提出了一個去偏視頻語言定位模型(Debiasing-TSG, D-TSG)。D-TSG模型可以在視頻模態(tài)和語言模態(tài)中過濾和移除負向偏差以增強模型的通用性。具體來說,我們從兩個方面去緩解這種選擇性偏差問題:1. 特征蒸餾,我們構建了一個多模態(tài)去偏分支首先捕捉到視覺和語言中的偏差,然后我們采用了一個偏差鑒定模塊去顯著識別負偏差并從多模態(tài)特征中移除它們。2. 對比樣本生成,我們構建了兩種類型的負樣本去強迫模型準確地學習對齊多模態(tài)語義,并進行完整的語義推理。我們將提出的D-TSG模型應用在常見的視頻語言定位的樣例以及低頻出現(xiàn)的樣例上,在三個數(shù)據(jù)集上都達到了最佳性能。

歌聲合成聲碼器:SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice Generation
近年來,深度學習在語音合成領域取得了重大進展,但在歌聲合成領域,由于歌聲具有連續(xù)發(fā)音較長、高頻變化明顯以及音色表現(xiàn)力強等特點,使得現(xiàn)有的為語音合成而設計的聲碼器并不能直接應用于歌聲合成中,這些聲碼器會導致生成的頻譜圖出現(xiàn)低頻毛刺和高頻重建模糊的情況。這項工作中,我們提出了 SingGAN,這是一種為高保真歌聲合成而設計的生成對抗網絡。具體來說,1)為了緩解低頻中的毛刺問題,我們提出了將F0構建的源激勵加入模型訓練,以穩(wěn)定長時間連續(xù)信號的生成;2)SingGAN引入不同尺度的全局和局部判別器,豐富低頻細節(jié),促進高頻重構;3)為了提高訓練效率,SingGAN 包括了輔助譜圖損失和子帶特征匹配懲罰損失。據(jù)我們所知,SingGAN 是第一個針對高保真歌聲合成而設計的聲碼器。我們對 SingGAN 的評估展示了具有更高質量(MOS 4.05)歌聲樣本的最新結果。此外,SingGAN 在單個 NVIDIA 2080Ti GPU 上的采樣速度比實時速度快 50 倍。我們也進一步表明,SingGAN 可以很好地推廣到未見歌手的歌聲合成上。如果對我們的歌聲合成效果感興趣的話,可以登入 https://SingGAN.github.io/ 查看效果。
