五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

華為云語音語義創(chuàng)新Lab 2篇論文被多模態(tài)頂級(jí)會(huì)議 ACM MM 2022接收

華為云語音語義創(chuàng)新Lab 2篇論文被多模態(tài)頂級(jí)會(huì)議 ACM MM 2022接收

活動(dòng)規(guī)則

活動(dòng)對(duì)象:華為云電銷客戶及渠道伙伴客戶可參與消費(fèi)滿送活動(dòng),其他客戶參與前請(qǐng)咨詢客戶經(jīng)理

活動(dòng)時(shí)間: 2020年8月12日-2020年9月11日

活動(dòng)期間,華為云用戶通過活動(dòng)頁面購買云服務(wù),或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購云服務(wù),累計(jì)新購實(shí)付付費(fèi)金額達(dá)到一定額度,可兌換相應(yīng)的實(shí)物禮品?;顒?dòng)優(yōu)惠券可在本活動(dòng)頁面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購買(未使用年中云鉅惠活動(dòng)優(yōu)惠券)或參與其他活動(dòng)的訂單付費(fèi)金額不計(jì)入統(tǒng)計(jì)范圍內(nèi);

活動(dòng)對(duì)象:華為云電銷客戶及渠道伙伴客戶可參與消費(fèi)滿送活動(dòng),其他客戶參與前請(qǐng)咨詢客戶經(jīng)理

視頻語言定位:Reducing the Vision and Language Bias for Temporal Sentence Grounding.


       盡管之前的視頻語言定位的模型已經(jīng)達(dá)到了很好的性能,但是這些方法通常傾向于捕捉數(shù)據(jù)集中的一些選擇性偏差,而不是真正學(xué)習(xí)到了非常魯棒的多模態(tài)推理能力,然而這種魯棒性的推理能力對(duì)于數(shù)據(jù)集中出現(xiàn)次數(shù)非常少的視頻-語言對(duì)非常重要。在這篇文章中,我們研究了上述的選擇性偏差,并提出了一個(gè)去偏視頻語言定位模型(Debiasing-TSG, D-TSG)。D-TSG模型可以在視頻模態(tài)和語言模態(tài)中過濾和移除負(fù)向偏差以增強(qiáng)模型的通用性。具體來說,我們從兩個(gè)方面去緩解這種選擇性偏差問題:1. 特征蒸餾,我們構(gòu)建了一個(gè)多模態(tài)去偏分支首先捕捉到視覺和語言中的偏差,然后我們采用了一個(gè)偏差鑒定模塊去顯著識(shí)別負(fù)偏差并從多模態(tài)特征中移除它們。2. 對(duì)比樣本生成,我們構(gòu)建了兩種類型的負(fù)樣本去強(qiáng)迫模型準(zhǔn)確地學(xué)習(xí)對(duì)齊多模態(tài)語義,并進(jìn)行完整的語義推理。我們將提出的D-TSG模型應(yīng)用在常見的視頻語言定位的樣例以及低頻出現(xiàn)的樣例上,在三個(gè)數(shù)據(jù)集上都達(dá)到了最佳性能。

歌聲合成聲碼器:SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice Generation

       近年來,深度學(xué)習(xí)在語音合成領(lǐng)域取得了重大進(jìn)展,但在歌聲合成領(lǐng)域,由于歌聲具有連續(xù)發(fā)音較長、高頻變化明顯以及音色表現(xiàn)力強(qiáng)等特點(diǎn),使得現(xiàn)有的為語音合成而設(shè)計(jì)的聲碼器并不能直接應(yīng)用于歌聲合成中,這些聲碼器會(huì)導(dǎo)致生成的頻譜圖出現(xiàn)低頻毛刺和高頻重建模糊的情況。這項(xiàng)工作中,我們提出了 SingGAN,這是一種為高保真歌聲合成而設(shè)計(jì)的生成對(duì)抗網(wǎng)絡(luò)。具體來說,1)為了緩解低頻中的毛刺問題,我們提出了將F0構(gòu)建的源激勵(lì)加入模型訓(xùn)練,以穩(wěn)定長時(shí)間連續(xù)信號(hào)的生成;2)SingGAN引入不同尺度的全局和局部判別器,豐富低頻細(xì)節(jié),促進(jìn)高頻重構(gòu);3)為了提高訓(xùn)練效率,SingGAN 包括了輔助譜圖損失和子帶特征匹配懲罰損失。據(jù)我們所知,SingGAN 是第一個(gè)針對(duì)高保真歌聲合成而設(shè)計(jì)的聲碼器。我們對(duì) SingGAN 的評(píng)估展示了具有更高質(zhì)量(MOS 4.05)歌聲樣本的最新結(jié)果。此外,SingGAN 在單個(gè) NVIDIA 2080Ti GPU 上的采樣速度比實(shí)時(shí)速度快 50 倍。我們也進(jìn)一步表明,SingGAN 可以很好地推廣到未見歌手的歌聲合成上。如果對(duì)我們的歌聲合成效果感興趣的話,可以登入 https://SingGAN.github.io/ 查看效果。

       相關(guān)論文請(qǐng)點(diǎn)擊鏈接:https://arxiv.org/abs/2110.07468