大陆精选三级色色碰视频,伊人婷婷五月天在线

華為云語音語義創(chuàng)新Lab 2篇論文被多模態(tài)頂級(jí)會(huì)議 ACM MM 2022接收

視頻語言定位：Reducing the Vision and Language Bias for Temporal Sentence Grounding.

盡管之前的視頻語言定位的模型已經(jīng)達(dá)到了很好的性能，但是這些方法通常傾向于捕捉數(shù)據(jù)集中的一些選擇性偏差，而不是真正學(xué)習(xí)到了非常魯棒的多模態(tài)推理能力，然而這種魯棒性的推理能力對(duì)于數(shù)據(jù)集中出現(xiàn)次數(shù)非常少的視頻-語言對(duì)非常重要。在這篇文章中，我們研究了上述的選擇性偏差，并提出了一個(gè)去偏視頻語言定位模型（Debiasing-TSG， D-TSG）。D-TSG模型可以在視頻模態(tài)和語言模態(tài)中過濾和移除負(fù)向偏差以增強(qiáng)模型的通用性。具體來說，我們從兩個(gè)方面去緩解這種選擇性偏差問題：1. 特征蒸餾，我們構(gòu)建了一個(gè)多模態(tài)去偏分支首先捕捉到視覺和語言中的偏差，然后我們采用了一個(gè)偏差鑒定模塊去顯著識(shí)別負(fù)偏差并從多模態(tài)特征中移除它們。2. 對(duì)比樣本生成，我們構(gòu)建了兩種類型的負(fù)樣本去強(qiáng)迫模型準(zhǔn)確地學(xué)習(xí)對(duì)齊多模態(tài)語義，并進(jìn)行完整的語義推理。我們將提出的D-TSG模型應(yīng)用在常見的視頻語言定位的樣例以及低頻出現(xiàn)的樣例上，在三個(gè)數(shù)據(jù)集上都達(dá)到了最佳性能。

歌聲合成聲碼器：SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice Generation

近年來，深度學(xué)習(xí)在語音合成領(lǐng)域取得了重大進(jìn)展，但在歌聲合成領(lǐng)域，由于歌聲具有連續(xù)發(fā)音較長、高頻變化明顯以及音色表現(xiàn)力強(qiáng)等特點(diǎn)，使得現(xiàn)有的為語音合成而設(shè)計(jì)的聲碼器并不能直接應(yīng)用于歌聲合成中，這些聲碼器會(huì)導(dǎo)致生成的頻譜圖出現(xiàn)低頻毛刺和高頻重建模糊的情況。這項(xiàng)工作中，我們提出了 SingGAN，這是一種為高保真歌聲合成而設(shè)計(jì)的生成對(duì)抗網(wǎng)絡(luò)。具體來說，1）為了緩解低頻中的毛刺問題，我們提出了將F0構(gòu)建的源激勵(lì)加入模型訓(xùn)練，以穩(wěn)定長時(shí)間連續(xù)信號(hào)的生成；2）SingGAN引入不同尺度的全局和局部判別器，豐富低頻細(xì)節(jié)，促進(jìn)高頻重構(gòu)；3）為了提高訓(xùn)練效率，SingGAN 包括了輔助譜圖損失和子帶特征匹配懲罰損失。據(jù)我們所知，SingGAN 是第一個(gè)針對(duì)高保真歌聲合成而設(shè)計(jì)的聲碼器。我們對(duì) SingGAN 的評(píng)估展示了具有更高質(zhì)量（MOS 4.05）歌聲樣本的最新結(jié)果。此外，SingGAN 在單個(gè) NVIDIA 2080Ti GPU 上的采樣速度比實(shí)時(shí)速度快 50 倍。我們也進(jìn)一步表明，SingGAN 可以很好地推廣到未見歌手的歌聲合成上。如果對(duì)我們的歌聲合成效果感興趣的話，可以登入 https://SingGAN.github.io/ 查看效果。

相關(guān)論文請(qǐng)點(diǎn)擊鏈接：https://arxiv.org/abs/2110.07468

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

AI 系統(tǒng)創(chuàng)新Lab

AI 系統(tǒng)創(chuàng)新Lab

華為云語音語義創(chuàng)新Lab 2篇論文被多模態(tài)頂級(jí)會(huì)議 ACM MM 2022接收

華為云語音語義創(chuàng)新Lab 2篇論文被多模態(tài)頂級(jí)會(huì)議 ACM MM 2022接收