丝袜91人妻人人操,成人无码高潮喷水精品视频在线不卡

【論文筆記】語音情感識別之手工特征深度學(xué)習(xí)方法

本文章主體基于PilgrimHui的論文筆記：《語音情感識別（三）手工特征+CRNN》，在原來基礎(chǔ)上，補充了數(shù)據(jù)處理部分以及論文方法的一些細(xì)節(jié)，歡迎語音情感分析領(lǐng)域的同學(xué)一起討論。

1. Emotion Recognition from Human Speech Using Temporal Information and Deep Learning（2018 InterSpeech）

（1）數(shù)據(jù)處理：Hamming窗，窗大小30ms，窗移10ms得到多個frames。每個frame采用的特征向量為eGeMAPS特征集中的20個特征，得到長度為20維的向量。每個utterance使用裁剪和padding的做法使得定長512幀，所以輸入為20x512的矩陣。每個樣本歸一化到0均值1標(biāo)準(zhǔn)差（根據(jù)對應(yīng)的說話人）。使用的數(shù)據(jù)集為EmoDB。7分類。

（2）模型方法：首層卷積只沿著時間方向卷，沒有頻率方向的卷積。經(jīng)過max pooling, global conv, max pooling等操作，得到128*64的feature maps。按列輸入LSTM（長度為128的列向量）獲取時序特征，softmax分為7類。實驗時采用Leave-One-Speaker-Out測試效果。

（3）準(zhǔn)確率為88.9%，跟傳統(tǒng)ComParE+SVM 86%的效果比，高出近3%。不過該數(shù)據(jù)集我實驗時6分類達到90+%。

2. Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss Function（2018 InterSpeech）

（1）數(shù)據(jù)處理：IEMOCAP數(shù)據(jù)，篩選出標(biāo)簽置信度大的樣本，按0.06s分幀，得到句子的平均幀731，設(shè)定統(tǒng)一句子長度F為800（根據(jù)實驗）。使用的特征基于ComParE特征集，對每幀使用openSMILE庫提取了147個LLDs（Low level Descriptors）。

（2）模型方法：語音情感識別方面的前人工作主要集中于特征和模型的探索，本文將triplet loss應(yīng)用到模型中，輸入三個樣本，用LSTM提取特征，訓(xùn)練。最后從loss層的前一層取出特征向量送到SVM分類。

（3）Triplet loss：錨點的選?。簭?/span>positive中選出離negative距離最近的點并且離positive其他點最遠(yuǎn)的點。如果從所有數(shù)據(jù)集選取計算量很大，因此在每個batch中選取。通過triplet loss學(xué)習(xí)，使得錨點離負(fù)類遠(yuǎn)，離正類近。triplet loss的好處是類內(nèi)距離變小，類間距離拉大。配合交叉熵的有監(jiān)督學(xué)習(xí)，保留原始標(biāo)簽信息。

（4）通常在一定長度內(nèi)，句子越長情感識別的準(zhǔn)確率越高。并且情緒的信息往往在句子的中段，因此對于過長的句子掐頭去尾。

（5）獲得等長輸入的做法有：計算一個utterance上很多幀特征，然后對這些幀做一個統(tǒng)計（比如均值，最大值等等）；做裁剪和padding使得等長；全卷積加全局池化。

（6）本文使用了三種padding策略，第一種就是按最后一幀的值pad直到達到指定長度，稱為pad mode。第二種就是按原序列從頭到尾的值進行pad，如果不夠長就繼續(xù)從原序列的頭到尾序列pad，重新多次，直到長度大于指定長度，取的時候從中間隨機選擇連續(xù)的F幀，稱為cycle mode，實驗證明cycle mode效果最好。第三種跟第二種類似，只不過是重復(fù)第一幀的值來pad，然后重復(fù)第二幀的值來pad，直到最后一幀的值，取的時候也是從中間隨機選擇連續(xù)的F幀。

對于長度大于F的句子，掐頭去尾保留連續(xù)的F幀。

（7）數(shù)據(jù)集使用的IEMOCAP，值得一提的是這篇論文只是提出了新穎的方法（triplet loss和cycle mode），在實驗中的方法對比上并沒有凸出模型表現(xiàn)的優(yōu)勢。

3. Exploring Spatio-Temporal Representations by Integrating Attention-based Bidirectional-LSTM-RNNs and FCNs for Speech Emotion Recognition（2018 InterSpeech）

（1）數(shù)據(jù)處理：一個句子按時間窗1024切分成多個幀，每幀的長度是1024個點，對每幀用YAAFE提取743維特征，之后用PCA做白化。IEMOCAP數(shù)據(jù)4分類。CHEAVD中文數(shù)據(jù)8分類。

（2）模型方法：模型分為CNN和BLSTM兩部分。CNN對句子的特征矩陣進行卷積，提取卷積特征。BLSTM沿時間軸進行時序建模，采用attention提取時序特征。最后拼接兩部分特征加全連接網(wǎng)絡(luò)，預(yù)測最后標(biāo)簽。

（3）實驗結(jié)果CHEAVD和IEMOCAP上分別46.3和64的WA，效果優(yōu)于單個CNN或BLSTM模型，但相比業(yè)界其他模型效果一般。

4. Learning Spontaneity to Improve Emotion Recognition in Speech（2018 InterSpeech）

（1）數(shù)據(jù)集為IEMOCAP，在識別情感之前先做一個自發(fā)性檢測，之后對于自發(fā)性的情感和念稿子的情感分別訓(xùn)練不同的SVM分類器。發(fā)現(xiàn)這么做可以提高表現(xiàn)，而且自發(fā)性情感的準(zhǔn)確率會更高。

（2）特征集使用的是InterSpeech 2009 挑戰(zhàn)賽的特征集，主要有MFCC，ZCR，VP，F0等，共k維特征（每幀）。然后做平滑后計算一階delta，變成2k維。對這些特征計算12種統(tǒng)計量，最后得到24k維的向量。

（3）啟發(fā)：提前判別情感的自發(fā)性可提升SA效果，如果先判別性別等信息，是否能提升性能。

5. Automatic Speech Emotion Recognition Using Recurrent Neural Network with Local Attention（2017 ICASSP）

（1）數(shù)據(jù)處理：25ms的時間窗，每秒100幀，每幀提取257維的FFT頻譜特征和32維的LLD特征，分別用于不同實驗。根據(jù)全數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差做正則化。IEMOCAP數(shù)據(jù)4分類。

（2）SER比較流行的傳統(tǒng)做法是在LLDs做統(tǒng)計得到HSFs然后喂給分類器（比如最常用的SVM），常用的LLDs和HSFs如下圖所示。但是有個挑戰(zhàn)就是如何平衡這二者，因為LLDs是在短時幀上計算的靜態(tài)特征，HSFs是在一個utterance上對多個幀做統(tǒng)計聚合得到的動態(tài)特征，如果只使用HSFs的話會忽略“句子中有些沉默段或非感情段是無效區(qū)”這個事實，只使用LLDs的話特征層次太低，而且也沒有做顯著性區(qū)域捕捉。

（2）模型方法：論文提出了Weighted Pooling的方法，對比通常的幾種做法，發(fā)現(xiàn)這么做可以提高準(zhǔn)確率。如下圖(a)就是傳統(tǒng)的做法通過計算HSFs然后喂給分類器的做法，圖(b)是給每一幀都分類標(biāo)簽然后計算損失，圖(c)是只取最后一個（和第一個）時間步的輸出，圖(d)是對所有時間步的輸出取均值，圖(e)就是利用注意力機制來做加權(quán)求和，圖(f)只是在(e)的基礎(chǔ)上把注意力的計算抽象成一個Attention Model。圖(e)的WA和UA效果最佳（63.5%，58.8%）。

（3）Attention機制可以使模型聚焦到有聲音的幀，忽略掉靜音幀或噪音幀，可以取代VAD的作用。

（4）數(shù)據(jù)集是IEMOCAP，輸入的特征使用了兩種，一種是原始聲譜（257維的FFT向量），一種是手工LLDs。論文還做了原始聲譜+DNN（下圖圖a的模型）和手工LLDs+SVM的對比，發(fā)現(xiàn)由DNN自己學(xué)習(xí)特征的模型可以得到更高的準(zhǔn)確率。

6. An End-to-End Deep Learning Framework with Speech Emotion Recognition of Atypical Individuals（2018 InterSpeech）

（1）數(shù)據(jù)處理：音頻信號處理細(xì)節(jié)未給出，數(shù)據(jù)集為EmotAsS，由2018 InterSpeech挑戰(zhàn)賽提供，是非典型人群（殘疾人）的語音情感數(shù)據(jù)。

（2）論文調(diào)查了三種特征，原始信號，CQT聲譜圖，STFT聲譜圖，發(fā)現(xiàn)STFT聲譜圖最好。

（3）論文比較了三種模型，CRNN，ResNet，CNN結(jié)合擴展特征（openSMILE提取的COMPARE特征）。發(fā)現(xiàn)做了數(shù)據(jù)平衡后，CRNN的效果最好。沒做數(shù)據(jù)平衡前，CNN結(jié)合擴展特征的效果最好。

（4）論文使用了數(shù)據(jù)增強和數(shù)據(jù)平衡技術(shù)，可以提高模型表現(xiàn)。其中數(shù)據(jù)增強時speed rate為0.9時效果最好（模型為CRNN）。

（5）因為挑戰(zhàn)賽的baseline中，使用各種特征的SVM都打敗了端到端的框架，所以論文還做了SVM的實驗來證明論文的模型比SVM好，SVM使用的特征集分別有ComparE和BoAW。

（6）最后做結(jié)果級融合，融合SVM和CRNN，效果達到最佳。

7. What is my Dog Trying to Tell me? The Automatic Recognition of The Context and Perceived Emotion of Dog Barks（2018 ICASSP）

（1）數(shù)據(jù)描述：通過狗吠聲來識別狗的情感和狀態(tài)，情感Emotion有五種（Aggression，Fear，Despair，Fun，Happiness），狀態(tài)Context有七種（Alone，Ball，Fight，Food，Play，Stranger，Walk），數(shù)據(jù)集稱為EmoDog。含12只馬地犬，226句狗吠。

（2）數(shù)據(jù)處理：論文使用的特征有eGeMAPS特征，ComparE特征，MFCC和一階差分，二階差分。做實驗時候把ComparE分成兩種：ComparE Pros（prosodic韻律學(xué)的）和ComparE Spec（spectral和cepstral頻譜和倒譜）。另外還使用了BoAW的模式來計算特征（使用openXBOW庫獲得）。

（3）模型方法：論文主要對比不同特征集的效果，并無算法上的創(chuàng)新。下圖是不同特征在SVM上的分類結(jié)果，調(diào)用liblinear庫實現(xiàn)。另外論文還做了回歸預(yù)測的實驗，預(yù)測情感強度，調(diào)用libsvm庫來實現(xiàn)SVR。其中Emotion任務(wù)中88維的eGeMAPS特征的效果最佳，Context任務(wù)中ComParE特征集效果最好。

8. Towards Temporal Modelling of Categorical Speech Emotion Recognition（2018 InterSpeech）

（1）一句話含有多個segments，作者假設(shè)不是每個segment都含有情緒。一些靜音、暫停、音素轉(zhuǎn)換、不發(fā)聲的音素等片段被認(rèn)為是不含情緒的。因此一句話可以切分成一系列片段，包含有情緒和無情緒兩類。通過基于LSTM的CTC機制，可以對每個segment判斷是否有情緒，并且對應(yīng)到具體的情緒類別。

（2）預(yù)處理方法：首先根據(jù)語音的標(biāo)注文本得到句子的音素序列：有文本時采用CMU發(fā)音字典可得，沒文本時采用ASR模型可得。每個音素對應(yīng)一個標(biāo)簽，但是當(dāng)前不知道語音的幀的邊界，即一個音素的起止點。

（3）CTC方法：句子按一定時間窗切片，LSTM-CTC模型將每個切片對應(yīng)到5類（Angry, Happy, Neutral, Sad，Null），之后去除連續(xù)類和Null類，如

B(Null Null Angry Null Angry Angry Null Null) = (Angry Angry)

B(Null Angry Angry Null Null Null Angry Null) = (Angry Angry)

最后跟對應(yīng)的音素標(biāo)簽求交叉熵loss。

（4）LSTM的輸出長度和標(biāo)簽長度不匹配，通常有三種做法，final-pooling取最后一幀輸出，mean-pooling對所有幀取平均，weighted-pooling利用注意力機制加權(quán)求和。本文使用了CTC的機制，實驗表明比之前三種方法要好。數(shù)據(jù)集為IEMOCAP。對于CTC的介紹見另一篇筆記CTC介紹。

（5）輸入的幀水平特征為238個LLDs（以GeMAPS和2016 InterSpeech挑戰(zhàn)特征集ComparE為基礎(chǔ)），通過openSMILE庫獲得。

9. Emotion Identification from raw speech signals using DNNs（2018 InterSpeech）

（1）數(shù)據(jù)處理：比較了不同的特征提取方法：MFCC，時域特征，頻域特征。MFCC采用23維的MFCC輸入到DNN；時域特征采用40ms的時間窗，窗移30ms，對每個時間窗采用一維卷積，卷積步移1.25ms，之后連接Network-in-Network（NIN）非線性層，進行訓(xùn)練[6]；頻域特征跟時域類似，不同的是對頻譜進行二維卷積，具體設(shè)定參考論文[16]。IEMOCAP四分類。實驗結(jié)果標(biāo)明時域特征效果最佳。

（2）模型方法：時延神經(jīng)網(wǎng)絡(luò)TDNN，卷積網(wǎng)絡(luò)CNN的前身，計算過程類似卷積，對限定時間窗下的頻譜矩陣進行全連接計算，并隨著時間軸往前推進。TDNN可以表達語音特征在時間上的關(guān)系。具體參考博客。

（3）TDNN-Statistics Pooling：TDNN在每個時間窗下（含多個delayed frame）的輸出求均值和標(biāo)準(zhǔn)差，然后拼接多個均值和標(biāo)準(zhǔn)差，輸入到softmax層，如此，對輸入的多個frame將得到一個預(yù)測標(biāo)簽。缺點是對于靜音幀、非語音幀也計算了loss，而往往這些幀是不帶感情信息的。

（4）TDNN-LSTM：在TDNN上接LSTM，每幀的對應(yīng)一個標(biāo)簽。實驗中采用單向LSTM，效果優(yōu)于Bi-LSTM。

（5）TDNN-LSTM-Attention：TDNN-LSTM的基礎(chǔ)上接入Attention層，對無語音幀分配較低權(quán)重，不需要預(yù)處理的SAD檢測。效果優(yōu)于其余四種方法。

（6）LSTM，LSTM-Attention：分別表示三層單向LSTM以及上面疊加attention層。在最頂層的LSTM輸出層接max pooling會有效提升性能。Attention的引入也對性能提升有幫助。

（7）比較了不同的utterance（語音段）組織方法：一幀一個標(biāo)簽或者一utterance一個標(biāo)簽，發(fā)現(xiàn)一幀一個標(biāo)簽的結(jié)果更好。

（8）還做了數(shù)據(jù)增強，對振幅和速度做了擾動。振幅采用10種不同的微調(diào)，速度采用0.9, 1.0, 1.1 speed factors。發(fā)現(xiàn)可以WA提升6%，UA提升8%。

（9）論文對utterance采用定長和變長的方式進行實驗，結(jié)果標(biāo)明采用固定的較大長度的chunks訓(xùn)練效果最佳，WA和UA達到70.1%和60.7%。論文實驗很充分，結(jié)果也優(yōu)于大多數(shù)sota算法，所有實驗用kaldi完成，論文作者中就有kaldi的作者daniel povey。

隨時獲取華為云AI最新動態(tài)，歡迎關(guān)注華為云AI公眾號：

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

AI 系統(tǒng)創(chuàng)新Lab

【論文筆記】語音情感識別之手工特征深度學(xué)習(xí)方法

1. Emotion Recognition from Human Speech Using Temporal Information and Deep Learning（2018 InterSpeech）

2. Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss Function（2018 InterSpeech）

3. Exploring Spatio-Temporal Representations by Integrating Attention-based Bidirectional-LSTM-RNNs and FCNs for Speech Emotion Recognition（2018 InterSpeech）

4. Learning Spontaneity to Improve Emotion Recognition in Speech（2018 InterSpeech）

5. Automatic Speech Emotion Recognition Using Recurrent Neural Network with Local Attention（2017 ICASSP）

6. An End-to-End Deep Learning Framework with Speech Emotion Recognition of Atypical Individuals（2018 InterSpeech）

7. What is my Dog Trying to Tell me? The Automatic Recognition of The Context and Perceived Emotion of Dog Barks（2018 ICASSP）

8. Towards Temporal Modelling of Categorical Speech Emotion Recognition（2018 InterSpeech）

9. Emotion Identification from raw speech signals using DNNs（2018 InterSpeech）

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

AI 系統(tǒng)創(chuàng)新Lab

溫馨提示

您好，登錄后才能參加活動哦！

溫馨提示

恭喜您，訂閱成功！

溫馨提示

抱歉，訂閱失敗，請稍后再試！

溫馨提示

您還未綁定郵箱，需要綁定郵箱才能訂閱哦！訂閱成功后，訂閱信息會發(fā)送到您綁定的郵箱。

溫馨提示

請您在新打開的頁面綁定郵箱！

【論文筆記】語音情感識別之手工特征深度學(xué)習(xí)方法

1. Emotion Recognition from Human Speech Using Temporal Information and Deep Learning（2018 InterSpeech）

2. Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss Function（2018 InterSpeech）

3. Exploring Spatio-Temporal Representations by Integrating Attention-based Bidirectional-LSTM-RNNs and FCNs for Speech Emotion Recognition（2018 InterSpeech）

4. Learning Spontaneity to Improve Emotion Recognition in Speech（2018 InterSpeech）

5. Automatic Speech Emotion Recognition Using Recurrent Neural Network with Local Attention（2017 ICASSP）

6. An End-to-End Deep Learning Framework with Speech Emotion Recognition of Atypical Individuals（2018 InterSpeech）

7. What is my Dog Trying to Tell me? The Automatic Recognition of The Context and Perceived Emotion of Dog Barks（2018 ICASSP）

8. Towards Temporal Modelling of Categorical Speech Emotion Recognition（2018 InterSpeech）

9. Emotion Identification from raw speech signals using DNNs（2018 InterSpeech）

您好，登錄后才能參加活動哦！

恭喜您，訂閱成功！

抱歉，訂閱失敗，請稍后再試！

您還未綁定郵箱，需要綁定郵箱才能訂閱哦！訂閱成功后，訂閱信息會發(fā)送到您綁定的郵箱。

請您在新打開的頁面綁定郵箱！