五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

【論文筆記】語音情感識別之手工特征深度學(xué)習(xí)方法

本文章主體基于PilgrimHui的論文筆記:《語音情感識別(三)手工特征+CRNN》,在原來基礎(chǔ)上,補充了數(shù)據(jù)處理部分以及論文方法的一些細(xì)節(jié),歡迎語音情感分析領(lǐng)域的同學(xué)一起討論。

1. Emotion Recognition from Human Speech Using Temporal Information and Deep Learning2018 InterSpeech

1)數(shù)據(jù)處理:Hamming窗,窗大小30ms,窗移10ms得到多個frames。frame采用的特征向量為eGeMAPS特征集中的20個特征,得到長度為20維的向量。每個utterance使用裁剪和padding的做法使得定長512幀,所以輸入為20x512的矩陣。每個樣本歸一化到0均值1標(biāo)準(zhǔn)差(根據(jù)對應(yīng)的說話人)。使用的數(shù)據(jù)集為EmoDB。7分類。

2)模型方法:首層卷積只沿著時間方向卷,沒有頻率方向的卷積。經(jīng)過max pooling, global conv, max pooling等操作,得到128*64feature maps。按列輸入LSTM(長度為128的列向量)獲取時序特征,softmax分為7類。實驗時采用Leave-One-Speaker-Out測試效果。

3)準(zhǔn)確率為88.9%,跟傳統(tǒng)ComParE+SVM 86%的效果比,高出近3%。不過該數(shù)據(jù)集我實驗時6分類達到90+%。

 

2. Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss Function2018 InterSpeech

1)數(shù)據(jù)處理:IEMOCAP數(shù)據(jù),篩選出標(biāo)簽置信度大的樣本,按0.06s分幀,得到句子的平均幀731,設(shè)定統(tǒng)一句子長度F800(根據(jù)實驗)。使用的特征基于ComParE特征集,對每幀使用openSMILE庫提取了147LLDsLow level Descriptors)。

2)模型方法:語音情感識別方面的前人工作主要集中于特征和模型的探索,本文將triplet loss應(yīng)用到模型中,輸入三個樣本,用LSTM提取特征,訓(xùn)練。最后從loss層的前一層取出特征向量送到SVM分類。

3Triplet loss:錨點的選?。簭?/span>positive中選出離negative距離最近的點并且離positive其他點最遠(yuǎn)的點。如果從所有數(shù)據(jù)集選取計算量很大,因此在每個batch中選取。通過triplet loss學(xué)習(xí),使得錨點離負(fù)類遠(yuǎn),離正類近。triplet loss的好處是類內(nèi)距離變小,類間距離拉大。配合交叉熵的有監(jiān)督學(xué)習(xí),保留原始標(biāo)簽信息。

4)通常在一定長度內(nèi),句子越長情感識別的準(zhǔn)確率越高。并且情緒的信息往往在句子的中段,因此對于過長的句子掐頭去尾。

5)獲得等長輸入的做法有:計算一個utterance上很多幀特征,然后對這些幀做一個統(tǒng)計(比如均值,最大值等等);做裁剪和padding使得等長;全卷積加全局池化。

6)本文使用了三種padding策略,第一種就是按最后一幀的值pad直到達到指定長度,稱為pad mode。第二種就是按原序列從頭到尾的值進行pad,如果不夠長就繼續(xù)從原序列的頭到尾序列pad,重新多次,直到長度大于指定長度,取的時候從中間隨機選擇連續(xù)的F幀,稱為cycle mode,實驗證明cycle mode效果最好。第三種跟第二種類似,只不過是重復(fù)第一幀的值來pad,然后重復(fù)第二幀的值來pad,直到最后一幀的值,取的時候也是從中間隨機選擇連續(xù)的F幀。

對于長度大于F的句子,掐頭去尾保留連續(xù)的F幀。

7)數(shù)據(jù)集使用的IEMOCAP,值得一提的是這篇論文只是提出了新穎的方法(triplet losscycle mode),在實驗中的方法對比上并沒有凸出模型表現(xiàn)的優(yōu)勢。


3. Exploring Spatio-Temporal Representations by Integrating Attention-based Bidirectional-LSTM-RNNs and FCNs for Speech Emotion Recognition2018 InterSpeech

1)數(shù)據(jù)處理:一個句子按時間窗1024切分成多個幀,每幀的長度是1024個點,對每幀用YAAFE提取743維特征,之后用PCA做白化。IEMOCAP數(shù)據(jù)4分類。CHEAVD中文數(shù)據(jù)8分類。

2)模型方法:模型分為CNNBLSTM兩部分。CNN對句子的特征矩陣進行卷積,提取卷積特征。BLSTM沿時間軸進行時序建模,采用attention提取時序特征。最后拼接兩部分特征加全連接網(wǎng)絡(luò),預(yù)測最后標(biāo)簽。

3)實驗結(jié)果CHEAVDIEMOCAP上分別46.364WA,效果優(yōu)于單個CNNBLSTM模型,但相比業(yè)界其他模型效果一般。

 

4. Learning Spontaneity to Improve Emotion Recognition in Speech2018 InterSpeech

1)數(shù)據(jù)集為IEMOCAP,在識別情感之前先做一個自發(fā)性檢測,之后對于自發(fā)性的情感和念稿子的情感分別訓(xùn)練不同的SVM分類器。發(fā)現(xiàn)這么做可以提高表現(xiàn),而且自發(fā)性情感的準(zhǔn)確率會更高。

2)特征集使用的是InterSpeech 2009 挑戰(zhàn)賽的特征集,主要有MFCCZCR,VPF0等,共k維特征(每幀)。然后做平滑后計算一階delta,變成2k維。對這些特征計算12種統(tǒng)計量,最后得到24k維的向量。

3)啟發(fā):提前判別情感的自發(fā)性可提升SA效果,如果先判別性別等信息,是否能提升性能。

 

5. Automatic Speech Emotion Recognition Using Recurrent Neural Network with Local Attention2017 ICASSP

1)數(shù)據(jù)處理:25ms的時間窗,每秒100幀,每幀提取257維的FFT頻譜特征和32維的LLD特征,分別用于不同實驗。根據(jù)全數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差做正則化。IEMOCAP數(shù)據(jù)4分類。

2SER比較流行的傳統(tǒng)做法是在LLDs做統(tǒng)計得到HSFs然后喂給分類器(比如最常用的SVM),常用的LLDsHSFs如下圖所示。但是有個挑戰(zhàn)就是如何平衡這二者,因為LLDs是在短時幀上計算的靜態(tài)特征,HSFs是在一個utterance上對多個幀做統(tǒng)計聚合得到的動態(tài)特征,如果只使用HSFs的話會忽略“句子中有些沉默段或非感情段是無效區(qū)”這個事實,只使用LLDs的話特征層次太低,而且也沒有做顯著性區(qū)域捕捉。

2)模型方法:論文提出了Weighted Pooling的方法,對比通常的幾種做法,發(fā)現(xiàn)這么做可以提高準(zhǔn)確率。如下圖(a)就是傳統(tǒng)的做法通過計算HSFs然后喂給分類器的做法,圖(b)是給每一幀都分類標(biāo)簽然后計算損失,圖(c)是只取最后一個(和第一個)時間步的輸出,圖(d)是對所有時間步的輸出取均值,圖(e)就是利用注意力機制來做加權(quán)求和,圖(f)只是在(e)的基礎(chǔ)上把注意力的計算抽象成一個Attention Model。圖(e)WAUA效果最佳(63.5%58.8%)。

3Attention機制可以使模型聚焦到有聲音的幀,忽略掉靜音幀或噪音幀,可以取代VAD的作用。

4)數(shù)據(jù)集是IEMOCAP,輸入的特征使用了兩種,一種是原始聲譜(257維的FFT向量),一種是手工LLDs。論文還做了原始聲譜+DNN(下圖圖a的模型)和手工LLDs+SVM的對比,發(fā)現(xiàn)由DNN自己學(xué)習(xí)特征的模型可以得到更高的準(zhǔn)確率。

6. An End-to-End Deep Learning Framework with Speech Emotion Recognition of Atypical Individuals2018 InterSpeech

1)數(shù)據(jù)處理:音頻信號處理細(xì)節(jié)未給出,數(shù)據(jù)集為EmotAsS,由2018 InterSpeech挑戰(zhàn)賽提供,是非典型人群(殘疾人)的語音情感數(shù)據(jù)。

2)論文調(diào)查了三種特征,原始信號,CQT聲譜圖,STFT聲譜圖,發(fā)現(xiàn)STFT聲譜圖最好。

3)論文比較了三種模型,CRNN,ResNet,CNN結(jié)合擴展特征(openSMILE提取的COMPARE特征)。發(fā)現(xiàn)做了數(shù)據(jù)平衡后,CRNN的效果最好。沒做數(shù)據(jù)平衡前,CNN結(jié)合擴展特征的效果最好。

4)論文使用了數(shù)據(jù)增強和數(shù)據(jù)平衡技術(shù),可以提高模型表現(xiàn)。其中數(shù)據(jù)增強時speed rate0.9時效果最好(模型為CRNN)。

5)因為挑戰(zhàn)賽的baseline中,使用各種特征的SVM都打敗了端到端的框架,所以論文還做了SVM的實驗來證明論文的模型比SVM好,SVM使用的特征集分別有ComparEBoAW。

6)最后做結(jié)果級融合,融合SVMCRNN,效果達到最佳。

7. What is my Dog Trying to Tell me? The Automatic Recognition of The Context and Perceived Emotion of Dog Barks2018 ICASSP

1)數(shù)據(jù)描述:通過狗吠聲來識別狗的情感和狀態(tài),情感Emotion有五種(Aggression,Fear,Despair,Fun,Happiness),狀態(tài)Context有七種(Alone,Ball,Fight,Food,PlayStranger,Walk),數(shù)據(jù)集稱為EmoDog。含12只馬地犬,226句狗吠。

2)數(shù)據(jù)處理:論文使用的特征有eGeMAPS特征,ComparE特征,MFCC和一階差分,二階差分。做實驗時候把ComparE分成兩種:ComparE Prosprosodic韻律學(xué)的)和ComparE Specspectralcepstral頻譜和倒譜)。另外還使用了BoAW的模式來計算特征(使用openXBOW庫獲得)。

3)模型方法:論文主要對比不同特征集的效果,并無算法上的創(chuàng)新。下圖是不同特征在SVM上的分類結(jié)果,調(diào)用liblinear庫實現(xiàn)。另外論文還做了回歸預(yù)測的實驗,預(yù)測情感強度,調(diào)用libsvm庫來實現(xiàn)SVR。其中Emotion任務(wù)中88維的eGeMAPS特征的效果最佳,Context任務(wù)中ComParE特征集效果最好。

8. Towards Temporal Modelling of Categorical Speech Emotion Recognition2018 InterSpeech

1)一句話含有多個segments,作者假設(shè)不是每個segment都含有情緒。一些靜音、暫停、音素轉(zhuǎn)換、不發(fā)聲的音素等片段被認(rèn)為是不含情緒的。因此一句話可以切分成一系列片段,包含有情緒和無情緒兩類。通過基于LSTMCTC機制,可以對每個segment判斷是否有情緒,并且對應(yīng)到具體的情緒類別。

2)預(yù)處理方法:首先根據(jù)語音的標(biāo)注文本得到句子的音素序列:有文本時采用CMU發(fā)音字典可得,沒文本時采用ASR模型可得。每個音素對應(yīng)一個標(biāo)簽,但是當(dāng)前不知道語音的幀的邊界,即一個音素的起止點。

3CTC方法:句子按一定時間窗切片,LSTM-CTC模型將每個切片對應(yīng)到5類(Angry, Happy, Neutral, Sad,Null),之后去除連續(xù)類和Null類,如

B(Null Null Angry Null Angry Angry Null Null) = (Angry Angry)

B(Null Angry Angry Null Null Null Angry Null) = (Angry Angry)

最后跟對應(yīng)的音素標(biāo)簽求交叉熵loss。

4LSTM的輸出長度和標(biāo)簽長度不匹配,通常有三種做法,final-pooling取最后一幀輸出,mean-pooling對所有幀取平均,weighted-pooling利用注意力機制加權(quán)求和。本文使用了CTC的機制,實驗表明比之前三種方法要好。數(shù)據(jù)集為IEMOCAP。對于CTC的介紹見另一篇筆記CTC介紹。

5)輸入的幀水平特征為238LLDs(以GeMAPS2016 InterSpeech挑戰(zhàn)特征集ComparE為基礎(chǔ)),通過openSMILE庫獲得。


9. Emotion Identification from raw speech signals using DNNs2018 InterSpeech

1)數(shù)據(jù)處理:比較了不同的特征提取方法:MFCC,時域特征,頻域特征。MFCC采用23維的MFCC輸入到DNN;時域特征采用40ms的時間窗,窗移30ms,對每個時間窗采用一維卷積,卷積步移1.25ms,之后連接Network-in-NetworkNIN)非線性層,進行訓(xùn)練[6];頻域特征跟時域類似,不同的是對頻譜進行二維卷積,具體設(shè)定參考論文[16]IEMOCAP四分類。實驗結(jié)果標(biāo)明時域特征效果最佳。

2)模型方法:時延神經(jīng)網(wǎng)絡(luò)TDNN,卷積網(wǎng)絡(luò)CNN的前身,計算過程類似卷積,對限定時間窗下的頻譜矩陣進行全連接計算,并隨著時間軸往前推進。TDNN可以表達語音特征在時間上的關(guān)系。具體參考博客。

3TDNN-Statistics PoolingTDNN在每個時間窗下(含多個delayed frame)的輸出求均值和標(biāo)準(zhǔn)差,然后拼接多個均值和標(biāo)準(zhǔn)差,輸入到softmax層,如此,對輸入的多個frame將得到一個預(yù)測標(biāo)簽。缺點是對于靜音幀、非語音幀也計算了loss,而往往這些幀是不帶感情信息的。

4TDNN-LSTM:在TDNN上接LSTM,每幀的對應(yīng)一個標(biāo)簽。實驗中采用單向LSTM,效果優(yōu)于Bi-LSTM。

5TDNN-LSTM-AttentionTDNN-LSTM的基礎(chǔ)上接入Attention層,對無語音幀分配較低權(quán)重,不需要預(yù)處理的SAD檢測。效果優(yōu)于其余四種方法。

6LSTMLSTM-Attention:分別表示三層單向LSTM以及上面疊加attention層。在最頂層的LSTM輸出層接max pooling會有效提升性能。Attention的引入也對性能提升有幫助。

7)比較了不同的utterance(語音段)組織方法:一幀一個標(biāo)簽或者一utterance一個標(biāo)簽,發(fā)現(xiàn)一幀一個標(biāo)簽的結(jié)果更好。

8)還做了數(shù)據(jù)增強,對振幅和速度做了擾動。振幅采用10種不同的微調(diào),速度采用0.9, 1.0, 1.1 speed factors。發(fā)現(xiàn)可以WA提升6%,UA提升8%。

9)論文對utterance采用定長和變長的方式進行實驗,結(jié)果標(biāo)明采用固定的較大長度的chunks訓(xùn)練效果最佳,WAUA達到70.1%60.7%。論文實驗很充分,結(jié)果也優(yōu)于大多數(shù)sota算法,所有實驗用kaldi完成,論文作者中就有kaldi的作者daniel povey。


隨時獲取華為云AI最新動態(tài),歡迎關(guān)注華為云AI公眾號:

B8483785-C43D-4374-9026-618F8EBE3597.png