全面解讀文本情感分析任務(wù)
【摘要】 文本情感分析在社交媒體、輿情監(jiān)測等領(lǐng)域有著廣泛的應(yīng)用,如商品評價正負(fù)面的分析、公司網(wǎng)絡(luò)評價正負(fù)面的監(jiān)測等。本文主要介紹了文本情感分析的主要任務(wù),包括詞級別的情感分析、句子級情感分析以及屬性級情感分析等任務(wù)的介紹,同時介紹了華為云在這三個任務(wù)上的一些進(jìn)展。用戶可以直接在EI體驗空間小程序體驗這些功能。
1. 基本概念
為什么:隨著移動互聯(lián)網(wǎng)的普及,網(wǎng)民已經(jīng)習(xí)慣于在網(wǎng)絡(luò)上表達(dá)意見和建議,比如電商網(wǎng)站上對商品的評價、社交媒體中對品牌、產(chǎn)品、政策的評價等等。這些評價中都蘊含著巨大的商業(yè)價值。比如某品牌公司可以分析社交媒體上廣大民眾對該品牌的評價,如果負(fù)面評價忽然增多,就可以快速采取相應(yīng)的行動。而這種正負(fù)面評價的分析就是情感分析的主要應(yīng)用場景。
是什么:文本情感分析旨在分析出文本中針對某個對象的評價的正負(fù)面,比如“華為手機(jī)非常好”就是一個正面評價。情感分析主要有五個要素,(entity/實體,aspect/屬性,sentiment/觀點,holder/觀點持有者,time/時間),其中實體和屬性合并稱為評價對象(target)。情感分析的目標(biāo)就是從非結(jié)構(gòu)化的文本評論中抽取出這五個要素。
圖1:情感分析五要素
舉例如下圖:
圖2:情感分析五要素例子
上例中左側(cè)為非結(jié)構(gòu)化的評論文本,右側(cè)為情感分析模型分析出的五個要素中的四個(不包括時間)。其中實體“華為手機(jī)”和屬性“拍照”合并起來可以作為評價對象。評價對象又可細(xì)分為評價對象詞抽取和評價對象類別識別。如實體可以是實體詞和實體類別,實體詞可以是“餐館”、“飯店”、“路邊攤”,而實體類別是“飯店”;屬性可以是屬性詞和屬性類別,如屬性詞可以是“水煮牛肉”、“三文魚”等,都對應(yīng)了屬性類別“食物”。實體類別和屬性類別相當(dāng)于是對實體詞和屬性詞的一層抽象和歸類,是一對多的關(guān)系。詞和類別分別對應(yīng)了不同的任務(wù)。觀點的取值范圍一般是{正面,負(fù)面,中性}。類似的,可以把觀點看做是對描述詞的抽象和歸類,如“好看”歸為“正面”。
2. 任務(wù)類型
當(dāng)前研究中一般都不考慮情感分析五要素中的觀點持有者和時間,故后文中的討論都不考慮這兩個因素。根據(jù)對剩下三個要素的簡化,當(dāng)前情感分析的主要任務(wù)包括可按照圖 3所示:詞級別情感分析、句子/文檔級情感分析、目標(biāo)級情感分析。
圖3:情感分析任務(wù)體系
其中詞級別和句子級別的分析對象分別是一個詞和整個句子的情感正負(fù)向,不區(qū)分句子中具體的目標(biāo),如實體或?qū)傩裕喈?dāng)于忽略了五要素中的實體和屬性這兩個要素。詞級別情感分析,即情感詞典構(gòu)建,研究的是如何給詞賦予情感信息,如“生日”對應(yīng)的情感標(biāo)簽是“正面”。句子級/篇章級情感分析研究的是如何給整個句子或篇章打情感標(biāo)簽,如“今天天氣非常好”對應(yīng)的情感標(biāo)簽是“正面”。
而目標(biāo)級情感分析是考慮了具體的目標(biāo),該目標(biāo)可以是實體、某個實體的屬性或?qū)嶓w加屬性的組合。具體可分為三種:Target-grounded aspect based sentiment analysis (TG-ABSA), Target no aspect based sentiment analysis (TN-ABSA), Target aspect based sentiment analysis (T-ABSA). 其中TG-ABSA的分析對象是給定某一個實體的情況下該實體給定屬性集合下的各個屬性的情感分析,如圖 4中的實體是汽車,屬性集合是動力、外觀、空間和油耗。
圖4:TG-ABSA例子
TN-ABSA的分析對象是文本中出現(xiàn)的實體的情感正負(fù)向,如圖 5中,實體華為和XX的情感正負(fù)向分別為正面和負(fù)面。這種情況下沒有屬性的概念,只有實體。
圖5:TN-ABSA例子
T-ABSA的分析對象是文本中出現(xiàn)的實體和屬性組合,如圖 6所示,評價對象是實體+屬性的組合,如華為+拍照和XX+性價比。
圖6:TG-ABSA例子
在清楚了目標(biāo)級情感分析的分類之后,每個類別又都可以包含為兩大類任務(wù):第一個是評價對象的識別,第二個是情感識別。評價對象識別包括評價對象詞抽取和評價對象詞分類,情感識別包括評價詞抽取和評價正負(fù)面分類。具體例子如圖 7所示。之所以要識別出對象詞和評價詞,是為了能夠基于屬性正負(fù)面過濾的時候可以高亮相應(yīng)的評價文本片段。
圖7:評價對象和評價詞和類別識別例子
本文主要介紹詞級別情感分析、句子級情感分析和目標(biāo)級情感分析中的T-ABSA的內(nèi)容、方法和華為云語音語義團(tuán)隊在該領(lǐng)域?qū)嵺`中的一些成果。這里首先區(qū)分一些概念,本文所說的情感,包括emotion和sentiment兩種。嚴(yán)格意義上來說sentiment屬于emotion的一種,但是本文中不做區(qū)分。
3. 詞級文本情感分析
3.1 任務(wù)介紹
詞級別的情感分析,即構(gòu)建情感詞典(sentiment lexicon),旨在給詞賦予情感信息。這里首先要確定的是情感怎么表示,常見的表示方法有離散表示法和多維度表示法。離散表示法如情感分析領(lǐng)域常用的{正面,負(fù)面,中性}的表示方法,或者如表
圖8:離散情感模型
用離散表示法表示的情感詞典如:
-
高興-正面
-
生日-正面
-
車禍-負(fù)面
-
災(zāi)難-負(fù)面
多維度表示法也有多種,如Valence-Arousal-Dominance(VAD)模型,Evaluation-Potency-Activity(EPA)模型等。Valence和Evaluation表示好壞,arousal和activity表示人的喚起度,dominance和potency表示控制力。
圖9:Valence-Arousal模型
用連續(xù)多維表示方法的情感詞典例子如:
-
VAD模型在[1,9]取值范圍下:車禍可表示為 (2.05, 6.26, 3.76)
3.2 常見的方法
構(gòu)建情感詞典常見的方法如圖 10所示:
圖10:常見情感詞典構(gòu)建方法
人工標(biāo)注優(yōu)點是準(zhǔn)確,缺點是成本太高。自動化方法中,都是先有人工標(biāo)注一些種子詞,然后通過不同的方法把種子詞的標(biāo)簽信息擴(kuò)展到其他詞。基于點互信息的方法會基于大規(guī)模語料庫統(tǒng)計新詞和種子詞之間的統(tǒng)計信息,然后基于該信息對種子詞做加權(quán)求和得到信息的情感標(biāo)簽?;跇?biāo)簽傳播的方法會先構(gòu)建詞和種子詞的一個圖,圖上的邊是基于詞和詞之間的統(tǒng)計信息獲得。然后用標(biāo)簽傳播的算法獲得新詞的情感信息。基于回歸的方法先構(gòu)建詞的特征向量表示,然后基于種子詞的標(biāo)簽信息訓(xùn)練一個回歸或分類模型,得到該模型后再對新詞做預(yù)測,獲得新詞的情感標(biāo)簽信息。
3.3 我們的進(jìn)展
我們團(tuán)隊基于已經(jīng)標(biāo)注的情感詞典,通過自動化的方法,構(gòu)建了當(dāng)前業(yè)界最大規(guī)模的多維度情感詞典。
圖11:情感詞典構(gòu)建流程
基于該方法,我們構(gòu)建了業(yè)界最大規(guī)模的情感詞典庫,采用了Valence-Arousal的二維情感表示模型,情感值取值范圍為[-1,.1](-1表示不好(對應(yīng)Valence維度)或無喚醒(對應(yīng)Arousal維度),1表示好或高喚醒度), 詞典包含六百萬詞,例子如下:
詞 |
Valence |
Arousal |
很開心 |
0.586 |
0.195 |
振奮 |
0.498 |
0.452 |
心如死灰 |
-0.884 |
0.058 |
壓力很大 |
-0.463 |
-0.014 |
圖12:構(gòu)建的情感詞典例子
4. 句子文本情感分析
4.1 任務(wù)介紹
句子級和篇章級文本情感分析旨在整個句子或文章表達(dá)的情感傾向性,如下例子:
-
買沒幾天就降價一點都不開心,閃存跑分就五百多點點
-
外觀漂亮音質(zhì)不錯,現(xiàn)在電子產(chǎn)品基本上都是華為的了
-
汽車不錯,省油,性價比高
-
這個政策好啊,利國利民 -
當(dāng)前各友商推出的情感分析服務(wù)大部分都是這種整體文本的正負(fù)向預(yù)測。句子級情感分析服務(wù)在互聯(lián)網(wǎng)時代的電商評論、政策評價中有著廣泛的應(yīng)用價值。句子級情感分析是一個典型的文本分類任務(wù),我們團(tuán)隊也采用了當(dāng)前比較有效的預(yù)訓(xùn)練模型+微調(diào)的方案,如下圖所示:
圖13:句子級情感分析方案
4.2 我們的進(jìn)展
當(dāng)前我們已經(jīng)上線了電商、汽車和社交領(lǐng)域的情感分析模型,主要支持中文語言,標(biāo)簽是正面和負(fù)面,帶有標(biāo)簽置信度。如下圖的例子所示,分別是手機(jī)、汽車和社交領(lǐng)域。
圖14:EI體驗空間電商領(lǐng)域、汽車領(lǐng)域和社交領(lǐng)域例子
5. 目標(biāo)級文本情感分析
5.1 任務(wù)介紹
前面介紹的句子級或篇章級的情感分析只關(guān)注整個文本的正負(fù)面,沒有區(qū)分文本中具體的評價對象。所以就處理不了如下的例子:
該例子對汽車的各個屬性的評價正負(fù)面是不一樣的,如對動力和外觀來說是正面,對空間和油耗來說是負(fù)面,所以就不能簡單的分析整體文本的正負(fù)面。本節(jié)介紹的目標(biāo)情感分析中的TG-ABSA任務(wù),即固定實體下的給定屬性集合的評價正負(fù)面的預(yù)測。
5.2 我們的進(jìn)展
傳統(tǒng)的屬性級情感分析可以采用每個屬性訓(xùn)練一個情感分類模型。但是這種方法需要訓(xùn)練多個分類模型,成本比較高。我們提出了基于單模型多屬性標(biāo)簽輸出的方法,即一個模型同時輸出N個屬性的情感標(biāo)簽。圖 15是當(dāng)前在汽車領(lǐng)域結(jié)果,其中Attribute Hit Rate是屬性的命中率,即預(yù)測出的屬性占評論中實際出現(xiàn)的比率。Hit Attribute Accuracy是命中的屬性標(biāo)簽預(yù)測的準(zhǔn)確率,即在所有命中的屬性中,標(biāo)簽預(yù)測正確屬性的占比。因為我們的模型可以輸出每個屬性標(biāo)簽的置信度,所以可以基于置信度過濾來調(diào)節(jié)模型最終的輸出標(biāo)簽,圖中是個曲線。圖 16是汽車領(lǐng)域?qū)傩约壡楦蟹治龅睦樱梢酝瑫r預(yù)測出評論中出現(xiàn)的動力和外觀兩個屬性對應(yīng)的正負(fù)面。該功能支持汽車領(lǐng)域的八個屬性的評價預(yù)測,包括:內(nèi)飾、動力、外觀、性價比、操控、能耗、空間、舒適性。
圖15:屬性級情感分析的效果
圖16:汽車領(lǐng)域?qū)傩郧楦蟹治隼?/span>
6 總結(jié)
本文介紹了情感分析的概念以及華為云在情感分析方面的實踐和進(jìn)展,部分服務(wù)已經(jīng)可以在我們的“EI體驗空間”小程序體驗,歡迎大家體驗并提出寶貴的意見。情感分析服務(wù)可以用于商品評價智能化分析、智能評分等,歡迎大家試用。
隨時獲取華為云AI最新動態(tài),歡迎關(guān)注華為云AI公眾號: