華為云語(yǔ)音語(yǔ)義創(chuàng)新Lab 4篇論文被自然語(yǔ)言處理領(lǐng)域國(guó)際頂級(jí)會(huì)議ACL 2021接收
近期,自然語(yǔ)言處理頂會(huì)ACL-IJCNLP 2021放榜。本次大會(huì)共收到3350篇論文投稿,最終有21.3%的論文錄用到主會(huì),并額外接收了14.9%的論文到Findings子刊,綜合錄用率為36.2%。在本次大會(huì)中,華為云語(yǔ)音語(yǔ)義創(chuàng)新Lab共有4項(xiàng)研究成果(含F(xiàn)indings)被錄取。研究方向主要包括:詞法句法分析、關(guān)系抽取、醫(yī)療文本分析和文本生成等領(lǐng)域。本文將會(huì)概要介紹各項(xiàng)成果。
詞法句法分析:An In-depth Study on Internal Structure of Chinese Words.
與英文中的字母不同,漢字有豐富而具體的含義。通常,一個(gè)詞的意義在某種程度上可以由組成它的漢字派生出來(lái)。一些先前的句法分析工作提出對(duì)淺層詞內(nèi)部結(jié)構(gòu)進(jìn)行標(biāo)注從而更好地利用字級(jí)別的信息。本文提出將漢語(yǔ)詞的深層內(nèi)部結(jié)構(gòu)建模為包含11個(gè)標(biāo)簽的依存樹(shù),用于區(qū)分詞內(nèi)部結(jié)構(gòu)中不同的依存關(guān)系。首先,根據(jù)我們最新編寫的標(biāo)注規(guī)范,我們手工標(biāo)注了一個(gè)來(lái)源于中文賓州樹(shù)庫(kù)的包含超過(guò)3萬(wàn)個(gè)詞的詞內(nèi)部結(jié)構(gòu) (WIST) 樹(shù)庫(kù)。為了保證標(biāo)注質(zhì)量,每個(gè)詞都由兩個(gè)標(biāo)注人員獨(dú)立進(jìn)行標(biāo)注,由第三個(gè)標(biāo)注者處理標(biāo)注不一致情況。第二,我們對(duì)WIST進(jìn)行了詳細(xì)又有趣的分析,揭示了對(duì)漢語(yǔ)構(gòu)詞的一些見(jiàn)解。第三,我們提出了一個(gè)詞內(nèi)部結(jié)構(gòu)分析的新任務(wù),并基于一個(gè)先進(jìn)的句法分析器進(jìn)行了基準(zhǔn)實(shí)驗(yàn)。最后,我們提出了兩種簡(jiǎn)單的編碼詞內(nèi)部結(jié)構(gòu)的方法,在句法分析任務(wù)中驗(yàn)證了漢語(yǔ)詞內(nèi)部結(jié)構(gòu)的作用。
關(guān)系抽?。?/span>HacRED: A Large--Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications.
關(guān)系抽取是自然語(yǔ)言處理中的一個(gè)重要主題。當(dāng)前的關(guān)系抽取方法在通用數(shù)據(jù)集上通常都取得了非常好的效果,但是這些方法在應(yīng)用到實(shí)際場(chǎng)景中時(shí),往往會(huì)出現(xiàn)較大程度的性能下降。在本文中,我們分析了上述的情況,并發(fā)現(xiàn)出現(xiàn)這種性能下降的原因是實(shí)際場(chǎng)景中通常存在更多的困難樣例(hard cases)。為了使得關(guān)系抽取的模型在實(shí)際場(chǎng)景中也有魯棒的表現(xiàn),我們提出了一個(gè)樣例導(dǎo)向的構(gòu)建框架,并依托這個(gè)框架構(gòu)造了一個(gè)困難樣本關(guān)系抽取數(shù)據(jù)集(HacRED)。這個(gè)提出的數(shù)據(jù)集HacRED包含標(biāo)注自9231篇文檔中的65525個(gè)關(guān)系實(shí)例。這些關(guān)系實(shí)例的類型十分豐富。HacRED是目前最大的中文文檔級(jí)關(guān)系抽取數(shù)據(jù)集之一,并且具有非常高的數(shù)據(jù)質(zhì)量,其F1值為96%。最后,我們將目前最佳的關(guān)系抽取模型應(yīng)用在了HacRED數(shù)據(jù)集上,并進(jìn)行了深入的分析。結(jié)果表明,這些模型的效果相比人類的表現(xiàn)仍然有非常大的差距,這也表明,目前現(xiàn)有的關(guān)系抽取模型在解決實(shí)際場(chǎng)景中的困難樣例時(shí)仍需要更多的努力。
醫(yī)療文本分析:Analyzing Code Embeddings for Coding Clinical Narratives.
在醫(yī)療活動(dòng)中,醫(yī)療專業(yè)人員審查臨床報(bào)告,以分配用于計(jì)費(fèi)和護(hù)理管理的醫(yī)療代號(hào)。這個(gè)手工審查的過(guò)程效率十分低下并且容易出錯(cuò),因?yàn)槠渲邪⒚畹囊粚?duì)多的映射。最近出現(xiàn)了一些關(guān)于自動(dòng)學(xué)習(xí)ICD(國(guó)際疾病分類)代號(hào)的工作,它們學(xué)習(xí)報(bào)告的低維特征和編碼之間的映射關(guān)系。盡管這些方法提出了新穎的神經(jīng)網(wǎng)絡(luò)模型用以編碼不同類型的代號(hào)信息,但是醫(yī)療代號(hào)中的哪些信息有助于效果的提升,并且為什么能提升效果仍然是未知的。在本文中,我們利用一個(gè)單層的深度學(xué)習(xí)基線模型,對(duì)比了不同的方式去表征或嵌入這些醫(yī)療代號(hào)基于他們的文本、結(jié)構(gòu)、和統(tǒng)計(jì)特性。我們是在MIMIC-III重癥監(jiān)護(hù)病房數(shù)據(jù)庫(kù)的出院報(bào)告上進(jìn)行了定量實(shí)驗(yàn)。我們也定量分析了對(duì)代號(hào)嵌入貢獻(xiàn)最大的案例,并展示了代號(hào)嵌入對(duì)于預(yù)測(cè)模糊和傾斜的代碼十分重要。
文本生成:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models
本文研究了如何自動(dòng)生成描述知識(shí)圖譜中事實(shí)關(guān)系的自然語(yǔ)言文本。在few-shot的設(shè)定下,我們充分利用預(yù)訓(xùn)練模型的強(qiáng)大的語(yǔ)言理解和生成能力。我們介紹了三項(xiàng)主要的貢獻(xiàn),即表征對(duì)齊來(lái)解決知識(shí)圖譜編碼和預(yù)訓(xùn)練模型間的語(yǔ)義差距、關(guān)系偏移的知識(shí)圖譜線性化以獲得更好的輸入表征、多任務(wù)學(xué)習(xí)架構(gòu)以學(xué)習(xí)知識(shí)圖譜和文本之間的對(duì)應(yīng)關(guān)系。在三個(gè)數(shù)據(jù)集上的豐富實(shí)驗(yàn)展示了我們的模型在知識(shí)圖譜到文本生成上的有效性。值得稱道的是,我們的模型能夠在僅有幾百條有標(biāo)注數(shù)據(jù)的情況下,達(dá)到一個(gè)非常不錯(cuò)的性能。
完整論文列表:
An In-depth Study on Internal Structure of Chinese Words. In ACL 2021.
HacRED: A Large--Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications. In Findings of ACL 2021.
Analyzing Code Embeddings for Coding Clinical Narratives. In Findings of ACL 2021.
Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models. In Findings of ACL 2021.
隨時(shí)獲取華為云AI最新動(dòng)態(tài),歡迎關(guān)注華為云AI公眾號(hào):