五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

CCKS 2020篇章事件要素抽取比賽冠軍方案解析

賽題背景:

事件抽取是輿情分析領(lǐng)域和金融領(lǐng)域的重要任務(wù)之一,事件在金融領(lǐng)域是投資分析,資產(chǎn)管理的重要決策參考。事件抽取的挑戰(zhàn)體現(xiàn)在文本的復(fù)雜和任務(wù)的復(fù)雜。文本的復(fù)雜體現(xiàn)在事件抽取的輸入文本可能是句子、段落或者篇章,不定長(zhǎng)度的文本使得限制文本長(zhǎng)度的模型無(wú)法使用;任務(wù)的復(fù)雜體現(xiàn)在事件識(shí)別的任務(wù)包括:事件類型識(shí)別,和事件要素抽取。

 CCKS 2020面向金融領(lǐng)域的篇章事件要素抽取比賽”是由中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)主辦,該比賽主要針對(duì)篇章級(jí)中文金融文本中的事件要素進(jìn)行抽取,對(duì)于分析金融文本與投資決策具有十分重要的意義。

 

賽題任務(wù):

本次比賽的文本范圍包括互聯(lián)網(wǎng)上的新聞文本,上市公司發(fā)布的公告文本。本次比賽的事件類型包括:股權(quán)質(zhì)押、股東減持、股東增持、股權(quán)凍結(jié)、破產(chǎn)清算、重大資產(chǎn)損失、重大安全事故、重大對(duì)外賠付、以及高層死亡九個(gè)事件類型。事件要素為對(duì)應(yīng)該事件類型的所有屬性信息,如事件類型為“破產(chǎn)清算”的事件要素包括:“發(fā)布公告時(shí)間”、“破產(chǎn)清算的公司”、受理法院、公司所屬行業(yè)、裁定時(shí)間。因此本次比賽需要輸入一段中文篇章級(jí)文本,

并輸出:事件類型和對(duì)應(yīng)的事件要素。

 

賽題難點(diǎn):

1.      比賽數(shù)據(jù)主要來(lái)源于互聯(lián)網(wǎng)上的財(cái)經(jīng)類網(wǎng)站,篇章很長(zhǎng),且數(shù)據(jù)中存在大量的轉(zhuǎn)義符號(hào),以及由爬取不規(guī)范造成的要素混亂,比如多個(gè)金額之間的空格丟失。

2.      與句子級(jí)的要素抽取不同,本次比賽中的事件要素可以出現(xiàn)在篇章的各個(gè)位置,分布在多個(gè)不同的句子中,因此需要設(shè)計(jì)有效的篇章級(jí)要素抽取的方案。

3.      部分篇章中有屬于同一事件類型的多個(gè)事件同時(shí)存在的情況,比如一篇公告中描述了發(fā)生在多個(gè)時(shí)間的股東減持事件,因此,對(duì)應(yīng)于不同事件的要素需要準(zhǔn)確的抽取和組合。這類事件類型包括:股東減持,股東增持,股權(quán)凍結(jié)和股權(quán)質(zhì)押。剩余的事件類型在篇章中一般只存在單個(gè)需要抽取的事件。

4.      相較于英文,中文以字為單位,在事件要素的準(zhǔn)確抽取上更有挑戰(zhàn)。

 

模型策略:

針對(duì)篇章要素抽取,我們提出了一個(gè)先驗(yàn)信息增強(qiáng)的信息抽取框架,該框架包含三個(gè)主要步驟:事件類型預(yù)測(cè),事件要素抽取,以及事件表格填充。事件類型預(yù)測(cè)對(duì)篇章描述的事件類型進(jìn)行分類。在最核心的事件要素抽取步驟中,區(qū)別于傳統(tǒng)的單句級(jí)別要素抽取,我們引入了來(lái)自事件類型的明確先驗(yàn)知識(shí),這一信息有助于篇章內(nèi)不同句子在進(jìn)行要素抽取時(shí)關(guān)注要素的屬性一致。同時(shí),我們利用了來(lái)自大規(guī)模預(yù)訓(xùn)練模型的潛在先驗(yàn)知識(shí)。最后我們使用啟發(fā)式的規(guī)則,對(duì)抽取出來(lái)的要素進(jìn)行組合和篩選,進(jìn)行事件表格的填充。

 

事件類型預(yù)測(cè):

1 事件類型預(yù)測(cè)模型圖

事件類型預(yù)測(cè)是要素抽取的基礎(chǔ),需要對(duì)整篇文本的信息進(jìn)行處理。在處理時(shí),首先需要對(duì)篇章進(jìn)行分句處理,然后利用Encoder提取每個(gè)句子Si的特征,得到對(duì)應(yīng)的編碼信息hi。緊接著,我們利用Selector來(lái)挑選出篇章中最重要的信息用于分類。在這一步的嘗試中,我們嘗試了以CNN或者Bi-LSTM作為Encoder。對(duì)于Selector,我們嘗試了三種不同的策略,分別為:ONE [1], ATTENTION [2], 以及MAX [3]。在ONE策略中,我們用一個(gè)線性層對(duì)每個(gè)句子的編碼信息hi進(jìn)行打分,取出得分最高的句子代表篇章的信息。在ATTENTION策略中,我們用一個(gè)注意力機(jī)制來(lái)獲得每個(gè)句子的權(quán)重,最后利用加權(quán)后的句子信息作為篇章的信息。在MAX策略中,我們直接對(duì)所有句子的編碼信息進(jìn)行最大池化操作,以池化后的信息代表整篇文章的信息。各種不同的EncoderSelector的效果對(duì)比如下:

2 事件類型預(yù)測(cè)效果

根據(jù)圖2中的結(jié)果,可以看到BiLSTM-MAX模型取得了最好的效果,因此在比賽的兩個(gè)階段,我們都用這個(gè)模型進(jìn)行了篇章級(jí)事件類型預(yù)測(cè)。

 

事件要素抽取

在事件要素抽取環(huán)節(jié),許多傳統(tǒng)的序列標(biāo)注的方法都可用于抽取篇章中的事件要素。在本次比賽中,我們對(duì)三種主流的序列標(biāo)注的方法都進(jìn)行了嘗試,包括CRF [4]、MRC [5]、以及Biaffine [6],基于這些序列標(biāo)注模型對(duì)每一個(gè)句子分別進(jìn)行要素抽取??紤]到篇章級(jí)文本中包含多個(gè)句子,為了提高要素抽取的效果,我們利用上一步預(yù)測(cè)出的事件類型,作為先驗(yàn)信息,來(lái)指導(dǎo)模型對(duì)要素的預(yù)測(cè)。同時(shí),最近大規(guī)模預(yù)訓(xùn)練模型(Pre-trained Language Model,PLM)的興起,給自然語(yǔ)言處理領(lǐng)域帶來(lái)了巨大的效果提升。這些在大量文本上訓(xùn)練的模型,為下游任務(wù)提供了潛在的先驗(yàn)信息。在本次的競(jìng)賽中,我們也充分探索了不同的預(yù)訓(xùn)練模型,提出了PLM-CRF, PLM-MRC, 以及PLM-Biaffine三種不同的要素抽取框架。

3 事件要素抽取模型

如圖3中所示,我們?yōu)榫渥悠唇由鲜录愋妥鳛轭A(yù)訓(xùn)練語(yǔ)言模型的輸入,然后對(duì)編碼后的句子特征進(jìn)行要素抽取。在比賽中,為了驗(yàn)證先驗(yàn)事件類型信息的作用,我們用BERT-wwm-Chinese作為預(yù)訓(xùn)練語(yǔ)言模型PLM,然后在三種框架上進(jìn)行了實(shí)驗(yàn),如下圖4,可以看到,在三種框架上,事件類型信息都帶來(lái)了顯著的效果提升。另外,PLM-Biaffine模型取得了與PLM-MRC模型類似的結(jié)果,但是訓(xùn)練時(shí)間要明顯更短??紤]到數(shù)據(jù)量增大后的訓(xùn)練成本,我們采用了PLM-Biaffine框架作為我們本次競(jìng)賽中要素抽取的模型。

4:不同框架下先驗(yàn)事件類型效果對(duì)比

接下來(lái)我們探索了不同預(yù)訓(xùn)練語(yǔ)言模型PLM對(duì)要素抽取效果的影響,如圖5中所示,我們

對(duì)比了BERT-base、NEZHA-large7種不同的模型,從結(jié)果上來(lái)看,NEZHA-large獲得了最高的結(jié)果,因此我們采用了NEZHA-large模型作為最終的PLM。

5 不同預(yù)訓(xùn)練語(yǔ)言模型的效果對(duì)比

事件表格填充

在獲得了篇章內(nèi)每個(gè)句子中抽取出的要素后,我們要將存在于多個(gè)句子中的事件要素進(jìn)行整合,同時(shí)根據(jù)不同的事件類型進(jìn)行事件表格填充。在本次比賽中,針對(duì)篇章中只存在單個(gè)事件的事件類型,我們計(jì)算從多個(gè)句子中抽取出的要素的最小內(nèi)聯(lián)距離,取出內(nèi)聯(lián)距離最小的組合,作為目標(biāo)事件要素組合。對(duì)于篇章中同時(shí)存在多個(gè)事件的事件類型,當(dāng)這些類型的篇章中存在表格時(shí),要素一般集中在表格內(nèi)部,因此我們?cè)趯?duì)多個(gè)句子抽取出的事件要素進(jìn)行合并時(shí),首先通過(guò)正則表達(dá)式定位出表格的位置,然后在表格范圍內(nèi)進(jìn)行要素的最小內(nèi)聯(lián)距離計(jì)算。當(dāng)這些類型的篇章中不存在表格時(shí),通過(guò)在全文計(jì)算內(nèi)聯(lián)距離確定目標(biāo)事件要素。

 

比賽結(jié)果:

根據(jù)上面的實(shí)驗(yàn)對(duì)比,在本次比賽中,我們采用了BiLSTM-MAX的模型進(jìn)行事件類型預(yù)測(cè),然后用NEZHA-large-Biaffine模型進(jìn)行事件要素抽取。在CCKS 2020篇章事件要素抽取比賽中,我們同時(shí)獲得了leaderboard A榜和B榜的第一名,以及技術(shù)創(chuàng)新獎(jiǎng)。

總結(jié)與討論:

本文對(duì)篇章事件要素抽取做了一些探索,包括用于事件類型識(shí)別的不同模型,以及事件要素抽取的三種不同框架,對(duì)來(lái)自事件類型的明確先驗(yàn)信息和預(yù)訓(xùn)練語(yǔ)言模型中的信息進(jìn)行了廣泛的驗(yàn)證,通過(guò)融合事件類型信息,和使用NEZHA-large預(yù)訓(xùn)練模型,極大地提高了要素抽取的效果,相信文本中提出的模型和方法可以幫助研究者們有效處理金融文本。

 

參考文獻(xiàn):

[1] Zeng, D., Liu, K., Chen, Y., Zhao, J.: Distant supervision for relaftion extraction via piecewise convolutional neural networks. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. pp. 1753–1762 (2015)

[2] Lin, Y., Shen, S., Liu, Z., Luan, H., Sun, M.: Neural relation extraction with selective attention over instances. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). pp. 2124–2133 (2016)

[3] Jiang, X., Wang, Q., Li, P., Wang, B.: Relation extraction with multi-instance multi-label convolutional neural networks. In: Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. pp. 1471–1480 (2016)

[4] Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., Dyer, C.: Neural architectures for named entity recognition. In: Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. pp. 260–270 (2016)

[5] Li, X., Yin, F., Sun, Z., Li, X., Yuan, A., Chai, D., Zhou, M., Li, J.: Entity-relation extraction as multi-turn question answering. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. pp. 1340–1350 (2019)

[6] Yu, J., Bohnet, B., Poesio, M.: Named entity recognition as dependency parsing. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. pp. 6470–6476 (2020)


 

隨時(shí)獲取華為云AI最新動(dòng)態(tài),歡迎關(guān)注華為云AI公眾號(hào):

B8483785-C43D-4374-9026-618F8EBE3597.png