华人AV在线播放,国产一级无码免费抖音

CCKS 2020篇章事件要素抽取比賽冠軍方案解析

賽題背景：

“事件抽取”是輿情分析領(lǐng)域和金融領(lǐng)域的重要任務(wù)之一，“事件”在金融領(lǐng)域是投資分析，資產(chǎn)管理的重要決策參考。“事件抽取”的挑戰(zhàn)體現(xiàn)在文本的復(fù)雜和任務(wù)的復(fù)雜。文本的復(fù)雜體現(xiàn)在事件抽取的輸入文本可能是句子、段落或者篇章，不定長(zhǎng)度的文本使得限制文本長(zhǎng)度的模型無(wú)法使用；任務(wù)的復(fù)雜體現(xiàn)在事件識(shí)別的任務(wù)包括：事件類型識(shí)別，和事件要素抽取。

“CCKS 2020面向金融領(lǐng)域的篇章事件要素抽取比賽”是由中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)主辦，該比賽主要針對(duì)篇章級(jí)中文金融文本中的事件要素進(jìn)行抽取，對(duì)于分析金融文本與投資決策具有十分重要的意義。

賽題任務(wù)：

本次比賽的文本范圍包括互聯(lián)網(wǎng)上的新聞文本，上市公司發(fā)布的公告文本。本次比賽的事件類型包括：股權(quán)質(zhì)押、股東減持、股東增持、股權(quán)凍結(jié)、破產(chǎn)清算、重大資產(chǎn)損失、重大安全事故、重大對(duì)外賠付、以及高層死亡九個(gè)事件類型。事件要素為對(duì)應(yīng)該事件類型的所有屬性信息，如事件類型為“破產(chǎn)清算”的事件要素包括：“發(fā)布公告時(shí)間”、“破產(chǎn)清算的公司”、“受理法院”、 “公司所屬行業(yè)”、 “裁定時(shí)間”。因此本次比賽需要輸入一段中文篇章級(jí)文本，

并輸出：事件類型和對(duì)應(yīng)的事件要素。

賽題難點(diǎn)：

1. 比賽數(shù)據(jù)主要來(lái)源于互聯(lián)網(wǎng)上的財(cái)經(jīng)類網(wǎng)站，篇章很長(zhǎng)，且數(shù)據(jù)中存在大量的轉(zhuǎn)義符號(hào)，以及由爬取不規(guī)范造成的要素混亂，比如多個(gè)金額之間的空格丟失。

2. 與句子級(jí)的要素抽取不同，本次比賽中的事件要素可以出現(xiàn)在篇章的各個(gè)位置，分布在多個(gè)不同的句子中，因此需要設(shè)計(jì)有效的篇章級(jí)要素抽取的方案。

3. 部分篇章中有屬于同一事件類型的多個(gè)事件同時(shí)存在的情況，比如一篇公告中描述了發(fā)生在多個(gè)時(shí)間的股東減持事件，因此，對(duì)應(yīng)于不同事件的要素需要準(zhǔn)確的抽取和組合。這類事件類型包括：股東減持，股東增持，股權(quán)凍結(jié)和股權(quán)質(zhì)押。剩余的事件類型在篇章中一般只存在單個(gè)需要抽取的事件。

4. 相較于英文，中文以字為單位，在事件要素的準(zhǔn)確抽取上更有挑戰(zhàn)。

模型策略：

針對(duì)篇章要素抽取，我們提出了一個(gè)先驗(yàn)信息增強(qiáng)的信息抽取框架，該框架包含三個(gè)主要步驟：事件類型預(yù)測(cè)，事件要素抽取，以及事件表格填充。事件類型預(yù)測(cè)對(duì)篇章描述的事件類型進(jìn)行分類。在最核心的事件要素抽取步驟中，區(qū)別于傳統(tǒng)的單句級(jí)別要素抽取，我們引入了來(lái)自事件類型的明確先驗(yàn)知識(shí)，這一信息有助于篇章內(nèi)不同句子在進(jìn)行要素抽取時(shí)關(guān)注要素的屬性一致。同時(shí)，我們利用了來(lái)自大規(guī)模預(yù)訓(xùn)練模型的潛在先驗(yàn)知識(shí)。最后我們使用啟發(fā)式的規(guī)則，對(duì)抽取出來(lái)的要素進(jìn)行組合和篩選，進(jìn)行事件表格的填充。

事件類型預(yù)測(cè)：

圖1 事件類型預(yù)測(cè)模型圖

事件類型預(yù)測(cè)是要素抽取的基礎(chǔ)，需要對(duì)整篇文本的信息進(jìn)行處理。在處理時(shí)，首先需要對(duì)篇章進(jìn)行分句處理，然后利用Encoder提取每個(gè)句子S_i的特征，得到對(duì)應(yīng)的編碼信息h_i。緊接著，我們利用Selector來(lái)挑選出篇章中最重要的信息用于分類。在這一步的嘗試中，我們嘗試了以CNN或者Bi-LSTM作為Encoder。對(duì)于Selector，我們嘗試了三種不同的策略，分別為：ONE [1], ATTENTION [2], 以及MAX [3]。在ONE策略中，我們用一個(gè)線性層對(duì)每個(gè)句子的編碼信息h_i進(jìn)行打分，取出得分最高的句子代表篇章的信息。在ATTENTION策略中，我們用一個(gè)注意力機(jī)制來(lái)獲得每個(gè)句子的權(quán)重，最后利用加權(quán)后的句子信息作為篇章的信息。在MAX策略中，我們直接對(duì)所有句子的編碼信息進(jìn)行最大池化操作，以池化后的信息代表整篇文章的信息。各種不同的Encoder和Selector的效果對(duì)比如下：

圖2 事件類型預(yù)測(cè)效果

根據(jù)圖2中的結(jié)果，可以看到BiLSTM-MAX模型取得了最好的效果，因此在比賽的兩個(gè)階段，我們都用這個(gè)模型進(jìn)行了篇章級(jí)事件類型預(yù)測(cè)。

事件要素抽取

在事件要素抽取環(huán)節(jié)，許多傳統(tǒng)的序列標(biāo)注的方法都可用于抽取篇章中的事件要素。在本次比賽中，我們對(duì)三種主流的序列標(biāo)注的方法都進(jìn)行了嘗試，包括CRF [4]、MRC [5]、以及Biaffine [6]，基于這些序列標(biāo)注模型對(duì)每一個(gè)句子分別進(jìn)行要素抽取?？紤]到篇章級(jí)文本中包含多個(gè)句子，為了提高要素抽取的效果，我們利用上一步預(yù)測(cè)出的事件類型，作為先驗(yàn)信息，來(lái)指導(dǎo)模型對(duì)要素的預(yù)測(cè)。同時(shí)，最近大規(guī)模預(yù)訓(xùn)練模型（Pre-trained Language Model，PLM）的興起，給自然語(yǔ)言處理領(lǐng)域帶來(lái)了巨大的效果提升。這些在大量文本上訓(xùn)練的模型，為下游任務(wù)提供了潛在的先驗(yàn)信息。在本次的競(jìng)賽中，我們也充分探索了不同的預(yù)訓(xùn)練模型，提出了PLM-CRF, PLM-MRC, 以及PLM-Biaffine三種不同的要素抽取框架。

圖3 事件要素抽取模型

如圖3中所示，我們?yōu)榫渥悠唇由鲜录愋妥鳛轭A(yù)訓(xùn)練語(yǔ)言模型的輸入，然后對(duì)編碼后的句子特征進(jìn)行要素抽取。在比賽中，為了驗(yàn)證先驗(yàn)事件類型信息的作用，我們用BERT-wwm-Chinese作為預(yù)訓(xùn)練語(yǔ)言模型PLM，然后在三種框架上進(jìn)行了實(shí)驗(yàn)，如下圖4，可以看到，在三種框架上，事件類型信息都帶來(lái)了顯著的效果提升。另外，PLM-Biaffine模型取得了與PLM-MRC模型類似的結(jié)果，但是訓(xùn)練時(shí)間要明顯更短?？紤]到數(shù)據(jù)量增大后的訓(xùn)練成本，我們采用了PLM-Biaffine框架作為我們本次競(jìng)賽中要素抽取的模型。

圖4：不同框架下先驗(yàn)事件類型效果對(duì)比

接下來(lái)我們探索了不同預(yù)訓(xùn)練語(yǔ)言模型PLM對(duì)要素抽取效果的影響，如圖5中所示，我們

對(duì)比了BERT-base、NEZHA-large等7種不同的模型，從結(jié)果上來(lái)看，NEZHA-large獲得了最高的結(jié)果，因此我們采用了NEZHA-large模型作為最終的PLM。

圖5 不同預(yù)訓(xùn)練語(yǔ)言模型的效果對(duì)比

事件表格填充

在獲得了篇章內(nèi)每個(gè)句子中抽取出的要素后，我們要將存在于多個(gè)句子中的事件要素進(jìn)行整合，同時(shí)根據(jù)不同的事件類型進(jìn)行事件表格填充。在本次比賽中，針對(duì)篇章中只存在單個(gè)事件的事件類型，我們計(jì)算從多個(gè)句子中抽取出的要素的最小內(nèi)聯(lián)距離，取出內(nèi)聯(lián)距離最小的組合，作為目標(biāo)事件要素組合。對(duì)于篇章中同時(shí)存在多個(gè)事件的事件類型，當(dāng)這些類型的篇章中存在表格時(shí)，要素一般集中在表格內(nèi)部，因此我們?cè)趯?duì)多個(gè)句子抽取出的事件要素進(jìn)行合并時(shí)，首先通過(guò)正則表達(dá)式定位出表格的位置，然后在表格范圍內(nèi)進(jìn)行要素的最小內(nèi)聯(lián)距離計(jì)算。當(dāng)這些類型的篇章中不存在表格時(shí)，通過(guò)在全文計(jì)算內(nèi)聯(lián)距離確定目標(biāo)事件要素。

比賽結(jié)果：

根據(jù)上面的實(shí)驗(yàn)對(duì)比，在本次比賽中，我們采用了BiLSTM-MAX的模型進(jìn)行事件類型預(yù)測(cè)，然后用NEZHA-large-Biaffine模型進(jìn)行事件要素抽取。在CCKS 2020篇章事件要素抽取比賽中，我們同時(shí)獲得了leaderboard A榜和B榜的第一名，以及技術(shù)創(chuàng)新獎(jiǎng)。

總結(jié)與討論：

本文對(duì)篇章事件要素抽取做了一些探索，包括用于事件類型識(shí)別的不同模型，以及事件要素抽取的三種不同框架，對(duì)來(lái)自事件類型的明確先驗(yàn)信息和預(yù)訓(xùn)練語(yǔ)言模型中的信息進(jìn)行了廣泛的驗(yàn)證，通過(guò)融合事件類型信息，和使用NEZHA-large預(yù)訓(xùn)練模型，極大地提高了要素抽取的效果，相信文本中提出的模型和方法可以幫助研究者們有效處理金融文本。

參考文獻(xiàn)：

[1] Zeng, D., Liu, K., Chen, Y., Zhao, J.: Distant supervision for relaftion extraction via piecewise convolutional neural networks. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. pp. 1753–1762 (2015)

[2] Lin, Y., Shen, S., Liu, Z., Luan, H., Sun, M.: Neural relation extraction with selective attention over instances. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). pp. 2124–2133 (2016)

[3] Jiang, X., Wang, Q., Li, P., Wang, B.: Relation extraction with multi-instance multi-label convolutional neural networks. In: Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. pp. 1471–1480 (2016)

[4] Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., Dyer, C.: Neural architectures for named entity recognition. In: Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. pp. 260–270 (2016)

[5] Li, X., Yin, F., Sun, Z., Li, X., Yuan, A., Chai, D., Zhou, M., Li, J.: Entity-relation extraction as multi-turn question answering. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. pp. 1340–1350 (2019)

[6] Yu, J., Bohnet, B., Poesio, M.: Named entity recognition as dependency parsing. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. pp. 6470–6476 (2020)

隨時(shí)獲取華為云AI最新動(dòng)態(tài)，歡迎關(guān)注華為云AI公眾號(hào)：

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

AI 系統(tǒng)創(chuàng)新Lab

CCKS 2020篇章事件要素抽取比賽冠軍方案解析

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

AI 系統(tǒng)創(chuàng)新Lab

溫馨提示

您好，登錄后才能參加活動(dòng)哦！

溫馨提示

恭喜您，訂閱成功！

溫馨提示

抱歉，訂閱失敗，請(qǐng)稍后再試！

溫馨提示

您還未綁定郵箱，需要綁定郵箱才能訂閱哦！訂閱成功后，訂閱信息會(huì)發(fā)送到您綁定的郵箱。

溫馨提示

請(qǐng)您在新打開(kāi)的頁(yè)面綁定郵箱！

CCKS 2020篇章事件要素抽取比賽冠軍方案解析

您好，登錄后才能參加活動(dòng)哦！

恭喜您，訂閱成功！

抱歉，訂閱失敗，請(qǐng)稍后再試！

您還未綁定郵箱，需要綁定郵箱才能訂閱哦！訂閱成功后，訂閱信息會(huì)發(fā)送到您綁定的郵箱。

請(qǐng)您在新打開(kāi)的頁(yè)面綁定郵箱！