華為云語音語義創(chuàng)新Lab奪得CCKS篇章級事件抽取技術評測冠軍
事件抽取就是從自然語言文本中抽取出用戶感興趣的事件信息,并以結構化的形式呈現(xiàn)出來。金融領域的 “事件”則是指產品出現(xiàn)問題、高管減持、違法違規(guī)等信息。金融“事件”是金融領域投資分析,資產管理的重要決策參考。2020年中國網(wǎng)民規(guī)模達到了9.04億,網(wǎng)頁總數(shù)超3000億。如何從海量網(wǎng)絡信息中及時、高效地挖掘出金融“事件”是金融資管機構取得信息優(yōu)勢,構筑競爭力的焦點。
近日,在人工智能旗艦學術會議2020全國知識圖譜與語義計算大會(CCKS)上,華為云語音語義創(chuàng)新Lab與蘇州大學組成的聯(lián)合團隊在“面向金融領域的篇章級事件主體與要素抽取”評測任務中獲得第一名的佳績。
CCKS 2020面向金融領域的篇章事件要素抽取比賽主要針對篇章級中文金融文本中的事件要素進行抽取,篇章級中文金融文本中的事件要素進行抽取的挑戰(zhàn)在于,比賽數(shù)據(jù)主要來源于互聯(lián)網(wǎng)上的財經類網(wǎng)站,篇章很長,而且數(shù)據(jù)中存在大量的轉義符號以及由爬取不規(guī)范造成的要素混亂。比如多個金額之間的空格丟失。其次,與句子級的要素抽取不同,本次比賽中的事件要素可以出現(xiàn)在篇章的各個位置,分布在多個不同的句子中,因此需要設計有效的篇章級要素抽取的方案。
華為云語音語義創(chuàng)新Lab在本次比賽中運用的自然語言處理技術,可廣泛用于事件抽取、實體抽取等信息抽取場景。為了克服篇章事件要素抽取問題的一系列難點,華為云提出了一個由先驗信息增強的信息抽取框架,該框架包含三個主要步驟:事件類型預測,事件要素抽取,以及事件表格填充。
在最核心的事件要素抽取步驟中,采用華為自研的大規(guī)模預訓練語言模型NEZHA作為基礎模型,同時引入來自事件類型的明確先驗知識,大幅提升了篇章內不同句子在進行要素抽取時的一致性,取得了評測任務第一名的佳績。
通往第三代人工智之路需要將知識驅動和數(shù)據(jù)驅動相結合,知識計算正在成為行業(yè)知識與數(shù)據(jù)驅動AI結合的高效路徑。知識計算的標準流程包含知識獲取,知識建模,知識管理,知識應用。事件抽取是知識獲取的一種重要方式。高效、準確的事件抽取能力可以快速的將互聯(lián)網(wǎng)海量非結構化信息結構化,讓下一步的知識建模成為可能,為知識參與計算掃清入口障礙。
華為云語音語義創(chuàng)新Lab在人工智能語音語義領域接連奪得包括DiggScience 科學數(shù)據(jù)挖掘, NLPCC預訓練模型,CCF BDCI 金融實體情感分析,WSDM網(wǎng)絡搜索與數(shù)據(jù)挖掘在內的多項國際國內頂賽冠軍。華為云語音語義創(chuàng)新Lab 金融事件抽取技術已經在金融知識圖譜構建、金融輿情分析、智能客服,企業(yè)信息監(jiān)控、風險信用控制和智能投顧等多個場景應用,賦能客戶提升圖譜構建效率20%以上,憑借冠軍技術能力極大地提升了金融客戶的工作效率。
在華為云語音語義創(chuàng)新Lab領先的AI技術驅動和眾多生態(tài)伙伴的共同努力下,現(xiàn)已服務于國內50%的TOP20金融客戶。華為云語音語義創(chuàng)新Lab將繼續(xù)踐行普惠AI理念,為金融機構節(jié)省重復勞動成本,縮短服務響應時間,為用戶帶來更優(yōu)質的金融服務體驗。
隨時獲取華為云AI最新動態(tài),歡迎關注華為云AI公眾號: