热热色原网址 - 百度,久久思思热这里只有精品18

華為云WSDM Cup 2020大賽奪得金牌，參賽方案全解讀

近日，在美國(guó)休斯敦閉幕的第13屆網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘國(guó)際會(huì)議（WSDM 2020）上，華為云語(yǔ)音語(yǔ)義創(chuàng)新Lab帶領(lǐng)來自華南理工大學(xué)、華中科技大學(xué)、江南大學(xué)、武漢大學(xué)學(xué)生組成的聯(lián)合團(tuán)隊(duì)，摘得WSDM Cup 2020大賽“論文引用意圖識(shí)別任務(wù)”金牌（Gold Medal）。 WSDM被譽(yù)為全球信息檢索領(lǐng)域最有影響力也最權(quán)威的會(huì)議之一，會(huì)議關(guān)注社交網(wǎng)絡(luò)上的搜索與數(shù)據(jù)挖掘，尤其關(guān)注搜索與數(shù)據(jù)挖掘模型、算法設(shè)計(jì)與分析、產(chǎn)業(yè)應(yīng)用和提升準(zhǔn)確性與效果的實(shí)驗(yàn)分析。今年已經(jīng)是WSDM的第十三屆會(huì)議。本文將詳細(xì)介紹本次獲獎(jiǎng)的解決方案。

1、背景

幾個(gè)世紀(jì)以來，社會(huì)技術(shù)進(jìn)步的關(guān)鍵在于科學(xué)家之間坦誠(chéng)的學(xué)術(shù)交流。新發(fā)現(xiàn)和新理論在已發(fā)表的文章中公開分發(fā)和討論，有影響力的貢獻(xiàn)則通常被研究界以引文的形式認(rèn)可。然而，隨著科研經(jīng)費(fèi)申請(qǐng)競(jìng)爭(zhēng)日趨激烈，越來越多的人把學(xué)術(shù)研究當(dāng)成一種資源爭(zhēng)奪的手段，而不是單純?yōu)榱送苿?dòng)知識(shí)進(jìn)步。部分期刊作者“被迫”在特定期刊中引用相關(guān)文章，以提高期刊的影響因子，而論文審稿人也只能增加期刊的引用次數(shù)或h指數(shù)。這些行為是對(duì)科學(xué)家和技術(shù)人員所要求的最高誠(chéng)信的冒犯，如果放任這種情況發(fā)展，可能會(huì)破壞公眾的信任并阻礙科學(xué)技術(shù)的未來發(fā)展。因此，本次WSDM Cup 2020賽題之一將重點(diǎn)放在識(shí)別作者的引文意圖：要求參賽者開發(fā)一種系統(tǒng)，該系統(tǒng)可以識(shí)別學(xué)術(shù)文章中給定段落的引文意圖并檢索相關(guān)內(nèi)容。

華為云語(yǔ)音語(yǔ)義創(chuàng)新Lab在自然語(yǔ)言處理領(lǐng)域有著全棧的技術(shù)積累，包括自然語(yǔ)言處理基礎(chǔ)中的分詞、句法解析，自然語(yǔ)言理解中的情感分析、文本分類、語(yǔ)義匹配，自然語(yǔ)言生成，對(duì)話機(jī)器人，知識(shí)圖譜等領(lǐng)域。其中和本次比賽最相關(guān)的技術(shù)是語(yǔ)義匹配技術(shù)。Xiong團(tuán)隊(duì)通過對(duì)賽題任務(wù)進(jìn)行分析，針對(duì)該問題制定了一種“整體召回+重排+集成”的方案，該方案以輕量化的文本相似度計(jì)算方法（如BM25等）對(duì)文章進(jìn)行召回，然后基于深度學(xué)習(xí)的預(yù)訓(xùn)練語(yǔ)言模型BERT等進(jìn)行重排，最后通過模型融合進(jìn)行集成。

2、賽題介紹

本次比賽將提供一個(gè)論文庫(kù)（約含80萬(wàn)篇論文），同時(shí)提供對(duì)論文的描述段落，來自論文中對(duì)同類研究的介紹。參賽選手需要為描述段落匹配三篇最相關(guān)的論文。 例子： 描述： An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced. 相關(guān)論文： [1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.

3、數(shù)據(jù)分析

本次賽題共給出80多萬(wàn)條候選論文，6萬(wàn)多條訓(xùn)練樣本和3萬(wàn)多條本測(cè)試樣本，候選論文包含paper_id，title，abstract，journal，keyword，year這六個(gè)字段的信息，訓(xùn)練樣本包含description_id，paper_id，description_text這三個(gè)字段的信息，而測(cè)試數(shù)據(jù)則給出description_id和description_text兩個(gè)字段，需要匹配出相應(yīng)的paper_id。我們對(duì)數(shù)據(jù)中候選論文的title，abstract以及描述文本的長(zhǎng)度做了一些統(tǒng)計(jì)分析，如圖1所示，從圖中我們可以看到文本長(zhǎng)度都比較長(zhǎng)，并且針對(duì)我們后續(xù)的單模型，我們將模型最大長(zhǎng)度從300增加到512后，性能提升了大約1%。

圖1：候選論文的Title（a），Abstract（b）以及描述文本（c）的長(zhǎng)度分布

4、整體方案

我們方案的整體架構(gòu)如圖2所示，整體方案分為四個(gè)部分：數(shù)據(jù)處理，候選論文的召回，候選論文的重排以及模型融合。

圖2：整體方案架構(gòu)（部分圖引自[5]）

4.1 數(shù)據(jù)處理

Description Text	Extracted Key Sentence
Rat brain membrane preparation and opioid binding was performed as described previously by Loukas et al. [[##]]. Briefly, binding was performed in Tris-HCl buffer (10 mM, pH 7.4), in a final volume of 1.0 ml. The protein concentration was 300 μg/assay.	Rat brain membrane preparation and opioid binding was performed as described previously by Loukas et al.

表1：描述關(guān)鍵句生成

通過觀察數(shù)據(jù)我們發(fā)現(xiàn)，在標(biāo)題給出的描述語(yǔ)句中，有許多相同的描述文本，但是參考標(biāo)記的位置卻不同。也就是說，在同一篇文章中，不同的句子引用了不同的論文。為此，我們抽取句子中引用標(biāo)記位置處的語(yǔ)句作為新的描述語(yǔ)句生成候選集。如表1所示，我們選取描述中[[**##**]]之前的句子作為描述關(guān)鍵句。

4.2 候選論文召回

如圖3所示，我們運(yùn)用BM25和TF-IDF來進(jìn)行論文的召回，選取BM25召回的前80篇論文和TF-IDF召回的前20篇論文構(gòu)成并集組成最終的召回論文。

圖3：召回示意圖

4.3候選論文重排

在本方案中，我們用BERT模型作為基礎(chǔ)模型，BERT是一種能在基于查詢的文章重排任務(wù)中取得良好性能的語(yǔ)義表示模型。通過觀察數(shù)據(jù)發(fā)現(xiàn)，論文主要數(shù)據(jù)生物醫(yī)學(xué)領(lǐng)域，于是我們聚焦到采用生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)訓(xùn)練預(yù)訓(xùn)練模型。然后將查詢與描述字段以句子對(duì)的形式輸入進(jìn)BERT模型進(jìn)行訓(xùn)練。我們的實(shí)驗(yàn)表明，在該任務(wù)上，單個(gè)的BioBERT的性能要比BERT性能高5個(gè)百分點(diǎn)。如圖4為BioBERT的結(jié)構(gòu)圖。

圖4：BioBERT結(jié)構(gòu)圖 (圖引自[6])

4.4 模型融合

在模型融合的過程中，我們運(yùn)用了6種共9個(gè)經(jīng)過科學(xué)和生物醫(yī)藥語(yǔ)料庫(kù)訓(xùn)練的預(yù)訓(xùn)練模型分別為：BioBERT_v1.1* 3， BioBERT_v1.0_PubMed_PMC * 2， BioBERT_v1.0_PubMed* 1，BioBERT_v1.0_PMC * 1， BioBERT_dish*1，SciBERT* 1。他們的單模型在該任務(wù)中的性能如表2所示。

Method	MAP@3
BioBERT_v1.1	0.394
BioBERT_v1.0_PubMed_PMC	0.391
BioBERT_v1.0_PubMed	0.382
BioBERT_v1.0_PMC	0.380
SciBERT	0.374
BioBERT_dish [10]	0.365
Blended Model	0.407

表2 單模型性能

然后我們對(duì)單模型輸出的概率結(jié)果進(jìn)行blending操作如圖5所示，得到最后的模型結(jié)果，其比最好的單模型結(jié)果提升了1個(gè)百分點(diǎn)左右。

圖5：模型融合

5、總結(jié)與展望

本文主要對(duì)比賽中所使用的關(guān)鍵技術(shù)進(jìn)行了介紹，如數(shù)據(jù)處理，候選論文的召回與重排，模型融合等。在比賽中使用專有領(lǐng)域訓(xùn)練后的預(yù)訓(xùn)練模型較通用領(lǐng)域預(yù)訓(xùn)練模型效果有較大的提升。由于比賽時(shí)間的限制，許多方法還沒來得及試驗(yàn)，比如在比賽中由于正負(fù)樣本不平衡，導(dǎo)致模型訓(xùn)練結(jié)果不理想，可以合理的使用上采樣或下采樣來使樣本達(dá)到相對(duì)平衡，提升模型訓(xùn)練效果。

參考文獻(xiàn)

[1] Yang W, Zhang H, Lin J. Simple applications of BERT for ad hoc document retrieval[J]. arXiv preprint arXiv:1903.10972, 2019.

[2] Gupta V, Chinnakotla M, Shrivastava M. Retrieve and re-rank: A simple and effective IR approach to simple question answering over knowledge graphs[C]//Proceedings of the First Workshop on Fact Extraction and VERification (FEVER). 2018: 22-27.

[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802.05365, 2018.

[4] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019, 1(8): 9.

[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. (2018) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805,.

[6] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang,(2019) BioBERT: a pre-trained biomedical language representation model for biomedical text mining, Bioinformatics,

[7] Iz Beltagy, Kyle Lo, Arman Cohan. (2019) SciBERT: A Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676SciBERT: A Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676, 2019.

[8] Nogueira R, Cho K.(2019) Passage Re-ranking with BERT. arXiv preprint arXiv:1901.04085.

[9] Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.

隨時(shí)獲取華為云AI最新動(dòng)態(tài)，歡迎關(guān)注華為云AI公眾號(hào)：

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

AI 系統(tǒng)創(chuàng)新Lab

華為云WSDM Cup 2020大賽奪得金牌，參賽方案全解讀

1、背景

2、賽題介紹

3、數(shù)據(jù)分析

4、整體方案

4.1 數(shù)據(jù)處理

4.2 候選論文召回

4.3候選論文重排

4.4 模型融合

5、總結(jié)與展望

參考文獻(xiàn)

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

AI 系統(tǒng)創(chuàng)新Lab

溫馨提示

您好，登錄后才能參加活動(dòng)哦！

溫馨提示

恭喜您，訂閱成功！

溫馨提示

抱歉，訂閱失敗，請(qǐng)稍后再試！

溫馨提示

您還未綁定郵箱，需要綁定郵箱才能訂閱哦！訂閱成功后，訂閱信息會(huì)發(fā)送到您綁定的郵箱。

溫馨提示

請(qǐng)您在新打開的頁(yè)面綁定郵箱！

華為云WSDM Cup 2020大賽奪得金牌，參賽方案全解讀

1、背景

2、賽題介紹

3、數(shù)據(jù)分析

4、整體方案

4.1 數(shù)據(jù)處理

4.2 候選論文召回

4.3候選論文重排

4.4 模型融合

5、總結(jié)與展望

參考文獻(xiàn)

您好，登錄后才能參加活動(dòng)哦！

恭喜您，訂閱成功！

抱歉，訂閱失敗，請(qǐng)稍后再試！

您還未綁定郵箱，需要綁定郵箱才能訂閱哦！訂閱成功后，訂閱信息會(huì)發(fā)送到您綁定的郵箱。

請(qǐng)您在新打開的頁(yè)面綁定郵箱！

華為云WSDM Cup 2020大賽奪得金牌，參賽方案全解讀

1、背景

2、賽題介紹

3、數(shù)據(jù)分析

4、整體方案

5、總結(jié)與展望