華為云阿拉伯語預訓練語言模型包攬阿拉伯語語言理解榜單ALUE前兩名
基于在自然語言理解和阿拉伯語NLP的沉淀,華為云語音語義創(chuàng)新Lab聯(lián)合華為諾亞實驗室,共同構建了阿拉伯語預訓練語言模型JABER和SABER。在業(yè)內權威的阿拉伯語預訓練語言模型榜單ALUE中,SABER與JABER分獲第一名和第二名的成績,相比榜單中第三名的阿語預訓練語言模型,整體評分分別提升10.2與6.6分。
近年來,預訓練語言模型成為自然語言處理研究領域中的重點方向,它對提升諸如問答、命名實體識別等下游NLP任務起著至關重要的問題。由于語法復雜、方言體系龐大等特點,已有的開源阿拉伯語預訓練語言模型通常面臨著諸多問題。華為云語音語義創(chuàng)新Lab與華為諾亞實驗室將阿語特性融入預訓練語言模型的訓練過程中,大幅提升模型對阿語的理解能力,在阿語NLP下游任務中都獲得了不錯的表現(xiàn)。
目前,我們已經(jīng)將阿拉伯語預訓練語言模型JABER所涉及的技術通過論文形式進行了公開,歡迎感興趣的同仁聯(lián)系我們,共同探索阿語預訓練語言模型技術。
隨時獲取華為云AI最新動態(tài),歡迎關注華為云AI公眾號: