現(xiàn)在,AI 大模型可以真正與物理世界結(jié)合了。
該大模型體系分為 10 億級參數(shù)的 Pangu E 端側(cè)模型,百億級參數(shù)的 Pangu P,千億級的 Pangu U,以及萬億級的 Pangu S 版本,在全系列、多模態(tài)、強思維三個方面實現(xiàn)了升級。
盤古大模型 5.0 可以與物理世界結(jié)合,理解包括文本、圖片、視頻、雷達、紅外、遙感等多種模態(tài)的信息。它已在高鐵故障檢測等工業(yè)領(lǐng)域、具身智能等技術(shù)探索領(lǐng)域落地,因而受到了人們的關(guān)注。

隨著鴻蒙 HarmonyOS NEXT Beta 版本的發(fā)布,小藝也升級成為智能體,面向全場景設(shè)備提供語音對話、圖文識別、服務(wù)建議、設(shè)備智慧能力和設(shè)備互聯(lián)管理功能。依托昇騰的算力和盤古大模型,HarmonyOS NEXT 擁有了系統(tǒng)級 AI 能力。
在大會主 Keynote 環(huán)節(jié)上,諾亞方舟實驗室主任姚駿對盤古大模型 5.0 背后的技術(shù)進行了詳解。

在過去的一年里,華為對盤古大模型 3.0 進行了全面的升級,如今的盤古大模型 5.0 具備了更豐富的多模態(tài)和更強的思維能力。基于華為云 AI 算力平臺,盤古 5.0 提高了訓(xùn)練效率。在新模型的介紹中,華為主要從數(shù)據(jù)、參數(shù)和算力三個方面介紹了大模型的訓(xùn)練過程。
數(shù)據(jù)合成
首先是數(shù)據(jù)方面的工作,在 5.0 版模型的訓(xùn)練中,工程團隊從追求數(shù)據(jù)量和提高數(shù)據(jù)清洗質(zhì)量的數(shù)據(jù)工程,向科學(xué)使用數(shù)據(jù)的思路進行了演進。新的目的是提升數(shù)據(jù)的利用率,并且用更優(yōu)質(zhì)的數(shù)據(jù)來激活模型中更多的能力。
華為著重介紹了兩個關(guān)鍵技術(shù)。

首先是數(shù)據(jù)合成,現(xiàn)在,業(yè)界大模型訓(xùn)練數(shù)據(jù)的規(guī)模已經(jīng)從萬億級 tokens 邁入十萬億 tokens,到達這個量級以后,業(yè)界公開的高質(zhì)量數(shù)據(jù)的增長就難以跟上模型體量增長的速度了。
華為認為在未來,合成數(shù)據(jù)會在更大規(guī)模的模型訓(xùn)練中占有一席之地,從而彌補高質(zhì)量自然數(shù)據(jù)增長不足的空缺。從盤古 3.0 時代的 3T Tokens 的數(shù)據(jù),到盤古 5.0 時,數(shù)據(jù)的容量已達到 10T Tokens,其中合成數(shù)據(jù)占比超過了 30%。在其中,華為探索了優(yōu)質(zhì)的、面向高階能力的數(shù)據(jù)合成方法。簡單來說,就是以弱模型輔助強模型的 weak2strong 方法,迭代式的合成高質(zhì)量的數(shù)據(jù),保證合成數(shù)據(jù)有不弱于真實數(shù)據(jù)的完整性、相關(guān)性和知識性。
在華為提供的能力圖中可以看到,合成數(shù)據(jù)的質(zhì)量從各個維度都略強于真實數(shù)據(jù)。
華為提出的 weak2strong 可以進一步加強合成數(shù)據(jù)中特定的數(shù)據(jù),例如自然數(shù)據(jù)中偏少的長序列、復(fù)雜知識推理等的數(shù)據(jù),進一步通過這些數(shù)據(jù)來加強模型的特定能力。在訓(xùn)練的過程中,華為使用了大量合成的長序列數(shù)據(jù),提高了模型在大海撈針長序列測試中的表現(xiàn)約 20%。
華為也展示了數(shù)據(jù)方面的課程學(xué)習(xí),利用相對較小的模型對不同數(shù)據(jù)進行快速的 AI 評估,區(qū)分不同數(shù)據(jù)類別在學(xué)習(xí)過程中的難易程度。進一步根據(jù)階梯式課程學(xué)習(xí)的原理,先讓大模型學(xué)習(xí)相對來說基礎(chǔ)的課程,再逐漸的加大高難數(shù)據(jù)的比例,模型能以更加類人的方式從易到難地學(xué)習(xí)知識,實現(xiàn)更加可控、可預(yù)期的能力涌現(xiàn)。
模型架構(gòu)升級
在盤古 5.0 中,模型架構(gòu)也獲得了升級,華為提出了昇騰親和的 Transformer 架構(gòu) - 創(chuàng)新的 π 新架構(gòu)。
如下圖左所示,原始的 Transformer 架構(gòu)和其它的深度模型一樣,也存在一定的特征坍塌問題。華為研究人員通過理論分析發(fā)現(xiàn),Transformer 中的自注意力模塊(即 Attention 模塊)會進一步激化數(shù)據(jù)的特征消失。

利用計算視覺和 Transformer 結(jié)合的例子來演示這個特征問題,左邊是一張鯊魚的圖,如果我們用原始的 transformer 架構(gòu)來處理,模型一深就會帶來特征的完全坍塌,基本無法還原輸入圖像,看起來就是中間黑乎乎的一塊。業(yè)界因此為原始的 Transformer 增加一條殘差連接,這樣就能略微的緩解特征坍塌問題,右邊的圖中可以模糊地看到還原圖像中有一點鯊魚的影子,但是這個鯊魚的特征整體仍然不太明顯。
在新的盤古 π 架構(gòu)中,華為諾亞、北京大學(xué)等研究人員進一步提出了增廣殘差連接的方法。通過引入非線性的額外殘差,更進一步的加大來自不同 Token 的特征,使數(shù)據(jù)的特征的多樣性得以在深度的 Transformer 中得到維持,進而大幅提升模型的精度。(論文鏈接:http://dx.doi.org/10.13140/RG.2.2.34314.64966)
PanGu-π 的工作,已經(jīng)被國際機器學(xué)習(xí)頂會 NeurIPS 2023 錄用。
在上圖下方的圖實驗結(jié)果中,還原的鯊魚圖像效果更好了,可知模型對數(shù)據(jù)的表征和學(xué)習(xí)能力得到了大幅的加強。
另一方面,Transformer 包含 2 個關(guān)鍵模塊,F(xiàn)FN 和自注意力模塊。在 新的π架構(gòu)中,華為改造了模型中 FFN 模塊中的激活函數(shù),用一種新的級數(shù)激活函數(shù)的方式來代替。這種新的方式增加了模型的非線性度,增加了 FFN 的計算量,但是也可以幫助我們在精度不變的情況下減少自注意力模塊的大小。經(jīng)過此種優(yōu)化,大模型在昇騰芯片上推理速度也由此提升了20- 25%。
大集群訓(xùn)練
華為進一步介紹了通過大集群訓(xùn)練盤古 5.0 的情況。
從千卡集群到大集群,主要挑戰(zhàn)來自兩方面:首先,訓(xùn)練千億、萬億模型需要同時進行數(shù)據(jù)并行、模型并行和流水線并行,期間計算單元在流水線并行的等待時間稱為 Bubble。千卡集群的 bubble 通常在 10% 左右,而大集群的 Bubble 就到了 30,大大影響了集群算力利用率。另外,大集群中,并行通信在集群間會有大量的路由沖突要解決,導(dǎo)致集群利用率線性度只有 80% 左右。

為了解決這個問題,技術(shù)人員首先將大塊計算和通信按照數(shù)學(xué)上的等價,切分成多個小塊計算和通信副本。系統(tǒng)會編排多個副本間計算通信的執(zhí)行順序,小塊的計算和通信更容易被隱藏在計算中。在這其中,編排上還有 NP 難問題的自動尋優(yōu)優(yōu)化、正反向流水交織等關(guān)鍵技術(shù)。此外,華為還優(yōu)化了大集群調(diào)度與通信,通過 rank table 編排算法,將大流量放到節(jié)點內(nèi)或同一機柜級路由器下,避免跨路由器沖突,同時對源端口進行動態(tài)編排,實現(xiàn)集群通信路徑完全零沖突。
基于以上方法,華為可以有效隱藏 70% 以上的通信,bubble 從 30% 降低到 10%,有效實現(xiàn)了大集群的近線性加速比。整體上,集群的訓(xùn)練 MFU(模型計算算力利用率)相比 256 卡的 60%,大上只降低了 10%,可以達到 50% 左右,這些優(yōu)化大幅提升了訓(xùn)練效率。
姚駿表示,這些自動并行方案已集成到了華為 AI 框架中,成為了訓(xùn)練全棧解決方案的一部分。
盤古大模型 5.0 的能力提升
盤古 5.0 擴展了多模態(tài)能力。
一直以來,多個模態(tài)的高效對齊是訓(xùn)練多模態(tài)大模型的一大挑戰(zhàn)。其中,視覺編碼器是多模態(tài)大模型處理輸入的第一步,用于將不同類別、大小的圖像輸入到同一個表征空間,相當(dāng)于語言模型的 Tokenizer 。因為領(lǐng)域的不同,傳統(tǒng)處理圖像,視頻,文本和圖表時,需要用各自的獨立的編碼器各自接入多模態(tài)大模型,這造成了模型容量浪費和計算冗余。
華為提出統(tǒng)一視覺編碼,將不同的編碼器能力蒸餾到一個統(tǒng)一視覺編碼器中,可以大大提升編碼效率。和同參數(shù)量業(yè)界 SOTA 模型相比,由于利用了不同領(lǐng)域之間內(nèi)的共通知識,新的編碼器在自然圖像能力基本持平,文檔理解能力上有顯著提升。這種方案現(xiàn)在也成為了業(yè)界的主流編碼范式。

盤古 5.0 在介紹多模態(tài)能力時重點展示了兩個關(guān)鍵技術(shù)。第一個是統(tǒng)一的視覺編碼器,它改變了以前業(yè)界在視覺的多個領(lǐng)域,如 OCR、自然圖像、視頻、文本等,都有不同的獨立編碼方案的困境。把這些編碼器都蒸餾到一個視覺編碼器,現(xiàn)在已經(jīng)成為了業(yè)界主流的編解碼方案,也提升了模型的表征能力和精度。
另一個關(guān)鍵技術(shù)是動態(tài)分辨率。人看世界是有不同分辨率的,但是一個 AI 模型的輸入一般是固定的,很難兼顧。華為提出尺度泛化的訓(xùn)練范式,如下圖右邊部分所示。首先,使用低分辨率圖片和簡單任務(wù)訓(xùn)練基礎(chǔ)感知能力,然后使用中高分辨率訓(xùn)練 OCR 和圖表理解等細粒度感知能力,第三階段擴展到更高的分辨率和更多的任務(wù)類型,最后重點突破模型的高階推理能力。
這也是一種數(shù)據(jù)課程學(xué)習(xí)的方式,從易到難學(xué)習(xí)多模態(tài)的信息。這種方式動態(tài)的遞增的方式幫助盤古 5.0 在動態(tài)分辨率的表征上超過了業(yè)界同等模型的能力,并有效的提升了新模型在下游多模態(tài)任務(wù)的能力,實現(xiàn)了 50% 的提升。

盤古大模型的另一個關(guān)鍵能力提升在于強思維,即復(fù)雜推理能力。
當(dāng)前,在單步任務(wù)和文本記憶類任務(wù),例如知識問答和考試上,大模型已經(jīng)展現(xiàn)出超過人類的卓越表現(xiàn)。而在多步推理和復(fù)雜任務(wù)的處理上,AI 還沒有達到人類的平均水平,這一方面涉及到的任務(wù)包括代碼生成、數(shù)學(xué)運算、邏輯推理等。這體現(xiàn)了人類在知識的抽象和推理上的能力難以替代。
在華為的研究過程中,前一種能力被稱作記憶型能力,適合于大模型用一步的快速思考進行回答。后一種復(fù)雜推理,人類處理時一般也需要步步推導(dǎo),跳過中間過程的快速回答不適用于這種問題,所以大模型也需要像人一樣,在這類問題上把快思考變成慢思考,一步一步分解和完成對復(fù)雜問題的處理。
從這點出發(fā),華為提出了基于多步生成和策略搜索的 MindStar 方法。首先把復(fù)雜推理任務(wù)分解成多個子問題,每個子問題都會生成多個候選方案,通過搜索和過程反饋的獎勵模型,來選擇最優(yōu)多步回答的路徑。這樣既兼顧了人類一步一步思考的形式,也兼顧了機器更擅長的策略搜索的形式。
在華為自建的難例評測集中,MindStar 方法使模型的平均能力提升了 30 分,使用了 MindStar 的百億模型達到業(yè)界主流千億模型的推理能力,這相當(dāng)于使用慢思考能帶來 10 倍以上的參數(shù)量的加成。
把 MindStar 這類強思維方法運用到更大尺度的模型上,AI 或許就能逐步在復(fù)雜推理上實現(xiàn)接近人類,甚至超越人的能力。