當(dāng)前,大模型無疑是國內(nèi)外最為熱門的話題,國際頂級(jí)學(xué)術(shù)期刊《自然》(Nature)雜志正刊發(fā)表了華為云盤古大模型研發(fā)團(tuán)隊(duì)研究成果,這不僅是對(duì)華為云盤古大模型的一大褒獎(jiǎng),更是對(duì)國內(nèi)大模型產(chǎn)業(yè)領(lǐng)域的共同提振。
融合物理世界和數(shù)字世界
說到大模型,就不能不說到ChatGPT。其發(fā)布瞬間點(diǎn)燃了產(chǎn)業(yè)領(lǐng)域的大模型之火,其后大量的科技公司“火上澆油”, 紛紛發(fā)布了各自的大模型。
與其他公司不同,早在2021年4月,華為云盤古大模型就已經(jīng)發(fā)布。在當(dāng)年的世界人工智能大會(huì)上,華為云盤古超大規(guī)模預(yù)訓(xùn)練模型,就讓觀眾們通過多種交互方式,深切感受到它在中文語言處理方面的強(qiáng)大能力。
作為國內(nèi)首個(gè)全棧自主的AI大模型,華為云盤古大模型的目標(biāo)很明確,它沒有沉溺于吟詩作對(duì)之類的風(fēng)花雪月當(dāng)中,而是堅(jiān)定地將重塑千行百業(yè)作為發(fā)展方向。
自從發(fā)布以來,華為云盤古大模型聚焦各類客戶所關(guān)注的核心問題,致力于深耕行業(yè),并為金融、政務(wù)、制造、礦山、氣象、鐵路等領(lǐng)域,打造了專屬和定制的行業(yè)大模型與能力集。
在華為開發(fā)者大會(huì)2023(Cloud)上,華為云盤古大模型迎來了又一次重大升級(jí)。在最新的3.0版本中,華為云盤古大模型不僅得到了能力的全方位提升,也首次在字面上明確了定位,即“為行業(yè)而生”。
作為一個(gè)面向行業(yè)的大模型,華為云盤古大模型3.0包括5+N+X三層架構(gòu),提供了滿足行業(yè)場景的多種技能,專注于具體的應(yīng)用場景和特定業(yè)務(wù),為客戶提供開箱即用的模型服務(wù)。
華為云盤古大模型的快速演進(jìn)和迭代,得益于華為云AI的雄厚積淀。目前,華為云AI在各個(gè)行業(yè)已經(jīng)擁有上千個(gè)深度合作項(xiàng)目,這種來自一線的真實(shí)打拼和行業(yè)Know-How,為華為云盤古大模型的成長提供了充足的“養(yǎng)分”。
華為云盤古大模型在能力方面的不斷提升,也為華為云的產(chǎn)品服務(wù)帶來全面加持,華為云MetaStudio就是其中的一例。通過打造云上的數(shù)字內(nèi)容生產(chǎn)線,以及構(gòu)建以人為中心的全場景智慧化體驗(yàn),華為云MetaStudio加速了物理世界和數(shù)字世界的融合。
讓每個(gè)人實(shí)現(xiàn)數(shù)字人自由
通過盤古基礎(chǔ)大模型,華為云賦能MetaStudio數(shù)字內(nèi)容生產(chǎn)線,打造了盤古數(shù)字人大模型,提供模型生成和模型驅(qū)動(dòng)兩大服務(wù),讓每個(gè)人都能實(shí)現(xiàn)數(shù)字人自由。
數(shù)字人(Digital Human/Meta Human),是運(yùn)用數(shù)字技術(shù)創(chuàng)造出來的、與人類形象接近的數(shù)字化人物形象。起初,限于技術(shù)、成本等問題,數(shù)字人主要被用于垂直、專業(yè)的極少數(shù)領(lǐng)域之中。
得益于數(shù)字技術(shù)的快速進(jìn)展,近幾年數(shù)字人的應(yīng)用范圍不斷擴(kuò)大,開始被虛擬現(xiàn)實(shí)、教育、健康管理、智能客服等領(lǐng)域廣泛采用,產(chǎn)業(yè)化不斷加速,商業(yè)模式開始持續(xù)演變和多樣化。
即便如此,對(duì)于很多機(jī)構(gòu)和企業(yè)來說,數(shù)字人的制作與使用仍有著較高的門檻。如果只是玩票,以上的門檻之說可能并不成立,不過假如真的要數(shù)字人深入到生產(chǎn)、經(jīng)營和服務(wù)等領(lǐng)域,企業(yè)仍然面臨極高的難度。
按照華為云媒體服務(wù)產(chǎn)品部部長呂陽明的說法,MetaStudio數(shù)字內(nèi)容生產(chǎn)線就是“讓每個(gè)人實(shí)現(xiàn)數(shù)字人自由”,其中包含的建模、驅(qū)動(dòng)、仿真、渲染等一系列流程,實(shí)現(xiàn)了低成本、低門檻、高效率、高擬真的數(shù)字人生產(chǎn)。

需要指出的是,華為云MetaStudio的數(shù)字人生產(chǎn),并不只是面向To B或是高精專領(lǐng)域,甚至可以包括個(gè)人應(yīng)用。打開腦洞設(shè)想一下,由于工作、學(xué)習(xí)等緣故,兒孫們往往無法常伴老人,這時(shí)候假如有一個(gè)兒孫形象的數(shù)字人時(shí)時(shí)陪伴,對(duì)于老人豈不是莫大的撫慰?
基于盤古大模型,華為云MetaStudio為新的數(shù)字人賦予了非常聰明的大腦。通過持續(xù)不斷的訓(xùn)練,數(shù)字人可以真正實(shí)現(xiàn)擬人化和個(gè)性化的對(duì)話,其能力也會(huì)得到同步的提升。
與此同時(shí),由于端側(cè)的顯示技術(shù)逐漸增強(qiáng),數(shù)字人的形象也越來越飽滿,越來越生動(dòng)。在云側(cè)完成的數(shù)字人驅(qū)動(dòng)、數(shù)字人形象的渲染,也會(huì)通過網(wǎng)絡(luò)推送到端側(cè),實(shí)現(xiàn)高質(zhì)量、高畫質(zhì)和高質(zhì)感的呈現(xiàn)。
數(shù)字未來成為現(xiàn)實(shí)
華為云在數(shù)字內(nèi)容方面的積累由來已久,不過早期主要還是圍繞視頻、圖片等內(nèi)容生產(chǎn)。在發(fā)展的過程中,華為云注意到,一些深刻的變化正在發(fā)生,相關(guān)產(chǎn)業(yè)的游戲規(guī)則也開始改弦易轍。
以影視業(yè)為例,我們現(xiàn)在可以看到的實(shí)拍內(nèi)容已經(jīng)不多了,呈現(xiàn)于眼前的大多是計(jì)算機(jī)制作。比如說《流浪地球2》、《阿凡達(dá)2》等大片,你甚至很難在其中分辨出實(shí)景拍攝的片段。
基于這些趨勢,華為云推出MetaStudio數(shù)字內(nèi)容生產(chǎn)線,在云上通過自動(dòng)化和AI技術(shù),面向那些做數(shù)字內(nèi)容生產(chǎn)的行業(yè),實(shí)現(xiàn)自動(dòng)化數(shù)字內(nèi)容的生產(chǎn)制作。
現(xiàn)在看來,數(shù)字內(nèi)容的生產(chǎn)實(shí)際上適用于所有行業(yè)。在我們奔向元宇宙的今天,對(duì)于千行百業(yè)而言,數(shù)字內(nèi)容已經(jīng)成為最基礎(chǔ)的能力之一,缺乏數(shù)字內(nèi)容的企業(yè),其靈魂也是不完整的。
在華為開發(fā)者大會(huì)2023(Cloud)的開幕式上,當(dāng)干練靚麗的數(shù)字人徐徐向我們走來,說出“每一個(gè)開發(fā)者都了不起”,那一刻,那種發(fā)自內(nèi)心的感受很難僅僅用“驚艷”二字來形容……
確實(shí)驚艷,但是絕不止于此。此前,我們并非沒有見過數(shù)字人,但是很多時(shí)候它們往往是靜止或站立的,而且表情和手勢過于生硬,也就很難在情感上引起我們的真實(shí)共鳴。
華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線的做法可謂別出機(jī)杼,數(shù)字人驅(qū)動(dòng)服務(wù)根據(jù)人臉部的136個(gè)特征點(diǎn)、10多個(gè)聲音特征點(diǎn)等關(guān)鍵特征點(diǎn),生成了逼真的形象。
接下來,在云上傳輸數(shù)據(jù)時(shí),華為云MetaStudio只傳輸特征點(diǎn)數(shù)據(jù),而不是原始的音視頻數(shù)據(jù),因此帶寬需求就降低了1000倍以上,即便是在上行50K的弱網(wǎng)環(huán)境下,也可以實(shí)現(xiàn)4K 60fps的數(shù)字人會(huì)議體驗(yàn),讓傳統(tǒng)的交流從“0101的比特傳輸”,走向“有溫度的模型交互”。

當(dāng)前,華為云MetaStudio在國內(nèi)已經(jīng)實(shí)現(xiàn)了廣泛的合作與落地。在長沙馬欄山、北京石景山VR/AR基地,華為云MetaStudio已經(jīng)進(jìn)入到綜藝節(jié)目、影視音樂制作等領(lǐng)域;在深圳龍崗、浙江溫州等地,華為云MetaStudio也進(jìn)入到工業(yè)設(shè)計(jì)、服裝設(shè)計(jì)等領(lǐng)域……
一同開啟創(chuàng)意的小宇宙吧!很快你就會(huì)發(fā)現(xiàn),華為云MetaStudio讓那些我們曾經(jīng)構(gòu)想的瑰麗數(shù)字未來,正在逐漸變?yōu)楝F(xiàn)實(shí)。