2022年底,智能聊天機器人程序ChatGPT一經(jīng)推出便風靡全網(wǎng);不久后的2023年3月,AI繪圖工具Midjourney V5及其作品也在全球范圍引起不小的轟動,各行各業(yè)的“游戲規(guī)則”也開始因AI悄然發(fā)生變革。
AI技術(shù)發(fā)展的日新月異,似乎瞬間將繪畫、攝影、動畫、影視劇等在內(nèi)的影像行業(yè),帶入了一個全新的創(chuàng)作時代。
2024年6月21日,華為開發(fā)者大會2024(HDC 2024)在廣東東莞舉行,會上華為云重磅發(fā)布了盤古大模型5.0,其中展示的媒體大模型,在實拍轉(zhuǎn)繪、影像譯制和語音生成以及AI多語種實時翻譯三個方面進行了技術(shù)創(chuàng)新,這讓處在AI時代下深刻變革的國內(nèi)影像行業(yè),在未知挑戰(zhàn)中迎來更多機遇。
這些AI新技術(shù)和新工具無疑潛力深厚,眾多影像從業(yè)者或許因此實現(xiàn)以往無法完成的視覺創(chuàng)作,發(fā)掘出影像內(nèi)容生產(chǎn)和應(yīng)用的更多創(chuàng)新模式。
實拍視頻,轉(zhuǎn)繪生成多風格動畫
AI生成的視頻技術(shù)正在革新我們的視覺體驗,為動漫、視頻行業(yè)帶來新的想象。在視頻生成方面,華為云盤古媒體大模型通過訓(xùn)練幾十張?zhí)囟缹W(xué)風格的圖片,如吉卜利、二次元等風格,輸入實拍視頻即可快速生成該風格的動漫視頻,實現(xiàn)按需時長生成穩(wěn)定的動漫視頻,這為動漫的生產(chǎn)提供了新的模式。
在之前,視頻生成技術(shù)在動漫視頻生成時,都是按每一幀畫面進行風格化,然后重新串聯(lián)成視頻。由于AI轉(zhuǎn)換的不確定性,容易出現(xiàn)角色前后特征發(fā)生變化,變成另外一個人,或者在人物運動、轉(zhuǎn)身、側(cè)臉等情況下細節(jié)特征發(fā)生變化。
盤古媒體大模型通過ID一致性模型,對生成畫面中的關(guān)鍵角色進行一致性處理,保持視頻中角色樣貌特征前后始終一致,在側(cè)臉、運動軌跡下的視覺效果同樣合理一致。并且,視頻中的關(guān)鍵道具也能保持前后一致性。這種可控的視頻生成技術(shù),更容易滿足真正的工業(yè)場景應(yīng)用需求。
例如,在第十四屆北京國際電影節(jié)“AIGC電影短片單元”競賽中獲得最佳影片獎的AI動畫短片《致親愛的自己》,由中國傳媒大學(xué)動畫與數(shù)字藝術(shù)學(xué)院及Ainimate Lab在華為云的支持下共創(chuàng)生成。
在這支作品中,有大量、大幅度舞蹈動作,人物與鏡頭運動軌跡大,基于ID一致性模型,人物的面部輪廓、發(fā)型、五官等樣貌特征始終保持穩(wěn)定生成、一致,所以觀眾能看出前后一直是同一個人。同時視頻中的關(guān)鍵道具蒲公英造型戒指,也在多個畫面中保持一致。
《致親愛的自己》AI動畫短片畫面
另外,當前很多AI影片的不足之處,在于故事情節(jié)多依靠旁白串聯(lián)全篇,片中主人公的微動作和表情幾乎都無法表現(xiàn)。這種AI視覺敘事能力的缺失,讓人物失去了情緒表演的遞進和感染力,觀眾無法與之共情,所以故事的深刻和細膩很難傳達出來。
基于這個問題,華為云基于MetaStudio的一站式云上數(shù)字內(nèi)容生產(chǎn)平臺能力,讓影片內(nèi)容生產(chǎn)方式發(fā)生質(zhì)的躍遷,比如這項技術(shù)可以嚴格要求演員表情細節(jié)、肢體動作細節(jié),能在最關(guān)鍵的幾個要傳達情緒的鏡頭里,把角色的表情保留下來,保證作品故事信息有效傳遞。
《致親愛的自己》AI動畫短片 “實拍轉(zhuǎn)繪”制作流程示意圖
影像譯制,智能實現(xiàn)音唇同步
講好中國故事、傳播好中國聲音,展示真實、立體、全面的中國,是加強我國國際傳播能力建設(shè)的重要任務(wù)。
近年來,憑借豐富題材、新穎視角和獨特風格,我國的影視、短劇出海需求愈加旺盛。但傳統(tǒng)的視頻譯制,需要配音演員熟悉翻譯后的臺詞、體會角色情感,再對視頻進行目標語種的重新配音。因此,影片質(zhì)量完全取決于配音演員的專業(yè)能力,而且角色原先的聲音和情感都會被重塑。并且,受限于人工譯制成本高,影片的質(zhì)量也參差不齊,產(chǎn)能有限。
但通過媒體大模型提供的視頻翻譯能力,用AI能將視頻翻譯為目標語言,并且影片中原始角色的音色、情感、語氣可以完好保留;并且除中英譯制外,聯(lián)合邏輯智能伙伴的能力,可以實現(xiàn)韓語、法語、德語、西語、泰語、阿語等15種語言的譯制,并達到影視級譯制效果。除了聲音外,通過媒體大模型的口型驅(qū)動模型,可以實現(xiàn)音唇同步,給觀眾帶來更好的觀看體驗。尤其是當影片中人物處于側(cè)面、多人對話、物體遮擋以及移動等場景,也能做到很好的口型匹配。
正如華為云與中影集團合作,將媒體大模型應(yīng)用到了影視工業(yè),共同打造出影視譯制大模型,通過AI將視頻譯制成不同語言,支持口型匹配的同時保留了原始角色的音色、情感、語氣,為影片譯制提供了全新的AI制作方式。華為云媒體大模型的視頻譯制能力,更為影視、短劇出海提供了一種新的生產(chǎn)力工具,更好地實現(xiàn)內(nèi)容高效、高質(zhì)量的供給。
另外,在語音生成方面,媒體大模型重塑了個性化語音生成以及情感化。個性化語音在很多行業(yè)場景中已經(jīng)廣泛使用,例如數(shù)字人、有聲書配音、培訓(xùn)課程制作、虛擬NPC等。傳統(tǒng)的聲音克隆模型都是小模型,需要幾百句話的錄音,通過人工標注,反復(fù)訓(xùn)練提取音色。
基于媒體大模型語音生成能力,只需要幾句話、幾秒鐘的聲音,即可學(xué)習(xí)到個性化的音色、語調(diào)、表達韻律,從而獲得高質(zhì)量的個性化語音。同時,這項技術(shù)支持喜怒哀樂等擬人情感語音,支持閑聊、新聞、直播等10多種語氣風格,讓生成的語音更擬真,更具情感,符合更多場景所需。
華為云盤古媒體大模型-AI譯制視頻《無盡攀登》
AI精準翻譯,打破多語種實時溝通障礙
AI大模型輔助語言的翻譯不僅應(yīng)用在影視行業(yè),對于人們的日常交流、工作也有著重要的意義。在AI翻譯方面,媒體大模型可以通過AI實現(xiàn)多語種實時傳譯,準確性大于93%。這項技術(shù)可應(yīng)用于實時通話、云會議等需要實時翻譯的場景,重塑了跨語言溝通體驗。并且,基于大模型的語音復(fù)刻、AI文字翻譯以及TTS技術(shù)(文語轉(zhuǎn)換技術(shù)),可以實現(xiàn)語音的同聲傳譯。通過這項技術(shù),每個人跨語言溝通時都可以用自己的母語說話,聽的時候選擇自己的母語收聽,AI就會將每個人的發(fā)言以預(yù)置聲音或者真人的聲音翻譯為收聽語言,實現(xiàn)跨語言母語溝通體驗。結(jié)合數(shù)字人技術(shù),在人們不方便開攝像頭時,還可以用數(shù)字人參會,并通過口型驅(qū)動實現(xiàn)數(shù)字人以各種語言說話且都能精準匹配口型,就如同本人說話一樣。
如今,像華為云盤古媒體大模型這類AI相關(guān)技術(shù)和應(yīng)用工具的迅速發(fā)展和普及,深刻影響著影像工業(yè)制作流程,更讓一些影像從業(yè)者從新技術(shù)的誕生中獲得創(chuàng)作的新啟發(fā)、新認知和新創(chuàng)意。或許,更善于與AI打交道的影像藝術(shù)家,將在未來創(chuàng)作中獲得更有力的輔助和更創(chuàng)新的影像創(chuàng)作模式。