編者按:進(jìn)入到2020 年,COVID-19 給全球帶來(lái)了前所未有的沖擊,全球化的背景下,從學(xué)習(xí)、工作到娛樂(lè),都不得不搬到網(wǎng)上,RTC(實(shí)時(shí)音視頻)一下子成為了生活的必須品。
三分天下
2020 年的COVID-19 給RTC 市場(chǎng)注入了前所未有的動(dòng)力。從某RTC PaaS 平臺(tái)公布的數(shù)據(jù)看,從2013年成立到2019 年6 月累計(jì)客戶為801 家,到2020 年6 月增長(zhǎng)到1486 家,增長(zhǎng)超過(guò)85%,不可否認(rèn)疫情扮演了催化劑的作用。本來(lái),RTC PaaS 市場(chǎng)波瀾不驚,但COVID-19 成為左右市場(chǎng)的最大“x 因素”。和其他云服務(wù)類似,RTC PaaS 市場(chǎng)的馬太效應(yīng)正在顯現(xiàn),客戶向頭部企業(yè)集中。具體來(lái)說(shuō),未來(lái)市場(chǎng)中的主流RTC PaaS平臺(tái)將三分天下:
A. PaaS RTC 服務(wù)商。依靠先發(fā)優(yōu)勢(shì)帶來(lái)的客戶、技術(shù)、品牌、生態(tài)等全方位領(lǐng)先,為自己鑄造了足夠?qū)挼淖o(hù)城河。但不可否認(rèn),依靠單一層次,單一場(chǎng)景的服務(wù)很難滿足用戶更復(fù)雜的業(yè)務(wù)需求,如果不橫向擴(kuò)展業(yè)務(wù)場(chǎng)景,縱向擴(kuò)展業(yè)務(wù)服務(wù)層次,被公有云服務(wù)商巨頭趕上只是時(shí)間問(wèn)題。
B. 公有云。所有的公有云巨頭都把多媒體業(yè)務(wù)視為核心市場(chǎng),RTC 又是其中的關(guān)鍵。Twitch 剛剛將自己的直播能力通過(guò)公有云對(duì)外服務(wù),華為也在不斷打磨RTC 服務(wù)。另一方面,公有云擁有海量客戶、資源與技術(shù)積淀,雖然在某些單點(diǎn)與RTC PaaS 平臺(tái)存在差距,但這可以通過(guò)人才引進(jìn)、收購(gòu)等方式快速補(bǔ)足。但更大的挑戰(zhàn)是對(duì)用戶業(yè)務(wù)場(chǎng)景的把握,這需要更多時(shí)間來(lái)試錯(cuò)。
C. 創(chuàng)業(yè)團(tuán)隊(duì),細(xì)分市場(chǎng)與自生態(tài)。一些擁有優(yōu)秀技術(shù)和產(chǎn)品能力的創(chuàng)業(yè)團(tuán)隊(duì)可能攪動(dòng)這個(gè)市場(chǎng),在一些細(xì)分市場(chǎng)也存在行業(yè)壁壘,形成特定的小生態(tài)。最后,一些大型應(yīng)用服務(wù)會(huì)通過(guò)自研來(lái)實(shí)現(xiàn)部分RTC 能力,比如教育、電商、社交等場(chǎng)景。
當(dāng)然還有x 因素會(huì)對(duì)RTC 生態(tài)造成影響。這些x 因素包括重大的技術(shù)變革、全球經(jīng)濟(jì)格局變化與政策法規(guī)調(diào)整等。
融合技術(shù)
所謂融合技術(shù),就是用戶只需要一個(gè)SDK/API 實(shí)現(xiàn)各種通信能力的接入,包括華為在內(nèi)的國(guó)內(nèi)主流公有云服務(wù)商大多采用這一方式。最典型的場(chǎng)景是,用戶通過(guò)RTMP 接入觀看市場(chǎng),當(dāng)需要和他人互動(dòng)是,即可切換到RTC 網(wǎng)絡(luò)。這樣的好處是,既保證的用戶體驗(yàn),又可以最大限度的使用成熟的RTMP 服務(wù),將成本降低。
不過(guò),海外市場(chǎng)與國(guó)內(nèi)大相徑庭。海外更主流的是DASH/HLS 以及CMAF/LHLS。
SaaS與PaaS融合
長(zhǎng)遠(yuǎn)看,SaaS 與PaaS 互相滲透將不可避免。最知名的例子就是Zoom,他開(kāi)始通過(guò)SDK 向合作伙伴提供RTC 服務(wù)。字節(jié)跳動(dòng)、Bigo、YY 都在摩拳擦掌提供RTC 服務(wù)。同樣的,PaaS 也會(huì)涉足SaaS,比如華為不僅提供RTC 服務(wù),還提供了視頻會(huì)議平臺(tái)華為云會(huì)議及辦公協(xié)作軟件WeLink。
AI技術(shù)融合
AI 技術(shù)不斷成熟和發(fā)展,正在滲透到多媒體技術(shù)的方方面面,這一趨勢(shì)不可抵擋。
· 語(yǔ)音識(shí)別與語(yǔ)音合成:從 Siri 到小冰,從智能手機(jī)到智能音響,語(yǔ)音識(shí)別已經(jīng)無(wú)處不在,無(wú)需贅述。而語(yǔ)音合成則是讓電腦把文本變成語(yǔ)音,比如Google 開(kāi)源的Tacotron 已經(jīng)可以實(shí)現(xiàn)99% 的人聲還原。你在喜馬拉雅或各種影視劇中聽(tīng)到的明星聲音將越來(lái)越多地通過(guò)AI 生成。
· 聲紋-人聲識(shí)別與音樂(lè)識(shí)別:聲音是可以作為身份驗(yàn)證的,但是風(fēng)險(xiǎn)也同時(shí)存在,比如有人拿了你的錄音去登錄你的銀行賬號(hào)。而DNN(深度神經(jīng)網(wǎng)絡(luò))可以掌握更多的聲音特征,從而降低風(fēng)險(xiǎn)。而在音樂(lè)識(shí)別方面則沒(méi)有那么高風(fēng)險(xiǎn),但也直接關(guān)系到用戶的體驗(yàn),各大音樂(lè)App 都集成了相關(guān)的功能。
· 回聲消除:這是一個(gè)所有音頻設(shè)備必須解決的問(wèn)題,在多麥克風(fēng)設(shè)備上消除回聲相對(duì)容易。但在一些低端的Android 設(shè)備上,如果只有一個(gè)麥克風(fēng)就需要利用AI 來(lái)幫助消除回聲,效果非常不錯(cuò)。
· ABR:ABR 即動(dòng)態(tài)碼率,其目的是為了解決客戶端在不穩(wěn)定網(wǎng)絡(luò)下仍能流暢地觀看視頻,并且最大化的保證畫質(zhì)。ABR 算法需要關(guān)注客戶端的視頻緩存,以及當(dāng)下的最大帶寬,從而去預(yù)測(cè)未來(lái)一段時(shí)間提供給該客戶端的碼率。AI 的出現(xiàn)可以進(jìn)一步提升ABR 的效果,最著名的要數(shù)MIT 提出的Pensieve。
· 圖像增強(qiáng):關(guān)于圖像增強(qiáng)大家談的很多,也許你在看一些熱門影片的時(shí)候已經(jīng)用到了AI 加持的圖像增強(qiáng)技術(shù)。比如,將SDR 轉(zhuǎn)換為HDR 視頻,視頻超分(將720p 變成1080p),每秒30 幀視頻變換為每秒60 幀等等。
· 內(nèi)容理解:AI 內(nèi)容理解并不限于生成封面圖,精彩剪輯,或者只看某個(gè)角色的鏡頭,這在內(nèi)容推薦、廣告平臺(tái)有幫助。此外,內(nèi)容理解還能幫助更好地處理視頻,比如可以針對(duì)不同的視頻內(nèi)容選擇不同的Codec,以及相關(guān)的編碼工具;也可以找到視頻中人眼最關(guān)注的部分,分配更多的碼率,降低不易察覺(jué)的畫面的碼率,在保證用戶體驗(yàn)的前提下降低碼率。同時(shí),AI 可以把豎版的短視頻裁剪成適合橫屏播放的內(nèi)容。
· 畫質(zhì)評(píng)估:AI 還能幫助檢測(cè)視頻源片中的瑕疵,比如黑屏,異物遮擋,這可以在后期制作中修剪。同理,AI 也可以幫助發(fā)現(xiàn)字幕遮擋關(guān)鍵畫面信息的情況,從而調(diào)整字幕出現(xiàn)的時(shí)間或位置。關(guān)于內(nèi)容理解的應(yīng)用,Netflix 走在業(yè)界前沿,可以多關(guān)注。
而且AI 的學(xué)習(xí)曲線是比較友好的,對(duì)于多媒體技術(shù)工程師不會(huì)構(gòu)成太大的挑戰(zhàn)。將給行業(yè)帶來(lái)巨大的改變。
技術(shù)人才分層與人才供給

音視頻技術(shù)人才大概可分為三大層,五小層:
· 第一大層是制定標(biāo)準(zhǔn)、協(xié)議、算法,以及設(shè)計(jì)架構(gòu)與優(yōu)化系統(tǒng)性能的高級(jí)人才。這部分人才在市場(chǎng)上供不應(yīng)求;
· 第二大層為工程實(shí)現(xiàn)和能力接入與維護(hù)工程師,他們是支撐多媒體應(yīng)用的主力軍,總量將達(dá)到百萬(wàn)級(jí)。由于需求量巨大,總體上屬于供不應(yīng)求;
· 第三大層為內(nèi)容生產(chǎn)者,他們是普通的用戶,但是可以快速掌握簡(jiǎn)單的多媒體接入能力;
因此,可以看到在RTC 市場(chǎng),技術(shù)融合是大趨勢(shì),云服務(wù)巨頭將擁有更多資源優(yōu)勢(shì),實(shí)時(shí)音視頻行業(yè)的發(fā)展,需要加大人才培養(yǎng)的力度。
最后,COVID-19 實(shí)現(xiàn)了對(duì)用戶在多媒體技術(shù)能力方面的認(rèn)知教育。這將在全社會(huì)種下技術(shù)改變生活的種子,會(huì)有更多的創(chuàng)新、創(chuàng)業(yè)玩家涌現(xiàn),也讓技術(shù)更容易滲透到行業(yè)。