目前,AI技術(shù)已經(jīng)廣泛應(yīng)用在圖像、語(yǔ)音等領(lǐng)域,然而在生物醫(yī)學(xué)領(lǐng)域,尤其是基因組學(xué)數(shù)據(jù)領(lǐng)域,AI的應(yīng)用仍處于初期階段。主要原因是,由于基因組數(shù)據(jù)的復(fù)雜性,導(dǎo)致主流的基于圖像和文本的模型不能很好地對(duì)基因組數(shù)據(jù)進(jìn)行建模;同時(shí),由于AI模型的搭建開發(fā)門檻較高,需要開發(fā)者有比較多的經(jīng)驗(yàn)。
2020年3月28日,在華為開發(fā)者大會(huì)2020(Cloud)期間,華為云發(fā)布全新AutoML工具AutoGenome用于基因組數(shù)據(jù)的建模。AutoGenome采用了超參數(shù)自動(dòng)搜索、神經(jīng)網(wǎng)絡(luò)架構(gòu)自動(dòng)搜索和模型自動(dòng)解釋器等最新的AutoML技術(shù),并且提出了全新的更加適用于基因組數(shù)據(jù)建模的殘差全連接網(wǎng)絡(luò),在多項(xiàng)不同的基因組數(shù)據(jù)建模任務(wù)中,AutoGenome的準(zhǔn)確性都超出傳統(tǒng)模型5個(gè)百分點(diǎn)以上。
下文主要從技術(shù)角度講述AutoGenome中涉及到的黑科技,讓我們先睹為快。
一、自動(dòng)機(jī)器學(xué)習(xí)技術(shù)
1.1 自動(dòng)機(jī)器學(xué)習(xí)背景
盡管AI已經(jīng)應(yīng)用于各行各業(yè),并且在圖像和語(yǔ)音等領(lǐng)域已經(jīng)取得了讓人矚目的成績(jī)。但是構(gòu)建一個(gè)性能優(yōu)異的深度學(xué)習(xí)模型仍然需要研究者投入大量的時(shí)間和資源,并且模型的性能在很大程度上也依賴于研究者的調(diào)參經(jīng)驗(yàn)。這種現(xiàn)象已經(jīng)嚴(yán)重的阻礙了AI在科研和產(chǎn)業(yè)界的廣泛應(yīng)用。
為了解決這個(gè)問(wèn)題,研究人員提出了自動(dòng)機(jī)器學(xué)習(xí)(AutoML)方法。AutoML目前是深度學(xué)習(xí)領(lǐng)域最為熱門的一個(gè)話題。針對(duì)特定的機(jī)器學(xué)習(xí)任務(wù),AutoML能夠端到端的完成數(shù)據(jù)處理,特征提取,模型選擇以及模型評(píng)估,節(jié)省人力和資源的消耗。在本節(jié),我們將重點(diǎn)介紹超參自動(dòng)搜索和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(Neural Architecture Search,NAS),其中NAS已經(jīng)成為了AutoML領(lǐng)域最為流行的一種方法,并且取得了非常好的性能。
1.2 超參自動(dòng)搜索
模型的參數(shù)主要分為參數(shù)和超參數(shù),其中參數(shù)是通過(guò)模型的自身訓(xùn)練得到的,而超參數(shù)需要通過(guò)開發(fā)者自身的經(jīng)驗(yàn)進(jìn)行設(shè)置,以提高模型的訓(xùn)練效果。在實(shí)際的開發(fā)過(guò)程中,訓(xùn)練的數(shù)據(jù)量通常會(huì)比較大,模型結(jié)構(gòu)復(fù)雜,計(jì)算成本也會(huì)比較高,同時(shí)每種類型的超參數(shù)都有比較多的選擇,這都會(huì)導(dǎo)致超參搜索的計(jì)算成本高昂。目前業(yè)界比較常用的超參搜索方法主要是網(wǎng)格搜索,隨機(jī)搜索和貝葉斯優(yōu)化等。
AutoGenome在構(gòu)建AI模型的時(shí)候,通過(guò)超參自動(dòng)搜索的算法,能夠自動(dòng)的針對(duì)給定的超參數(shù)空間,無(wú)需用戶的干涉,即可給出最優(yōu)的參數(shù)組合。
1.3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索
網(wǎng)絡(luò)結(jié)構(gòu)搜索(NAS)是AutoML搜索中關(guān)鍵的一環(huán)。NAS的核心是RNN控制器,控制器針對(duì)給定的搜索空間的候選神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)集合,從中產(chǎn)生“子網(wǎng)絡(luò)”;接下來(lái)訓(xùn)練該“子網(wǎng)絡(luò)”并評(píng)估其性能;最后逐步優(yōu)化“子網(wǎng)絡(luò)”結(jié)構(gòu),通過(guò)不斷的重復(fù)上述過(guò)程,并讓控制器進(jìn)行學(xué)習(xí)生成更好的模型結(jié)構(gòu),最終找到一個(gè)最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。

網(wǎng)絡(luò)結(jié)構(gòu)作為一種特殊的超參數(shù),在機(jī)器學(xué)習(xí)整個(gè)環(huán)節(jié)中扮演著舉足輕重的作用。但是傳統(tǒng)的NAS搜索可能會(huì)需要消耗比較長(zhǎng)的時(shí)間,一種非常有效的提高搜索效率的解決方式是ENAS搜索。ENAS是一種通過(guò)子網(wǎng)絡(luò)之間參數(shù)共享的方式,實(shí)現(xiàn)高效的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的方法,ENAS相比于其他的NAS搜索算法,能夠?qū)崿F(xiàn)提速10倍以上的效果,同時(shí)達(dá)到和傳統(tǒng)NAS搜索相似的結(jié)果準(zhǔn)確度。AutoGenome采用了改進(jìn)的ENAS算法,方便用戶能夠快速的得到最優(yōu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
二、適用于基因組數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型-RFCN
2.1 基因組數(shù)據(jù)的特點(diǎn)
目前最流行的CNN網(wǎng)絡(luò)中的卷積操作能夠抽提底層次特征(例如邊緣特征),并進(jìn)而組合低層次特征形成高層次的特征,對(duì)數(shù)據(jù)進(jìn)行建模。RNN雖然在結(jié)構(gòu)上和CNN有比較大的區(qū)別,但其本質(zhì)也是通過(guò)整合序列上前后特征,來(lái)實(shí)現(xiàn)提取信息的功能。CNN和RNN非常適合從圖片數(shù)據(jù),文本數(shù)據(jù)和語(yǔ)音數(shù)據(jù)中提取特征。這些數(shù)據(jù)之間存在有局部相關(guān)性,即輸入的特征值和周圍的特征值存在有相關(guān)性,如果特征輸入順序打亂,則圖片或文本的意義會(huì)完全改變。
然而通過(guò)高通量測(cè)序技術(shù)對(duì)不同分子系統(tǒng)水平的組學(xué)定量,得到的數(shù)據(jù)都是非序列數(shù)據(jù),如基因突變、全基因組的基因拷貝數(shù)變異、RNA表達(dá)值、蛋白質(zhì)表達(dá)量,這些數(shù)據(jù)具有以下特征:
1. 原始數(shù)據(jù)的為幾千或者幾萬(wàn)個(gè)特征(如人類兩萬(wàn)個(gè)基因的表達(dá)量),特征之間相互獨(dú)立;
2. 特征點(diǎn)的數(shù)目比較多,一般和樣本的數(shù)目處在同一個(gè)數(shù)量級(jí);
3. 原始數(shù)據(jù)的特征之間沒有明顯的時(shí)間維度和空間維度相關(guān)性(例如基因之間沒有嚴(yán)格的先后關(guān)系和前后左右關(guān)系);
4. 原始數(shù)據(jù)的特征之間存在層次性的相互作用網(wǎng)絡(luò)(基因調(diào)控通路/網(wǎng)絡(luò));
同時(shí)基因組數(shù)據(jù)中存在更加復(fù)雜的,非時(shí)空關(guān)聯(lián)的,層次性的連接關(guān)系。并且存在有跨層或者跳躍的連接。針對(duì)這種非歐式空間數(shù)據(jù)的建模,前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中的每一層都只會(huì)接收上一層的信息,無(wú)法反映跨層次的調(diào)控。

2.2 殘差全連接神經(jīng)網(wǎng)絡(luò)的提出(RFCN)
由于定量組學(xué)數(shù)據(jù)的特殊性,我們提出了殘差結(jié)構(gòu)的變體-殘差全連接神經(jīng)網(wǎng)絡(luò)(residual fully-connected neural network, RFCN)。與使用卷積作為基礎(chǔ)算子的常規(guī)殘差網(wǎng)絡(luò)不同,殘差全連接神經(jīng)網(wǎng)絡(luò)使用全連接層作為連接方式,每一層既可通過(guò)全連接層與后一層進(jìn)行連接(Path 1),也可以通過(guò)跳躍連接與其他層進(jìn)行相連 (Path 2),還可以連接分支網(wǎng)絡(luò)(Path 3)。

基于RFCN,并且參考ResNet/DenseNet的結(jié)構(gòu),我們提出RFCN的變體:RFCN-ResNet和RFCN-DenseNet。在RFCN-ResNet中, 在中間的每層,以前一層的輸出和輸入之和作為當(dāng)前層的輸入。在RFCN-DenseNet中, 在中間的每層,把前面所有層的輸出串聯(lián)起來(lái)作為當(dāng)前層的輸入。

2.3 隨機(jī)連接殘差全連接網(wǎng)絡(luò)的提出

根據(jù)ResNet 和DenseNet的定義,跳躍連接的方式都是相對(duì)固定的。對(duì)于一個(gè)新數(shù)據(jù)而言,依然需要大量人工設(shè)定網(wǎng)絡(luò)結(jié)構(gòu),對(duì)算法研究者的算法能力和經(jīng)驗(yàn)要求更高;并且依靠人工設(shè)定的結(jié)構(gòu)往往并不是最適合新數(shù)據(jù)的結(jié)構(gòu),解決實(shí)際問(wèn)題的能力和效率是值得懷疑的。因?yàn)槲覀兲岢隽硪环NRFCN的變體——隨機(jī)連接殘差全連接網(wǎng)絡(luò)(randomly-wired residual fully-connected neural network (RRFCN))。這種網(wǎng)絡(luò)架構(gòu)是采用了神經(jīng)網(wǎng)絡(luò)搜索技術(shù)(Neural Architecture Search, NAS),針對(duì)不同的基因組學(xué)數(shù)據(jù)任務(wù),搜索和生成最優(yōu)的殘差全連接層網(wǎng)絡(luò)結(jié)構(gòu)。通過(guò)與神經(jīng)網(wǎng)絡(luò)搜索技術(shù)的結(jié)合,生信研究者可以非常方便地搜索到適合當(dāng)前研究問(wèn)題的殘差全連接網(wǎng)絡(luò)結(jié)構(gòu)。
三、AutoGenome-專為基因組數(shù)據(jù)打造的AI建??蚣?/strong>
為了使生物醫(yī)療的研究工作者方便地使用上RFCN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),我們集成了超參自動(dòng)搜索,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索和自動(dòng)模型解釋器的功能,開發(fā)出了AutoGenome。
3.1 AutoGenome框架設(shè)計(jì)
AutoGenome能夠幫助科研工作者在基因組學(xué)數(shù)據(jù)上實(shí)現(xiàn)端到端的深度學(xué)習(xí)網(wǎng)絡(luò)搜索,訓(xùn)練,評(píng)估,預(yù)測(cè)和解釋的工具包,其架構(gòu)如下圖所示。對(duì)于監(jiān)督學(xué)習(xí)任務(wù),用戶提供基因矩陣數(shù)據(jù)作為輸入,并且設(shè)置好參數(shù)配置Json文件,AutoGenome根據(jù)設(shè)置的搜索空間,自動(dòng)搜索出最佳的RFCN-MLP、RFCN-ResNet, RFCN-DenseNet和RRFCN網(wǎng)絡(luò),并且根據(jù)最優(yōu)網(wǎng)絡(luò)可以評(píng)估模型的效果獲得混淆矩陣,并且可以通過(guò)計(jì)算SHAP值對(duì)特征重要性進(jìn)行可視化。
對(duì)于非監(jiān)督學(xué)習(xí)任務(wù), AutoGenome可以根據(jù)所輸入的數(shù)據(jù)和搜索空間的設(shè)定,選出最優(yōu)的Res-VAE網(wǎng)絡(luò),并能方便地得到潛變量矩陣和重構(gòu)矩陣。

3.2 AutoGenome的調(diào)用方式
在使用過(guò)程中,我們對(duì)AutoGenome進(jìn)行了很好的封裝。如下圖所示。使用者確定自己的輸入數(shù)據(jù),并通過(guò)JSON文件配置自己的搜索空間等參數(shù),只需要執(zhí)行5條命令,用戶即能完成整個(gè)端到端分析。返回給用戶最優(yōu)的AI模型,以及模型分類的混淆矩陣和模型可解釋性的圖譜。

3.3 AutoGenome的應(yīng)用案例
在該案例中, 采用了小鼠的10000個(gè)單細(xì)胞測(cè)序數(shù)據(jù),共包含10個(gè)不同時(shí)期。AutoGenome自動(dòng)將數(shù)據(jù)分為訓(xùn)練集,驗(yàn)證集和測(cè)試集。自動(dòng)進(jìn)行訓(xùn)練并得到最優(yōu)模型。我們測(cè)試了不同工具在獨(dú)立測(cè)試集上的準(zhǔn)確度如下圖所示。

結(jié)果顯示AutoGenome得到的模型的性能均大幅度由于傳統(tǒng)的XGBoost和AutoKeras。說(shuō)明AutoGenome用于基因組數(shù)據(jù)訓(xùn)練的模型的性能普遍優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)框架。
另外,AutoGenome內(nèi)置了模型可解釋性的接口,能夠自動(dòng)的針對(duì)最優(yōu)AI模型進(jìn)行分析,找出關(guān)鍵的特征來(lái)對(duì)模型進(jìn)行解釋。結(jié)果顯示,針對(duì)單細(xì)胞的分類中,很多核糖體相關(guān)基因排在特征重要性的前列。同時(shí)這個(gè)結(jié)果是合理的,因?yàn)橄惹暗暮芏嘌芯烤砻骱颂求w基因在胚胎發(fā)育和干細(xì)胞分化中發(fā)揮著重要作用。比如說(shuō)Rpl35基因據(jù)報(bào)道在發(fā)育早期階段具有很重要,在逐漸發(fā)育過(guò)程中,Rpl35基因表達(dá)也隨之增加,因此在晚期E7.5階段,Rpl35基因的表達(dá)值很高,傾向于預(yù)測(cè)為該階段。

3.4 AutoGenome的使用
在開發(fā)過(guò)程上,AutoGenome對(duì)于AI的初學(xué)者非常友好,只需要五行代碼即可快速完成端到端的基因組數(shù)據(jù)建模、準(zhǔn)確性評(píng)估和模型解釋。同時(shí)AutoGenome已經(jīng)證明在多項(xiàng)任務(wù)上性能都達(dá)到了業(yè)內(nèi)最優(yōu),自動(dòng)生成的模型可解釋性譜圖可以直接用于生物標(biāo)志物的發(fā)現(xiàn)或者論文初版。我們預(yù)計(jì)AutoGenome將能夠廣泛的支撐基因組領(lǐng)域的科研,藥物研發(fā),個(gè)性化診斷等領(lǐng)域。

目前,AutoGenome已經(jīng)正式上線,用戶可在華為云ModelArts一站式AI開發(fā)管理平臺(tái)上免費(fèi)使用(http://m.cqfng.cn/product/modelarts.html)。具體方法和步驟如下:
1. 創(chuàng)建GPU Notebook開發(fā)環(huán)境:用戶可以登錄華為云ModelArts平臺(tái),并創(chuàng)建GPU的Notebook開發(fā)環(huán)境。

2. 選擇AutoGenome案例:在打開的環(huán)境中,選擇ModelArts Examples-EIHealth Labs,在該條目下,我們已經(jīng)提供了多個(gè)AutoGenome的案例,用戶可以根據(jù)自己的項(xiàng)目目標(biāo)打開對(duì)應(yīng)的的案例,并點(diǎn)擊”use”。

3. 運(yùn)行AutoGenome:在新打開的Notebook開發(fā)環(huán)境中,用戶可以直接使用AutoGenome,復(fù)現(xiàn)測(cè)試數(shù)據(jù)的結(jié)果,或者配置自己的數(shù)據(jù)進(jìn)行AI模型訓(xùn)練。

四、華為云醫(yī)療智能體平臺(tái)介紹
華為云EI醫(yī)療智能體(EIHealth)是華為云面向醫(yī)療行業(yè)提供的端到端的AI賦能平臺(tái),在基因組,藥物研發(fā)和醫(yī)療影像領(lǐng)域可以極大的加速AI產(chǎn)品和服務(wù)的研發(fā)和應(yīng)用。平臺(tái)提供大量相關(guān)流程,工具鏡像等資源,科研單位和企業(yè)可以基于EIHealth平臺(tái)快速的搭建數(shù)據(jù)分析流程。
面對(duì)當(dāng)前疫情,醫(yī)療智能體聯(lián)合多家科研機(jī)構(gòu)開發(fā)一系列抗疫平臺(tái)服務(wù),包括新冠病毒自動(dòng)化鑒定云平臺(tái)、大規(guī)??共《舅幬锖Y選平臺(tái)、新冠肺炎AI影像輔助診斷(http://m.cqfng.cn/product/eihealth.html)。
