背景介紹
業(yè)務(wù)挑戰(zhàn)
解決方案
云容器引擎CCE承載API超千萬日調(diào)用量
行者AI的諦聽內(nèi)容安全,API的日調(diào)用量突破了1000萬,采用微服務(wù)框架,包含多個微服務(wù),部署在數(shù)十個容器節(jié)點上,需要可靠穩(wěn)定的容器集群才能保證系統(tǒng)穩(wěn)定性。行者AI將服務(wù)部署在華為云CCE容器集群上,利用CCE調(diào)度近百個微服務(wù)節(jié)點,并利用WAF來防止API被濫用,同時利用流量監(jiān)測進(jìn)行服務(wù)的彈性伸縮,維持了系統(tǒng)的穩(wěn)定性,自上線以來,0事故。
服務(wù)監(jiān)測平臺實時上報業(yè)務(wù)與日志數(shù)據(jù)
行者AI基于華為云ECS和LTS服務(wù)搭建了服務(wù)監(jiān)測平臺,客戶在使用行者AI服務(wù)時,會實時上報使用日志,計算出監(jiān)控業(yè)務(wù)指標(biāo),如發(fā)現(xiàn)算法效果下降,會立即安排算法同學(xué)進(jìn)行排查,快速響應(yīng)客戶成功SOP,讓用戶更滿意服務(wù)。
GPU調(diào)度,嚴(yán)格把控成本
?????????行者AI有大量算法服務(wù),AI生成圖片、AI內(nèi)容安全審核、AINPC、AI生成音樂等,都要使用GPU算力,分散管理帶來GPU的利用率比較低。行者AI利用華為云CCE容器管理去集中管理各種GPU服務(wù)節(jié)點,再利用MongoDB和Redis構(gòu)建了任務(wù)隊列,把GPU資源整體利用率提高到了80%以上,降低了GPU的采購成本,也提高業(yè)務(wù)整體的毛利率。
客戶價值
-
線上業(yè)務(wù)維持穩(wěn)定,支撐1000以上并發(fā)能力
從2022年開始,行者AI陸續(xù)把游戲內(nèi)容資產(chǎn)生成、AI音樂、AI內(nèi)容安全等所有業(yè)務(wù)陸續(xù)遷移到華為云上,彈性支撐了業(yè)務(wù)增長,支撐了1000以上并發(fā)能力,完美支撐了客戶的需要。
從2022年開始,行者AI陸續(xù)把游戲內(nèi)容資產(chǎn)生成、AI音樂、AI內(nèi)容安全等所有業(yè)務(wù)陸續(xù)遷移到華為云上,彈性支撐了業(yè)務(wù)增長,支撐了1000以上并發(fā)能力,完美支撐了客戶的需要。
-
GPU資源平均利用率保持在80%以上
行者AI的訓(xùn)練和推理任務(wù),需要的算力差異很大,比如:游戲2D美術(shù)的底模訓(xùn)練、風(fēng)格固化Lora訓(xùn)練以及各種不同尺寸的圖片生成,2K以內(nèi)的圖片只需要24G顯存,而4K、8K圖片則需要40G乃至80G顯存?;谌A為云的GPU調(diào)度平臺,讓任務(wù)與算力資源得到了正確的匹配,使GPU資源利用率平均保持在80%以上。
行者AI的訓(xùn)練和推理任務(wù),需要的算力差異很大,比如:游戲2D美術(shù)的底模訓(xùn)練、風(fēng)格固化Lora訓(xùn)練以及各種不同尺寸的圖片生成,2K以內(nèi)的圖片只需要24G顯存,而4K、8K圖片則需要40G乃至80G顯存?;谌A為云的GPU調(diào)度平臺,讓任務(wù)與算力資源得到了正確的匹配,使GPU資源利用率平均保持在80%以上。
-
數(shù)據(jù)驅(qū)動讓算法優(yōu)化更高效,模型每天可更新10次以上
通過建立指標(biāo)監(jiān)測體系、日志分析平臺和5分鐘報警機(jī)制,使線上的算法效果變化盡收眼底,配合客戶成功經(jīng)理的打標(biāo)和模型的自學(xué)習(xí),可以快速輸出效果變化的原因、新模型的效果,從而驅(qū)動算法工程師是否上線新模型,一天可更新模型10次以上。
通過建立指標(biāo)監(jiān)測體系、日志分析平臺和5分鐘報警機(jī)制,使線上的算法效果變化盡收眼底,配合客戶成功經(jīng)理的打標(biāo)和模型的自學(xué)習(xí),可以快速輸出效果變化的原因、新模型的效果,從而驅(qū)動算法工程師是否上線新模型,一天可更新模型10次以上。