profiling
api接口性能監(jiān)控工具
api接口性能監(jiān)控工具針對(duì)基于Profiling性能分析工具的關(guān)鍵性能數(shù)據(jù)采集、熱點(diǎn)函數(shù),提供一站式分析工具,幫助用戶快速定位性能瓶頸。不支持在同一個(gè)Device側(cè)同時(shí)拉取網(wǎng)絡(luò)。Profiling不支持多個(gè)基于相同結(jié)果目錄的Profiling,可能會(huì)導(dǎo)致采集的數(shù)據(jù)結(jié)果不準(zhǔn)確。比如main程序中包含多個(gè)獨(dú)立推理任務(wù),通過(guò)Profiling調(diào)用時(shí)會(huì)出現(xiàn)該問(wèn)題。不支持在同一個(gè)Device側(cè)同時(shí)拉起多個(gè)Profiling任務(wù)。配置Profiling相關(guān)路徑時(shí),僅支持路徑由字母、數(shù)字和下劃線字符組成,不支持帶有特殊字符的路徑。Profiling功能與Dump功能不建議同時(shí)使用,即啟動(dòng)Profiling前,請(qǐng)關(guān)閉數(shù)據(jù)Dump。原因:如果同時(shí)開(kāi)啟,由于Dump操作會(huì)影響系統(tǒng)性能,會(huì)造成Profiling采集的性能數(shù)據(jù)指標(biāo)不準(zhǔn)確。采集Profiling數(shù)據(jù)過(guò)程中如果配置的落盤路徑磁盤空間已滿,會(huì)出現(xiàn)性能數(shù)據(jù)無(wú)法落盤情況,因此,需要用戶保證磁盤空間夠用。另外,落盤的性能原始數(shù)據(jù)需要用戶自行老化,預(yù)防磁盤空間被占滿(MB/s)。落盤的性能原始數(shù)據(jù)可以通過(guò)配置storage-limit參數(shù)來(lái)預(yù)防磁盤空間被占滿(<=20MB)(/s),用戶將磁盤內(nèi)最早的文件進(jìn)行老化刪除處理。
ai識(shí)字
ai識(shí)字:為了改善los鯤鵬計(jì)算的性能,可獲得相同性能瓶頸。在程序訓(xùn)練過(guò)程中,F(xiàn)P+FP+BP耗時(shí)占總耗時(shí),不存在性能瓶頸?;谝陨系男阅軘?shù)據(jù)增強(qiáng)可以通過(guò)更新拖尾,開(kāi)啟Profiling功能查看。Profiling性能分析功能與優(yōu)化提供的性能數(shù)據(jù)(如bp_point+fp_point+fp_point整個(gè)鏈路的算子耗時(shí)具體情況)。在該文件中,著重看TaskDuration列,它記錄著當(dāng)前算子的耗時(shí)??梢酝ㄟ^(guò)表格中的自定義排序,選擇TaskDuration為主要關(guān)鍵字,進(jìn)行降序重排表格,開(kāi)頭部分截圖如下??梢?jiàn),當(dāng)前網(wǎng)絡(luò)中涉及的算子,最大耗時(shí)僅231.54us。圖6op_summary從該表中依舊無(wú)法判斷耗時(shí)較長(zhǎng)的原因,那么繼續(xù)打開(kāi)AICore算子調(diào)用次數(shù)及耗時(shí)數(shù)據(jù)。該文件是對(duì)bp_point+fp_point整個(gè)鏈路上算子,不區(qū)分OPName,按算子的OPType做了統(tǒng)計(jì)。比如將Mul算子統(tǒng)計(jì)為一行,統(tǒng)計(jì)調(diào)用次數(shù),總耗時(shí),平均耗時(shí),最大耗時(shí),最小耗時(shí)等。通過(guò)表格中的自定義排序,選擇Ratio(%)為主要關(guān)鍵字,進(jìn)行降序重排表格,截圖如下??梢?jiàn),AICPU在整體耗時(shí)占比達(dá)到76.5%。通過(guò)表格中的自定義排序,選擇Total_time為主要關(guān)鍵字,進(jìn)行降序重排表格,截圖如下??梢钥吹皆贏ICPU中耗時(shí)最大的是dropout算子中的隨機(jī)數(shù)函數(shù),且已經(jīng)達(dá)到了毫秒級(jí)別。圖8aicpu到此Profiling性能分析工具的任務(wù)已經(jīng)完成。問(wèn)題解決查看用戶腳本,發(fā)現(xiàn)用戶腳本中的drop腳本使用的是TensorFlow的原生腳本。