五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

溫馨提示
恭喜您,訂閱成功!
溫馨提示
抱歉,訂閱失敗,請稍后再試!
溫馨提示
您還未綁定郵箱,需要綁定郵箱才能訂閱哦!訂閱成功后,訂閱信息會發(fā)送到您綁定的郵箱。
溫馨提示
請您在新打開的頁面綁定郵箱!
注意:綁定郵箱完成前,請不要關(guān)閉此窗口!
炫科技
借機(jī)器的一雙“慧眼”,讓文字識別不再霧里看花

無紙化辦公已經(jīng)被談?wù)摿私?0年,一直不溫不火。直到近幾年,隨著智能手機(jī)、平板電腦以及眾多云計(jì)算、協(xié)同工作軟件的出現(xiàn),才開始真正走向主流。訪問基于紙張的信息,將包含大量重要管理數(shù)據(jù)和資訊的文檔以電子形式存儲,之后將信息進(jìn)行整合,進(jìn)入數(shù)字化工作流,是無紙化辦公的精髓,可以大大簡化辦公流程,降低運(yùn)營成本,提升業(yè)務(wù)效率。在這個(gè)過程中,如何快速、精準(zhǔn)的訪問基于紙張的信息是一個(gè)關(guān)鍵點(diǎn)。因此,OCR(Optical Character Recognition)文字識別就成了至關(guān)重要的技術(shù)。

OCR可以將圖片、掃描件中的文字識別成可以編輯的文本,代替人工手動錄入。它就是機(jī)器的一雙“慧眼”,本質(zhì)上類似于人的視覺和閱讀能力,把看到的畫面中文字的信息識別出來,以供使用。事實(shí)上,OCR本身并非新的概念,上世紀(jì)60、70年代世界各國就開始有相關(guān)研究,但是由于硬件設(shè)備成本高、運(yùn)行速度慢、輸入質(zhì)量要求高等限制,并未達(dá)到廣泛應(yīng)用的階段。直至近幾年,由于人工智能和圖像識別技術(shù)的發(fā)展,基于人工智能的文字識別,效率和準(zhǔn)確率大幅提高到可以商用的階段。

作為每年在全球有幾百萬份銷售訂單的華為,如何快速、準(zhǔn)確的處理數(shù)量如此龐大的單據(jù)就成為了一大訴求。有著強(qiáng)大技術(shù)實(shí)力的華為,自然會聚合人工智能、物聯(lián)網(wǎng)、計(jì)算和存儲等基礎(chǔ)能力,解決類似OCR的企業(yè)智能問題。華為云AI就包含OCR文字識別服務(wù)。

挑戰(zhàn)重重

考慮到客戶和應(yīng)用場景的多樣性,OCR主要面臨以下挑戰(zhàn):

1、掃描的單據(jù)往往存在虛線干擾、版面缺失、傾斜、暗光、扭曲、噪聲等情況,定位難度大。

2、文字千變?nèi)f化,例如字體、字號、顏色、筆畫寬度等不固定,方向任意;小數(shù)點(diǎn)、近似英文數(shù)字、特殊符號、連接詞、藝術(shù)字等,容易被漏檢或誤識別。

3、語言種類繁多,經(jīng)常是中英文混合,多種語言混合等場景,識別難度加大。

4、表格單據(jù)經(jīng)常存在蓋章(印章覆蓋文字)、錯(cuò)行(文字溢出表格單元,與表格線交叉)的情況,也造成文字識別干擾,極大影響識別準(zhǔn)確率。

5、拍照上傳的圖片存在噪聲、模糊、光線變化、形變、復(fù)雜背景干擾等問題,對文字定位和識別的準(zhǔn)確度是巨大的挑戰(zhàn)。

逐一擊破

華為云OCR通過圖像預(yù)處理、表單文字定位、證件文字定位與信息抽取、后處理集成學(xué)習(xí)技術(shù),對以上挑戰(zhàn)一一擊破,并取得了明顯的效果。

首先,在圖像預(yù)處理技術(shù)方面,針對蓋章和錯(cuò)行的問題,用最新的深度學(xué)習(xí)模型,直接分離文字、表格線與蓋章3種目標(biāo),消除了表格線和蓋章對文字的干擾,同時(shí)消除了噪聲,極大簡化了后續(xù)的文字識別和版面分析過程,提高了準(zhǔn)確度。據(jù)了解,由于采用了業(yè)界先進(jìn)的深度學(xué)習(xí)模型以及遷移學(xué)習(xí)模型優(yōu)化技術(shù),以及萬億級海量訓(xùn)練樣本,華為云OCR的識別率和召回率達(dá)到了業(yè)界領(lǐng)先水平。

第二,在處理表單類文本識別場景時(shí),采用傾斜矯正算法、最大輪廓提取算法、表格線去干擾算法和文字框定位算法等多種技術(shù)手段。在證件文字定位與信息抽取方面,創(chuàng)新性地提出“一體化檢測(ITE)”檢測算法,將信息抽取的部分關(guān)鍵工作在文字定位環(huán)節(jié),以分類的方式完成,大幅提升了結(jié)構(gòu)化數(shù)據(jù)的提取效率和準(zhǔn)確率。為了更好地適應(yīng)任意版面的旋轉(zhuǎn)、扭曲、復(fù)雜背景、光照、模糊場景下的文字檢測識別,采用黑邊處理、自動糾偏、去噪、圖像自動旋轉(zhuǎn)、多種二值化等方法處理圖像。這樣一來,可以快速識別表格、發(fā)票等單據(jù),并結(jié)構(gòu)化輸出,幫助客戶快速便捷的完成紙質(zhì)單據(jù)的電子化。同時(shí)也可以為客戶定制各種個(gè)性化的OCR服務(wù),滿足不同客戶的需求。

第三,采用詞庫+編輯距離+集成學(xué)習(xí)的策略,對常見詞進(jìn)行詞典庫數(shù)據(jù)收集,用編輯距離進(jìn)行更正。對關(guān)鍵數(shù)字部分,采取多個(gè)圖像后處理手段進(jìn)行集成學(xué)習(xí),給出最終結(jié)果置信度,并進(jìn)行可能出錯(cuò)的報(bào)警。

第四,采用最新的大數(shù)據(jù)集群技術(shù),后臺服務(wù)器穩(wěn)定可靠,系統(tǒng)毫秒級響應(yīng)。

通過華為云OCR技術(shù)自動采集關(guān)鍵數(shù)據(jù), 建立數(shù)據(jù)資產(chǎn),并進(jìn)行大數(shù)據(jù)分析,有效降低了華為的運(yùn)營成本,提升了業(yè)務(wù)效率。華為云OCR技術(shù)幫助華為全球170多個(gè)子公司,節(jié)省約200位人力資源;通過分析海關(guān)估價(jià)等關(guān)鍵信息,控制了每年千萬美金級的風(fēng)險(xiǎn)敞口,業(yè)務(wù)流程自動化比例提升了50%。

能力釋放

不僅在華為內(nèi)部,華為云OCR有效利用華為云計(jì)算的優(yōu)勢,基于松耦合、高復(fù)用性和易于維護(hù)的原則,建設(shè)了OCR公有云服務(wù),以統(tǒng)一的API接口方式,對外部應(yīng)用系統(tǒng)提供滿足不同需求的、便捷的、兼容性強(qiáng)的OCR識別服務(wù)。

目前,華為云OCR已經(jīng)成功應(yīng)用在全球醫(yī)療、海關(guān)、物流、金融、保險(xiǎn)、政務(wù)、交通、汽車、傳統(tǒng)制造業(yè)等擁有大量信息整合輸入需求的業(yè)務(wù)領(lǐng)域。比如,為保險(xiǎn)公司提供保單識別、醫(yī)療單據(jù)識別,幫助保險(xiǎn)公司提高工作效率,加快理賠的速度;在醫(yī)療領(lǐng)域,幫助公司識別藥品說明書,幫助公司快速構(gòu)建藥品說明書的信息庫;在物流領(lǐng)域,華為助力多家Top級快遞企業(yè)完成各類單據(jù)自動識別,提效降本效果顯著。

通過華為云OCR不難看出,華為通過人工智能、云計(jì)算、大數(shù)據(jù)等技術(shù)能力,提供創(chuàng)新的企業(yè)智能服務(wù) ,必將會成為智能社會的使能者。