檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
對會議記錄的音頻文件,進(jìn)行快速的識別,轉(zhuǎn)化成文字,方便進(jìn)行會議記錄等場景。 方案架構(gòu) 該方案基于華為云語音交互服務(wù) SIS語音識別構(gòu)建,可自動將用戶上傳到對象存儲服務(wù) OBS的wav語音文件轉(zhuǎn)化為文字。
實時語音識別 RASR 實時語音識別 RASR 實時語音識別(Real-time ASR),將連續(xù)的音頻流實時轉(zhuǎn)換成文本,語音識別更快??蓱?yīng)用于直播實時字幕、會議實時記錄、即時文本生成等場景。
展開內(nèi)容 收起內(nèi)容 方案優(yōu)勢 高準(zhǔn)確率 采用華為云語音交互服務(wù) SIS的ASR能力,將錄音文件轉(zhuǎn)寫成識別文本,在通用測試數(shù)據(jù)集上正確率可達(dá)90%以上。 開箱即用 通過配置算子觸發(fā)規(guī)則和內(nèi)容分析規(guī)則,用戶只需要上傳語音文件即可完成客服中心語音質(zhì)檢。
華東-上海一,推薦的區(qū)域,支持一句話識別、錄音文件識別、實時語音識別、語音合成和熱詞等接口。 音頻采樣率8KHz或者16KHz,采樣位數(shù)8bit或者16bit。 支持中文普通話、方言和英語的語音識別,其中方言包括:四川話、粵語和上海話。 方言和英語僅支持“華北-北京四”區(qū)域。
實時語音識別工作流程 實時語音識別分為開始識別、發(fā)送音頻數(shù)據(jù)、結(jié)束識別,斷開連接四個階段。 開始階段需要發(fā)送開始指令,包含采樣率,音頻格式,是否返回中間結(jié)果等配置信息。服務(wù)端會返回一個開始響應(yīng)。
錄音文件識別極速版 極速版ASR(Restful API接口),適用于音頻(文件大小<=100M,語音時長<=30分鐘)文件的同步識別,此接口以POST方式一次性上傳整個音頻或從華為OBS中下載音頻,識別結(jié)果將在請求響應(yīng)中即刻返回,用于語音文件極速轉(zhuǎn)寫,質(zhì)檢分析的離線場景 。
使用實時語音識別 前提條件 確保已按照配置CPP環(huán)境(Windows)配置完畢。 請參考SDK(websocket)獲取最新版本SDK包。 初始化Client 初始化RasrClient,其參數(shù)包括AuthInfo。
實時語音識別接口 接口說明 Websocket握手請求 實時語音識別請求 實時語音識別響應(yīng)
方案咨詢 語音交互服務(wù)清單及功能對比 服務(wù) 功能 適用場景 支持語言 實時語音識別 可將不限時長的音頻流實時識別為文字,識別結(jié)果自動斷句。 適用于直播實時字幕、現(xiàn)場會議實時記錄、演講實時轉(zhuǎn)寫等場景。 支持中文普通話,帶方言口音的普通話和方言(四川話、粵語和上海話)。
實時語音識別 前提條件 確保已按照配置Java環(huán)境配置完畢。 確保已存在待識別的音頻文件。如果需要請在下載的SDK壓縮包中獲取示例音頻。 請參考SDK(websocket)獲取最新版本SDK包。
實時語音識別 前提條件 確保已按照配置Python環(huán)境配置完畢,Python SDK僅支持Python3。 確保已存在待識別的音頻文件。如果需要請在下載的SDK壓縮包中獲取示例音頻。 請參考SDK(websocket)獲取最新版本SDK包。
實時語音識別響應(yīng) 開始識別請求響應(yīng) 事件響應(yīng) 識別結(jié)果響應(yīng) 錯誤響應(yīng) 嚴(yán)重錯誤響應(yīng) 結(jié)束識別請求響應(yīng) 父主題: 實時語音識別接口
服務(wù)公告 全部公告 > 產(chǎn)品公告 > 華為云語音交互服務(wù)-定制語音識別-一句話識別于2019年7月9日00:00(北京時間)轉(zhuǎn)商通知 華為云語音交互服務(wù)-定制語音識別-一句話識別于2019年7月9日00:00(北京時間)轉(zhuǎn)商通知 2019-07-01 尊敬的華為云客戶: 華為云計劃于
語音識別-隱私通話內(nèi)容分析 語音識別-隱私通話內(nèi)容分析 查看部署指南 方案咨詢 該解決方案有何用途? 該解決方案基于華為云語音交互服務(wù) SIS及函數(shù)工作流 FunctionGraph,構(gòu)建一套隱私通話內(nèi)容分析工作流。
實時語音識別引擎的單句識別模式,和連續(xù)識別模式類似,也會進(jìn)行語音的端點檢測,如果檢測到靜音,將直接丟棄,檢測到語音才會饋入核心進(jìn)行實際的解碼工作,如果檢測到一段語音的結(jié)束點,就會將當(dāng)前這一段的識別結(jié)果返回。
實時語音識別請求 實時語音識別工作流程 開始識別 發(fā)送音頻數(shù)據(jù) 結(jié)束識別 父主題: 實時語音識別接口
實時語音識別連續(xù)模式 功能介紹 連續(xù)識別模式的語音總長度限制為五小時,適合于會議、演講和直播等場景。 連續(xù)識別模式在流式識別的基礎(chǔ)上,結(jié)合了語音的端點檢測功能。
中文普通話,帶方言口音的普通話和方言(四川話、粵語和上海話)。 一句話識別 實時 可以實現(xiàn)1分鐘以內(nèi)音頻到文字的轉(zhuǎn)換。 語音消息轉(zhuǎn)文字、語音搜索、人機(jī)交互等場景。 中文普通話,帶方言口音的普通話和方言(四川話、粵語和上海話)。
sichuan_16k_common 支持采樣率為16k的中文普通話與四川話方言語音識別。區(qū)域僅支持cn-north-4。 cantonese_16k_common 支持采樣率為16k的粵語方言語音識別。區(qū)域僅支持cn-north-4。
當(dāng)前SIS服務(wù)對于8k音頻的分片大小限制為[160, 32768]字節(jié), 16k音頻的分片大小限制為[320, 65536]字節(jié), 分片大小超出上限或低于下限會報錯。 父主題: 實時語音識別請求
該方案可以將用戶上傳在OBS的語音文件識別成可編輯的文本,支持中文普通話的識別和合成,其中語音識別還支持帶方言口音的普通話識別以及方言(四川話、粵語和上海話)的識別。適用于如下場景:識別客服、客戶的語音,進(jìn)一步通過文本檢索,檢查有沒有違規(guī)、敏感詞、電話號碼等信息。
result_bucket_name String 是 OBS桶名稱,全局唯一,用于存放語音識別結(jié)果。取值范圍:3~63個字符,支持小寫字母、數(shù)字、中劃線(-)、英文句號(.)。 登錄華為云解決方案實踐,選擇“語音識別解決方案”,單擊“一鍵部署”,跳轉(zhuǎn)至解決方案創(chuàng)建堆棧界面。
此時后續(xù)的音頻將被忽略,不會再進(jìn)行識別。 在實時語音識別連續(xù)模式下: 不會返回VOICE_START、VOICE_END、EXCEED_SLIENCE事件。