檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
實時語音識別 支持“華北-北京四”、“華東-上海一”區(qū)域。 當(dāng)前服務(wù)僅支持北京和上海區(qū)域,后續(xù)會陸續(xù)上線其他區(qū)域。 華北-北京四,推薦的區(qū)域,支持一句話識別、錄音文件識別、實時語音識別和語音合成和熱詞等接口。 華東-上海一,推薦的區(qū)域,支持一句話識別、錄音文件識別、實時語音識別、語音合成和熱詞等接口。
實時語音識別 RASR 實時語音識別 RASR 實時語音識別(Real-time ASR),將連續(xù)的音頻流實時轉(zhuǎn)換成文本,語音識別更快??蓱?yīng)用于直播實時字幕、會議實時記錄、即時文本生成等場景。 實時語音識別(Real-time ASR),將連續(xù)的音頻流實時轉(zhuǎn)換成文本,語音識別更快
實時語音識別工作流程 實時語音識別分為開始識別、發(fā)送音頻數(shù)據(jù)、結(jié)束識別,斷開連接四個階段。 開始階段需要發(fā)送開始指令,包含采樣率,音頻格式,是否返回中間結(jié)果等配置信息。服務(wù)端會返回一個開始響應(yīng)。 發(fā)送音頻階段客戶端會分片發(fā)送音頻數(shù)據(jù),服務(wù)會返回識別結(jié)果或者其他事件,如音頻超時,靜音部分過長等。
方法名稱 是否必選 參數(shù)類型 描述 SetPunc 否 String 表示是否在識別結(jié)果中添加標(biāo)點,取值為yes 、 no,默認(rèn)no。 SetDigitNorm 否 String 表示是否將語音中的數(shù)字識別為阿拉伯?dāng)?shù)字,取值為yes 、 no,默認(rèn)為yes。 SetVadHead 否
選擇連接模式,目前實時語音識別提供三種接口,流式一句話、實時語音識別連續(xù)模式、實時語音識別單句模式 // 選擇1 流式一句話連接 // rasrClient.shortStreamConnect(request); // 選擇2,實時語音識別單句模式
實時語音識別 前提條件 確保已按照配置Python環(huán)境配置完畢,Python SDK僅支持Python3。 確保已存在待識別的音頻文件。如果需要請在下載的SDK壓縮包中獲取示例音頻。 請參考SDK(websocket)獲取最新版本SDK包。
實時語音識別響應(yīng) 開始識別請求響應(yīng) 事件響應(yīng) 識別結(jié)果響應(yīng) 錯誤響應(yīng) 嚴(yán)重錯誤響應(yīng) 結(jié)束識別請求響應(yīng) 父主題: 實時語音識別接口
實時語音識別 支持“華北-北京一”、“華北-北京四”、“華東-上海一”區(qū)域。 音頻采樣率8KHz或者16KHz,采樣位數(shù)8bit或者16bit。 支持中文普通話、方言的語音識別,其中方言包括:四川話、粵語和上海話。 方言和英語僅支持“華北-北京四”區(qū)域。
使用實時語音識別 前提條件 確保已按照配置CPP環(huán)境(Linux)配置完畢。 請參考SDK(websocket)獲取最新版本SDK包。
實時語音識別接口 接口說明 Websocket握手請求 實時語音識別請求 實時語音識別響應(yīng)
選擇連接模式,目前實時語音識別提供三種接口,流式一句話、實時語音識別連續(xù)模式、實時語音識別單句模式 // 選擇1 流式一句話連接 // rasrClient.shortStreamConnect(request); // 選擇2,實時語音識別單句模式
sentence_stream_connect(request) # 實時語音識別單句模式 rasr_client.continue_stream_connect(request) # 實時語音識別連續(xù)模式 # step4 發(fā)送音頻 rasr_client.send_start()
實時語音識別請求 實時語音識別工作流程 開始識別 發(fā)送音頻數(shù)據(jù) 結(jié)束識別 父主題: 實時語音識別接口
啟動實時語音識別 您可以根據(jù)自己的業(yè)務(wù)邏輯進(jìn)行優(yōu)化、修改rasr.xml前端界面和RasrCsActivity.class代碼,執(zhí)行RasrCsActivity.class代碼效果如下。 父主題: Android端調(diào)用語音交互服務(wù)
如何使用Websocket調(diào)用實時語音識別 解決方案 1. 下載Java SDK 或 Python SDK,參考《SDK參考》中獲取SDK章節(jié)。 2. 配置SDK環(huán)境,參考《SDK參考》中配置Java環(huán)境。 3. 使用SDK里的demo進(jìn)行調(diào)用。
OBS的語音文件識別成可編輯的文本,支持中文普通話的識別和合成,其中語音識別還支持帶方言口音的普通話識別以及方言(四川話、粵語和上海話)的識別。適用于如下場景:識別客服、客戶的語音,進(jìn)一步通過文本檢索,檢查有沒有違規(guī)、敏感詞、電話號碼等信息。對會議記錄的音頻文件,進(jìn)行快速的識別,轉(zhuǎn)化成文字,方便進(jìn)行會議記錄等場景。
如果檢測語音結(jié)尾的靜音時長大于等于此值時,在實時語音識別單句模式下將返回VOICE_END(識別結(jié)果非空)或EXCEEDED_SILENCE(識別結(jié)果為空)事件并結(jié)束識別;在連續(xù)模式下將會斷句并繼續(xù)下一句的識別。在流式一句話模式下此參數(shù)不生效。 取值范圍:[0, 3000]的整數(shù),單位為ms,默認(rèn)為500ms。
String 表示客戶端結(jié)束識別請求,參數(shù)值設(shè)置為END。 cancel 否 Boolen 是否取消返回識別結(jié)果。 true:表示取消識別,也即丟棄識別中和未識別的語音數(shù)據(jù)并結(jié)束,不返回剩余的識別結(jié)果。 false:表示繼續(xù)處理識別中和未識別的語音數(shù)據(jù)直到處理完所有之前發(fā)送的數(shù)據(jù)。 默認(rèn)是false。
建議在需要實時反饋的情況下100ms,不需要實時反饋的情況下500ms。實時語音識別代碼示例請參考SDK文檔。 當(dāng)前SIS服務(wù)對于8k音頻的分片大小限制為[160, 32768]字節(jié), 16k音頻的分片大小限制為[320, 65536]字節(jié), 分片大小超出上限或低于下限會報錯。
結(jié)束識別請求響應(yīng) 服務(wù)器端收到“結(jié)束識別”請求時或語音識別過程中發(fā)生錯誤,服務(wù)端會向客戶端推送如下響應(yīng)消息,以json字符串形式放置在text message中。 響應(yīng)消息 表1 響應(yīng)參數(shù) 參數(shù)名 參數(shù)類型 說明 resp_type String 響應(yīng)類型。參數(shù)值為END,表示結(jié)束識別響應(yīng)。
識別結(jié)果響應(yīng) 服務(wù)端在收到客戶端發(fā)送的連續(xù)音頻數(shù)據(jù)后, 當(dāng)服務(wù)端識別出結(jié)果后會實時向客戶端按句推送識別結(jié)果響應(yīng)消息, 以json字符串形式放置在text message中。 響應(yīng)消息 表1 響應(yīng)參數(shù) 參數(shù)名 參數(shù)類型 說明 resp_type String 響應(yīng)類型。參數(shù)值為RESULT,表示識別結(jié)果響應(yīng)。
ND、EXCEEDED_SILCENCE事件。 在實時語音識別單句模式下: 返回VOICE_START事件,表示檢測到語音,此時IVR可以做打斷。 返回VOICE_END事件后,表示一句話結(jié)束,后續(xù)的音頻將被忽略,不會再進(jìn)行識別。 只會返回最多一組VOICE_START和VOICE_END事件。
再進(jìn)行下去的錯誤,包括如下情況: 配置串錯誤,包括存在不識別的配置串,或者配置串值的范圍不合法。 時序不正確,比如連續(xù)發(fā)送兩次“開始識別”指令。 識別過程中發(fā)生錯誤,比如音頻解碼發(fā)生錯誤。 出現(xiàn)錯誤響應(yīng)時,如果已經(jīng)在一個會話中了,會再發(fā)送一個“結(jié)束識別”的響應(yīng),表示識別會話結(jié)束。