檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
實(shí)時(shí)語音識別 支持“華北-北京四”、“華東-上海一”區(qū)域。 當(dāng)前服務(wù)僅支持北京和上海區(qū)域,后續(xù)會(huì)陸續(xù)上線其他區(qū)域。 華北-北京四,推薦的區(qū)域,支持一句話識別、錄音文件識別、實(shí)時(shí)語音識別和語音合成和熱詞等接口。 華東-上海一,推薦的區(qū)域,支持一句話識別、錄音文件識別、實(shí)時(shí)語音識別、語音合成和熱詞等接口。
實(shí)時(shí)語音識別 RASR 實(shí)時(shí)語音識別 RASR 實(shí)時(shí)語音識別(Real-time ASR),將連續(xù)的音頻流實(shí)時(shí)轉(zhuǎn)換成文本,語音識別更快??蓱?yīng)用于直播實(shí)時(shí)字幕、會(huì)議實(shí)時(shí)記錄、即時(shí)文本生成等場景。 實(shí)時(shí)語音識別(Real-time ASR),將連續(xù)的音頻流實(shí)時(shí)轉(zhuǎn)換成文本,語音識別更快
方法名稱 是否必選 參數(shù)類型 描述 SetPunc 否 String 表示是否在識別結(jié)果中添加標(biāo)點(diǎn),取值為yes 、 no,默認(rèn)no。 SetDigitNorm 否 String 表示是否將語音中的數(shù)字識別為阿拉伯?dāng)?shù)字,取值為yes 、 no,默認(rèn)為yes。 SetVadHead 否
實(shí)時(shí)語音識別工作流程 實(shí)時(shí)語音識別分為開始識別、發(fā)送音頻數(shù)據(jù)、結(jié)束識別,斷開連接四個(gè)階段。 開始階段需要發(fā)送開始指令,包含采樣率,音頻格式,是否返回中間結(jié)果等配置信息。服務(wù)端會(huì)返回一個(gè)開始響應(yīng)。 發(fā)送音頻階段客戶端會(huì)分片發(fā)送音頻數(shù)據(jù),服務(wù)會(huì)返回識別結(jié)果或者其他事件,如音頻超時(shí),靜音部分過長等。
實(shí)時(shí)語音識別響應(yīng) 開始識別請求響應(yīng) 事件響應(yīng) 識別結(jié)果響應(yīng) 錯(cuò)誤響應(yīng) 嚴(yán)重錯(cuò)誤響應(yīng) 結(jié)束識別請求響應(yīng) 父主題: 實(shí)時(shí)語音識別接口
使用實(shí)時(shí)語音識別 前提條件 確保已按照配置CPP環(huán)境(Linux)配置完畢。 請參考SDK(websocket)獲取最新版本SDK包。
實(shí)時(shí)語音識別 支持“華北-北京一”、“華北-北京四”、“華東-上海一”區(qū)域。 音頻采樣率8KHz或者16KHz,采樣位數(shù)8bit或者16bit。 支持中文普通話、方言的語音識別,其中方言包括:四川話、粵語和上海話。 方言和英語僅支持“華北-北京四”區(qū)域。
選擇連接模式,目前實(shí)時(shí)語音識別提供三種接口,流式一句話、實(shí)時(shí)語音識別連續(xù)模式、實(shí)時(shí)語音識別單句模式 // 選擇1 流式一句話連接 // rasrClient.shortStreamConnect(request); // 選擇2,實(shí)時(shí)語音識別單句模式
實(shí)時(shí)語音識別 前提條件 確保已按照配置Python環(huán)境配置完畢,Python SDK僅支持Python3。 確保已存在待識別的音頻文件。如果需要請?jiān)谙螺d的SDK壓縮包中獲取示例音頻。 請參考SDK(websocket)獲取最新版本SDK包。
選擇連接模式,目前實(shí)時(shí)語音識別提供三種接口,流式一句話、實(shí)時(shí)語音識別連續(xù)模式、實(shí)時(shí)語音識別單句模式 // 選擇1 流式一句話連接 // rasrClient.shortStreamConnect(request); // 選擇2,實(shí)時(shí)語音識別單句模式
sentence_stream_connect(request) # 實(shí)時(shí)語音識別單句模式 rasr_client.continue_stream_connect(request) # 實(shí)時(shí)語音識別連續(xù)模式 # step4 發(fā)送音頻 rasr_client.send_start()
實(shí)時(shí)語音識別接口 接口說明 Websocket握手請求 實(shí)時(shí)語音識別請求 實(shí)時(shí)語音識別響應(yīng)
啟動(dòng)實(shí)時(shí)語音識別 您可以根據(jù)自己的業(yè)務(wù)邏輯進(jìn)行優(yōu)化、修改rasr.xml前端界面和RasrCsActivity.class代碼,執(zhí)行RasrCsActivity.class代碼效果如下。 父主題: Android端調(diào)用語音交互服務(wù)
實(shí)時(shí)語音識別請求 實(shí)時(shí)語音識別工作流程 開始識別 發(fā)送音頻數(shù)據(jù) 結(jié)束識別 父主題: 實(shí)時(shí)語音識別接口
實(shí)時(shí)語音合成會(huì)多次收到音頻響應(yīng),默認(rèn)格式為pcm。在demo中會(huì)把多次返回的結(jié)果拼接起來,存入文件中。 * 3. 當(dāng)服務(wù)端完成合成任務(wù)后,會(huì)返回end響應(yīng)。 */ private void process() { // 1.
檢測到一段語音的結(jié)束點(diǎn),就會(huì)將當(dāng)前這一段的識別結(jié)果返回。和連續(xù)識別不同的是,在單句模式下,返回第一段的識別結(jié)果后,將不再繼續(xù)識別后續(xù)的音頻。這主要是用于和用戶進(jìn)行語音交互的場景下,當(dāng)用戶說完一句話后,往往會(huì)等待后續(xù)的交互操作,例如聆聽根據(jù)識別結(jié)果播報(bào)的相關(guān)內(nèi)容,因而沒有必要繼續(xù)識別后續(xù)的音頻。
OBS的語音文件識別成可編輯的文本,支持中文普通話的識別和合成,其中語音識別還支持帶方言口音的普通話識別以及方言(四川話、粵語和上海話)的識別。適用于如下場景:識別客服、客戶的語音,進(jìn)一步通過文本檢索,檢查有沒有違規(guī)、敏感詞、電話號碼等信息。對會(huì)議記錄的音頻文件,進(jìn)行快速的識別,轉(zhuǎn)化成文字,方便進(jìn)行會(huì)議記錄等場景。
如果檢測語音結(jié)尾的靜音時(shí)長大于等于此值時(shí),在實(shí)時(shí)語音識別單句模式下將返回VOICE_END(識別結(jié)果非空)或EXCEEDED_SILENCE(識別結(jié)果為空)事件并結(jié)束識別;在連續(xù)模式下將會(huì)斷句并繼續(xù)下一句的識別。在流式一句話模式下此參數(shù)不生效。 取值范圍:[0, 3000]的整數(shù),單位為ms,默認(rèn)為500ms。
String 表示客戶端結(jié)束識別請求,參數(shù)值設(shè)置為END。 cancel 否 Boolen 是否取消返回識別結(jié)果。 true:表示取消識別,也即丟棄識別中和未識別的語音數(shù)據(jù)并結(jié)束,不返回剩余的識別結(jié)果。 false:表示繼續(xù)處理識別中和未識別的語音數(shù)據(jù)直到處理完所有之前發(fā)送的數(shù)據(jù)。 默認(rèn)是false。
建議在需要實(shí)時(shí)反饋的情況下100ms,不需要實(shí)時(shí)反饋的情況下500ms。實(shí)時(shí)語音識別代碼示例請參考SDK文檔。 當(dāng)前SIS服務(wù)對于8k音頻的分片大小限制為[160, 32768]字節(jié), 16k音頻的分片大小限制為[320, 65536]字節(jié), 分片大小超出上限或低于下限會(huì)報(bào)錯(cuò)。
識別結(jié)果響應(yīng) 服務(wù)端在收到客戶端發(fā)送的連續(xù)音頻數(shù)據(jù)后, 當(dāng)服務(wù)端識別出結(jié)果后會(huì)實(shí)時(shí)向客戶端按句推送識別結(jié)果響應(yīng)消息, 以json字符串形式放置在text message中。 響應(yīng)消息 表1 響應(yīng)參數(shù) 參數(shù)名 參數(shù)類型 說明 resp_type String 響應(yīng)類型。參數(shù)值為RESULT,表示識別結(jié)果響應(yīng)。
結(jié)束識別請求響應(yīng) 服務(wù)器端收到“結(jié)束識別”請求時(shí)或語音識別過程中發(fā)生錯(cuò)誤,服務(wù)端會(huì)向客戶端推送如下響應(yīng)消息,以json字符串形式放置在text message中。 響應(yīng)消息 表1 響應(yīng)參數(shù) 參數(shù)名 參數(shù)類型 說明 resp_type String 響應(yīng)類型。參數(shù)值為END,表示結(jié)束識別響應(yīng)。
ND、EXCEEDED_SILCENCE事件。 在實(shí)時(shí)語音識別單句模式下: 返回VOICE_START事件,表示檢測到語音,此時(shí)IVR可以做打斷。 返回VOICE_END事件后,表示一句話結(jié)束,后續(xù)的音頻將被忽略,不會(huì)再進(jìn)行識別。 只會(huì)返回最多一組VOICE_START和VOICE_END事件。