檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
實(shí)時(shí)語(yǔ)音識(shí)別 支持“華北-北京四”、“華東-上海一”區(qū)域。 當(dāng)前服務(wù)僅支持北京和上海區(qū)域,后續(xù)會(huì)陸續(xù)上線其他區(qū)域。 華北-北京四,推薦的區(qū)域,支持一句話識(shí)別、錄音文件識(shí)別、實(shí)時(shí)語(yǔ)音識(shí)別和語(yǔ)音合成和熱詞等接口。 華東-上海一,推薦的區(qū)域,支持一句話識(shí)別、錄音文件識(shí)別、實(shí)時(shí)語(yǔ)音識(shí)別、語(yǔ)音合成和熱詞等接口。
實(shí)時(shí)語(yǔ)音識(shí)別 RASR 實(shí)時(shí)語(yǔ)音識(shí)別 RASR 實(shí)時(shí)語(yǔ)音識(shí)別(Real-time ASR),將連續(xù)的音頻流實(shí)時(shí)轉(zhuǎn)換成文本,語(yǔ)音識(shí)別更快??蓱?yīng)用于直播實(shí)時(shí)字幕、會(huì)議實(shí)時(shí)記錄、即時(shí)文本生成等場(chǎng)景。 實(shí)時(shí)語(yǔ)音識(shí)別(Real-time ASR),將連續(xù)的音頻流實(shí)時(shí)轉(zhuǎn)換成文本,語(yǔ)音識(shí)別更快
方法名稱 是否必選 參數(shù)類型 描述 SetPunc 否 String 表示是否在識(shí)別結(jié)果中添加標(biāo)點(diǎn),取值為yes 、 no,默認(rèn)no。 SetDigitNorm 否 String 表示是否將語(yǔ)音中的數(shù)字識(shí)別為阿拉伯?dāng)?shù)字,取值為yes 、 no,默認(rèn)為yes。 SetVadHead 否
實(shí)時(shí)語(yǔ)音識(shí)別工作流程 實(shí)時(shí)語(yǔ)音識(shí)別分為開(kāi)始識(shí)別、發(fā)送音頻數(shù)據(jù)、結(jié)束識(shí)別,斷開(kāi)連接四個(gè)階段。 開(kāi)始階段需要發(fā)送開(kāi)始指令,包含采樣率,音頻格式,是否返回中間結(jié)果等配置信息。服務(wù)端會(huì)返回一個(gè)開(kāi)始響應(yīng)。 發(fā)送音頻階段客戶端會(huì)分片發(fā)送音頻數(shù)據(jù),服務(wù)會(huì)返回識(shí)別結(jié)果或者其他事件,如音頻超時(shí),靜音部分過(guò)長(zhǎng)等。
實(shí)時(shí)語(yǔ)音識(shí)別響應(yīng) 開(kāi)始識(shí)別請(qǐng)求響應(yīng) 事件響應(yīng) 識(shí)別結(jié)果響應(yīng) 錯(cuò)誤響應(yīng) 嚴(yán)重錯(cuò)誤響應(yīng) 結(jié)束識(shí)別請(qǐng)求響應(yīng) 父主題: 實(shí)時(shí)語(yǔ)音識(shí)別接口
使用實(shí)時(shí)語(yǔ)音識(shí)別 前提條件 確保已按照配置CPP環(huán)境(Linux)配置完畢。 請(qǐng)參考SDK(websocket)獲取最新版本SDK包。
實(shí)時(shí)語(yǔ)音識(shí)別 支持“華北-北京一”、“華北-北京四”、“華東-上海一”區(qū)域。 音頻采樣率8KHz或者16KHz,采樣位數(shù)8bit或者16bit。 支持中文普通話、方言的語(yǔ)音識(shí)別,其中方言包括:四川話、粵語(yǔ)和上海話。 方言和英語(yǔ)僅支持“華北-北京四”區(qū)域。
選擇連接模式,目前實(shí)時(shí)語(yǔ)音識(shí)別提供三種接口,流式一句話、實(shí)時(shí)語(yǔ)音識(shí)別連續(xù)模式、實(shí)時(shí)語(yǔ)音識(shí)別單句模式 // 選擇1 流式一句話連接 // rasrClient.shortStreamConnect(request); // 選擇2,實(shí)時(shí)語(yǔ)音識(shí)別單句模式
實(shí)時(shí)語(yǔ)音識(shí)別 前提條件 確保已按照配置Python環(huán)境配置完畢,Python SDK僅支持Python3。 確保已存在待識(shí)別的音頻文件。如果需要請(qǐng)?jiān)谙螺d的SDK壓縮包中獲取示例音頻。 請(qǐng)參考SDK(websocket)獲取最新版本SDK包。
選擇連接模式,目前實(shí)時(shí)語(yǔ)音識(shí)別提供三種接口,流式一句話、實(shí)時(shí)語(yǔ)音識(shí)別連續(xù)模式、實(shí)時(shí)語(yǔ)音識(shí)別單句模式 // 選擇1 流式一句話連接 // rasrClient.shortStreamConnect(request); // 選擇2,實(shí)時(shí)語(yǔ)音識(shí)別單句模式
sentence_stream_connect(request) # 實(shí)時(shí)語(yǔ)音識(shí)別單句模式 rasr_client.continue_stream_connect(request) # 實(shí)時(shí)語(yǔ)音識(shí)別連續(xù)模式 # step4 發(fā)送音頻 rasr_client.send_start()
實(shí)時(shí)語(yǔ)音識(shí)別接口 接口說(shuō)明 Websocket握手請(qǐng)求 實(shí)時(shí)語(yǔ)音識(shí)別請(qǐng)求 實(shí)時(shí)語(yǔ)音識(shí)別響應(yīng)
啟動(dòng)實(shí)時(shí)語(yǔ)音識(shí)別 您可以根據(jù)自己的業(yè)務(wù)邏輯進(jìn)行優(yōu)化、修改rasr.xml前端界面和RasrCsActivity.class代碼,執(zhí)行RasrCsActivity.class代碼效果如下。 父主題: Android端調(diào)用語(yǔ)音交互服務(wù)
實(shí)時(shí)語(yǔ)音識(shí)別請(qǐng)求 實(shí)時(shí)語(yǔ)音識(shí)別工作流程 開(kāi)始識(shí)別 發(fā)送音頻數(shù)據(jù) 結(jié)束識(shí)別 父主題: 實(shí)時(shí)語(yǔ)音識(shí)別接口
實(shí)時(shí)語(yǔ)音合成會(huì)多次收到音頻響應(yīng),默認(rèn)格式為pcm。在demo中會(huì)把多次返回的結(jié)果拼接起來(lái),存入文件中。 * 3. 當(dāng)服務(wù)端完成合成任務(wù)后,會(huì)返回end響應(yīng)。 */ private void process() { // 1.
單句模式下,響應(yīng)VOICE_START事件,表示檢測(cè)到語(yǔ)音,此時(shí)IVR可以做打斷(連續(xù)模式可忽略)。 void onVoiceEnd(); 單句模式下,響應(yīng)VOICE_END事件,表示一句話結(jié)束,后續(xù)的音頻將被忽略,不會(huì)再進(jìn)行識(shí)別(連續(xù)模式可忽略)。
OBS的語(yǔ)音文件識(shí)別成可編輯的文本,支持中文普通話的識(shí)別和合成,其中語(yǔ)音識(shí)別還支持帶方言口音的普通話識(shí)別以及方言(四川話、粵語(yǔ)和上海話)的識(shí)別。適用于如下場(chǎng)景:識(shí)別客服、客戶的語(yǔ)音,進(jìn)一步通過(guò)文本檢索,檢查有沒(méi)有違規(guī)、敏感詞、電話號(hào)碼等信息。對(duì)會(huì)議記錄的音頻文件,進(jìn)行快速的識(shí)別,轉(zhuǎn)化成文字,方便進(jìn)行會(huì)議記錄等場(chǎng)景。
如果檢測(cè)語(yǔ)音結(jié)尾的靜音時(shí)長(zhǎng)大于等于此值時(shí),在實(shí)時(shí)語(yǔ)音識(shí)別單句模式下將返回VOICE_END(識(shí)別結(jié)果非空)或EXCEEDED_SILENCE(識(shí)別結(jié)果為空)事件并結(jié)束識(shí)別;在連續(xù)模式下將會(huì)斷句并繼續(xù)下一句的識(shí)別。在流式一句話模式下此參數(shù)不生效。 取值范圍:[0, 3000]的整數(shù),單位為ms,默認(rèn)為500ms。
String 表示客戶端結(jié)束識(shí)別請(qǐng)求,參數(shù)值設(shè)置為END。 cancel 否 Boolen 是否取消返回識(shí)別結(jié)果。 true:表示取消識(shí)別,也即丟棄識(shí)別中和未識(shí)別的語(yǔ)音數(shù)據(jù)并結(jié)束,不返回剩余的識(shí)別結(jié)果。 false:表示繼續(xù)處理識(shí)別中和未識(shí)別的語(yǔ)音數(shù)據(jù)直到處理完所有之前發(fā)送的數(shù)據(jù)。 默認(rèn)是false。
建議在需要實(shí)時(shí)反饋的情況下100ms,不需要實(shí)時(shí)反饋的情況下500ms。實(shí)時(shí)語(yǔ)音識(shí)別代碼示例請(qǐng)參考SDK文檔。 當(dāng)前SIS服務(wù)對(duì)于8k音頻的分片大小限制為[160, 32768]字節(jié), 16k音頻的分片大小限制為[320, 65536]字節(jié), 分片大小超出上限或低于下限會(huì)報(bào)錯(cuò)。
識(shí)別結(jié)果響應(yīng) 服務(wù)端在收到客戶端發(fā)送的連續(xù)音頻數(shù)據(jù)后, 當(dāng)服務(wù)端識(shí)別出結(jié)果后會(huì)實(shí)時(shí)向客戶端按句推送識(shí)別結(jié)果響應(yīng)消息, 以json字符串形式放置在text message中。 響應(yīng)消息 表1 響應(yīng)參數(shù) 參數(shù)名 參數(shù)類型 說(shuō)明 resp_type String 響應(yīng)類型。參數(shù)值為RESULT,表示識(shí)別結(jié)果響應(yīng)。
結(jié)束識(shí)別請(qǐng)求響應(yīng) 服務(wù)器端收到“結(jié)束識(shí)別”請(qǐng)求時(shí)或語(yǔ)音識(shí)別過(guò)程中發(fā)生錯(cuò)誤,服務(wù)端會(huì)向客戶端推送如下響應(yīng)消息,以json字符串形式放置在text message中。 響應(yīng)消息 表1 響應(yīng)參數(shù) 參數(shù)名 參數(shù)類型 說(shuō)明 resp_type String 響應(yīng)類型。參數(shù)值為END,表示結(jié)束識(shí)別響應(yīng)。
ND、EXCEEDED_SILCENCE事件。 在實(shí)時(shí)語(yǔ)音識(shí)別單句模式下: 返回VOICE_START事件,表示檢測(cè)到語(yǔ)音,此時(shí)IVR可以做打斷。 返回VOICE_END事件后,表示一句話結(jié)束,后續(xù)的音頻將被忽略,不會(huì)再進(jìn)行識(shí)別。 只會(huì)返回最多一組VOICE_START和VOICE_END事件。