檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
行業(yè)領先的語音合成算法結合自有儲備的優(yōu)質發(fā)音人資源制作的專業(yè)TTS音庫,為客戶提供一整套的個性化整體解決方案,滿足各類場景下的語音合成需求。
行業(yè)領先的語音合成算法結合自有儲備的優(yōu)質發(fā)音人資源制作的專業(yè)TTS音庫,為客戶提供一整套的個性化整體解決方案,滿足各類場景下的語音合成需求。
注冊百度AI平臺應用 [百度AI開放平臺-全球領先的人工智能服務平臺][AI_-] 首先登陸自己的百度賬戶,打開百度的AI開發(fā)平臺頁面 搜索找到離線語音合成,然后點擊立即使用,進入百度智能云頁面。
語音合成 功能介紹 語音合成,是一種將文本轉換成逼真語音的服務。用戶通過實時訪問和調用API獲取語音合成結果,將用戶輸入的文字合成為音頻。通過音色選擇、自定義音量、語速,為企業(yè)和個人提供個性化的發(fā)音服務。
語音合成 支持“華北-北京四”、“華東-上海一”區(qū)域。 當前服務僅支持北京和上海區(qū)域,后續(xù)會陸續(xù)上線其他區(qū)域。 華北-北京四,推薦的區(qū)域,支持一句話識別、錄音文件識別、實時語音識別和語音合成和熱詞等接口。
語音合成 前提條件 確保已按照配置Python環(huán)境配置完畢,Python SDK僅支持Python3。 請參考SDK(websocket)獲取最新版本SDK包。
語音合成 TTS 語音合成 TTS 語音合成服務提供在線語音合成能力,支持將文本信息實時轉化為近似的真人發(fā)聲,支持多語言多音色語音在線合成。支持客戶的個性化語音定制化需求。 語音合成服務提供在線語音合成能力,支持將文本信息實時轉化為近似的真人發(fā)聲,支持多語言多音色語音在線合成。
表3 TtsCustomRequest 參數(shù)名稱 是否必選 參數(shù)類型 描述 text 是 String 待合成的文本。 audio_format 否 String 待合成的音頻格式,可選mp3,wav等,默認wav。具體信息請參見《API參考》中語音合成章節(jié)。
xiaoyan情感女生 xiaowang童聲 speaker(精品發(fā)音人)取值范圍: huaxiaomei溫柔女聲發(fā)音人,僅支持pcm huaxiaofei朝氣男聲發(fā)音人,僅支持pcm domain取值范圍: common,通用領域 默認:chinese_xiaoyan_common 實時語音合成和語音合成屬于同一種資源
實時語音合成會多次返回結果,demo的處理方式是將多次返回結果集合在一個音頻文件里。
開始語音合成請求 功能介紹 客戶端與語音合成引擎建立Websocket連接后,可以發(fā)送開始語音合成請求進行語音合成。如果客戶端基于該Websocket連接發(fā)送多次合成請求,需在每次請求重新建立websocket連接,一次連接只能處理一次合成請求。
語音合成 語音合成管理 語音合成同步任務管理 語音合成異步任務管理 語音合成租戶級配置管理
語音合成管理 校驗音色模型是否可用(自研和第三方音色) 獲取英文單詞音標 父主題: 語音合成
使用實時語音合成 前提條件 確保已按照配置CPP環(huán)境(Windows)配置完畢。 請參考SDK(websocket)獲取最新版本SDK包。
使用實時語音合成 前提條件 確保已按照配置CPP環(huán)境(Linux)配置完畢。 請參考SDK(websocket)獲取最新版本SDK包。
語音合成異步任務管理 創(chuàng)建TTS試聽任務 獲取TTS試聽文件 創(chuàng)建TTS異步任務 獲取TTS異步任務 父主題: 語音合成
實時語音合成請求 開始語音合成請求 父主題: 實時語音合成接口
實時語音合成響應 開始合成響應 語音合成結果響應 語音合成結束響應 語音合成錯誤響應 嚴重錯誤響應 父主題: 實時語音合成接口
父主題: 實時語音合成響應
語音合成結果響應 音頻流數(shù)據(jù) 時間戳數(shù)據(jù) 父主題: 實時語音合成響應
父主題: 實時語音合成響應
在線語音系統(tǒng) 在語音播報、導航語音、TTS 合成系統(tǒng)中,經(jīng)常需要將多段短音頻(如數(shù)字、單位、名稱)拼接為完整句子。 本方案可直接用于: 服務端實時拼接語音并返回; Android 離線語音合成; 智能音箱指令語音輸出。
若用戶未對語音格式進行設置,系統(tǒng)將默認返回pcm格式語音,pcm格式是一種較為基礎且常用的無損音頻格式,能保證語音質量。 父主題: 語音合成結果響應
時間戳數(shù)據(jù) 功能介紹 實時語音合成服務在生成音頻流的同時,可以生成每個漢字/英文單詞的時間戳信息。該信息可用于視頻字幕和驅動數(shù)字人口型。 參數(shù)設置 設置請求參數(shù)subtitle為"word_level"或"phoneme_level"時,開啟時間戳功能。
產(chǎn)品咨詢類 什么是語音交互服務 支持哪些語言 語音合成后輸出的音頻格式是什么 是否支持離線使用 語音合成后能否返回播放時長 是否支持aac格式的語音文件轉文字 如何查看當前接口是否免費調用