[发明专利]一种语音合成方法及装置有效

申请号：	202010749702.5	申请日：	2020-07-30
公开（公告）号：	CN111916052B	公开（公告）日：	2021-04-27
发明（设计）人：	冯大航;陈孝良	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L13/04	分类号：	G10L13/04;G10L13/02;G10L15/00;G10L17/00
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	黄邃
地址：	100080 北京市海淀区北四***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音合成方法及装置。该方法在获取至少一个用户的语音；对至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定每个用户的声纹特征；若确定的语种中存在当前地区的通用语种，则将通用语种确定为目标语种；当前地区为用户当前所处的地区；若确定的语种中不存在通用语种，则将语种占比大于预设占比的语种确定为目标语种；基于每个用户的声纹特征，以目标语种，输出目标合成语音。该方法将确定的目标语种和通过相似度获取的目标声纹特征，得到的合成语音，提高了语音交互系统中语音合成的质量和用户体验。

技术领域

本申请涉及通信技术领域，尤其涉及一种语音合成方法及装置。

背景技术

语音合成是通过机器将文字转换为声音的技术，又被称为文语转换(Test-To-Speech，TTS)，目前，语音合成技术在国际上已经取得了普遍发展，各种语言都有各自的语音合成系统，为了让系统具有更好的重用性、通用性和扩展性，多语种的语音合成便成为了国内外研究的热点，多语种的语音合成是指能够用一个语音合成系统取得不同说话人、不同语种的合成语音。目前，智能终端的语音交互系统应用了语音合成技术，以实现与用户的沟通交流。

然而，在智能终端的语音交互系统中，若用户语音采用的语种与语音交互系统默认输出的语种不同，使用户不理解语音交互系统输出的语音的语义，出现对话障碍的问题，且语音交互系统输出的语音的音色一般为默认音色，导致与用户的亲和力不足，降低用户体验。

发明内容

本申请实施例提供一种语音合成方法及装置，解决了现有技术存在的上述问题，以提高语音交互系统中语音合成的质量和用户体验。

第一方面，提供了一种语音合成方法，该方法可以包括：

获取至少一个用户的语音；

对所述至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定所述每个用户的声纹特征；

若确定的语种中存在当前地区的通用语种，则将所述通用语种确定为目标语种；所述当前地区为所述用户当前所处的地区；

若确定的语种中不存在所述通用语种，则将语种占比大于预设占比的语种确定为目标语种；

基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音。

在一种可选的实现中，基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音，包括：

根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；

以所述目标语种和所述目标声纹特征，输出目标合成语音。