[发明专利]藏语声学特征模型的构建方法及系统在审
申请号: | 202010522472.9 | 申请日: | 2020-06-10 |
公开(公告)号: | CN111696519A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 刘亚祝 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08;G10L13/10;G10L25/03 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏语 声学 特征 模型 构建 方法 系统 | ||
本发明实施例提供一种藏语声学特征模型的构建方法。该方法包括:将与多个发音人分别对应的藏语语音训练音频转换成与多个发音人对应的音素序列;构建注意力机制编解码框架的藏语声学特征模型;将多个发音人对应的音素序列作为编码层的输入,得到各发音人身份属性的拟藏语语音特征;通过注意力机制层确定各发音人身份属性的拟藏语语音特征的注意力概率;将各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入,输出处理后的多个发音人身份属性的藏语语音特征。本发明实施例还提供一种藏语声学特征模型的构建系统。本发明实施例基于注意力机制的编解码设计,可以同时训练多个发音人,实现一个模型合成多种声音。
技术领域
本发明涉及语音合成领域,尤其涉及一种藏语声学特征模型的构建方法及系统。
背景技术
语音合成是将文本转换成语音的技术,是人工智能的重要研究领域,是人际语音交互中的重要组成部分。在新闻播报、电台、站台报站以及导航中有着越来越重要的应用。藏语的总使用人数约为800万,广泛分布于国内的西藏、青海、甘肃以及云南等地,另外不丹、印度、尼泊尔和巴基斯坦等国也分布有使用藏语的人群。因此,藏语合成有着广泛的应用前景,对促进藏语地区的人经济建设、基础服务、自动化教育等均有着非常重要的意义。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
现有的藏语语音合成系统往往采用一个藏语音库训练一个合成系统,且局限于参与训练的藏语音频必须具有非常高的音质,一个模型只能合成一个发音人的音频。当新增新的发音人时,需要重复之前相同的操作,费时费力不说,更要大量的财力支持。
发明内容
为了至少解决现有技术中模型需要高音质,且只能合成一个发音人的音频,对于处理多发音人需要费时费财力的问题。
第一方面,本发明实施例提供一种藏语声学特征模型的构建方法,包括:
将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列;
构建注意力机制编解码框架的藏语声学特征模型,其中,所述藏语声学特征模型包括:编码层、注意力机制层以及解码层;
将所述多个发音人对应的音素序列作为所述编码层的输入,得到各发音人身份属性的拟藏语语音特征;
通过注意力机制层确定所述各发音人身份属性的拟藏语语音特征的注意力概率;
将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入,输出处理后的多个发音人身份属性的藏语语音特征。
第二方面,本发明实施例提供一种藏语语音合成方法,包括:
将待合成语音的藏语文本以及待合成发音人,输入至所述权利要求1训练的藏语声学特征模型,输出与所述待合成发音人对应的藏语文本的语音特征,其中,所述待合成发音人从所述多个发音人中选取;
将所述待合成发音人对应的藏语文本的语音特征转换成藏语语音。
第三方面,本发明实施例提供一种藏语声学特征模型的构建系统,包括:
音素序列确定程序模块,用于将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列;
模型构建程序模块,用于构建注意力机制编解码框架的藏语声学特征模型,其中,所述藏语声学特征模型包括:编码层、注意力机制层以及解码层;
拟藏语语音特征确定程序模块,用于将所述多个发音人对应的音素序列作为所述编码层的输入,得到各发音人身份属性的拟藏语语音特征;
注意力概率确定程序模块,用于通过注意力机制层确定所述各发音人身份属性的拟藏语语音特征的注意力概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010522472.9/2.html,转载请声明来源钻瓜专利网。