[发明专利]个性语料获取方法及个性语料获取装置有效

申请号：	201911314319.0	申请日：	2019-12-19
公开（公告）号：	CN110728133B	公开（公告）日：	2020-05-05
发明（设计）人：	杨福星;郝玉峰;黄宇凯;邵志明;曹琼;李科	申请（专利权）人：	北京海天瑞声科技股份有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G10L13/02;G10L13/04
代理公司：	北京钲霖知识产权代理有限公司 11722	代理人：	熊玉兰;田飞飞
地址：	100083 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	个性语料获取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音合成技术领域，提供一种个性语料获取方法及个性语料获取装置。个性语料获取方法，包括：获取待选语句集，待选语句集包括至少一个待选语句。获取录音者的个人属性信息。基于待选语句和个人属性信息，得到待选语句与录音者之间的适配值。根据适配值，判断待选语句是否保留。根据判断待选语句是否保留的判断结果，得到适配于录音者的个性语料，其中，个性语料由待选语句集中保留的待选语句组成。通过本公开提供的个性语料获取方法，能够根据待选语句自身的易读性和录音者的个人属性信息，筛选适合录音者的待选语句，进而获得适合录音者的个性语料。有助于提高录音者的录音流畅度，进而提升录音效率，从而提高语音合成数据库的质量。

技术领域

本发明一般地涉及语音合成技术领域，特别是涉及一种个性语料获取方法及个性语料获取装置。

背景技术

语音合成，又称为文语转换技术，能将任意文字信息实时转化为标准流程的语音进行朗读。语料通常指在统计自然语言处理中实际上不可能观测到大规模的语言实例。通常用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。

语音合成数据库质量的好坏，与语料库中的语料难易程度和录音者的自身录音水平的高低密不可分。相同的语料对于录音水平不同的录音者，起着不同的录音影响，最终制成的语音合成数据库质量也参差不齐。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种个性语料获取方法及个性语料获取装置。

第一方面，本发明实施例提供一种个性语料获取方法，包括：获取待选语句集，待选语句集包括至少一个待选语句。获取录音者的个人属性信息。基于待选语句和个人属性信息，得到待选语句与录音者之间的适配值。根据适配值，判断待选语句是否保留。根据判断待选语句是否保留的判断结果，得到适配于录音者的个性语料，其中，个性语料由待选语句集中保留的待选语句组成。

在一实施例中，基于待选语句和个人属性信息，得到待选语句与录音者之间的适配值，包括：根据待选语句，获取待选语句易读性的易读值。基于易读值和个人属性信息，得到待选语句与录音者之间的适配值。

在另一实施例中，根据待选语句，获取待选语句易读性的易读值，包括：根据待选语句，得到待选语句的从属领域。根据从属领域，得到待选语句的易读值。

在一实施例中，根据所述待选语句，获取所述待选语句易读性的易读值，还包括：基于所述待选语句的语序，通过语言模型，得到所述待选语句的逻辑合理度。根据所述逻辑合理度，得到所述待选语句的所述易读值。

在另一实施例中，根据所述待选语句，获取所述待选语句易读性的易读值，还包括：基于所述待选语句的句长和/或生僻字，得到所述待选语句易读性的易读值。

在又一实施例中，基于易读值和个人属性信息，得到待选语句与录音者之间的适配值，包括：将待选语句的从属领域、易读值和个人属性信息输入至适配预测模型。通过适配预测模型，得到适配值。

在一实施例中，个人属性信息包括以下至少一项：性别、年龄、籍贯、普通话等级和是否有过播音训练。

在一实施例中，根据适配值，判断待选语句是否保留，包括：将适配值与预设阈值进行对比，当适配值小于或等于阈值时，则保留待选语句。当适配值大于阈值时，则舍弃待选语句。

在一实施例中，根据适配值，判断待选语句是否保留，包括：将待选语句集中的待选语句根据适配值的大小，从小到大进行排序，按序保留与预设数量阈值相同的多个所述待选语句。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京海天瑞声科技股份有限公司，未经北京海天瑞声科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911314319.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]个性语料获取方法及个性语料获取装置有效

专利文献下载