[发明专利]一种大语料音库裁剪方法在审
申请号: | 201710584805.9 | 申请日: | 2017-07-17 |
公开(公告)号: | CN107492371A | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 谢泽鑫;李权;陈杰永;余亮;杨有科;冯国梁;冯婕;邹月荣;郭清霞 | 申请(专利权)人: | 广东讯飞启明科技发展有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/08;G06F17/30 |
代理公司: | 广州市一新专利商标事务所有限公司44220 | 代理人: | 王德祥 |
地址: | 510663 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 裁剪 方法 | ||
技术领域
本发明涉及语音信号处理技术领域,特别涉及一种大语料音库裁剪方法。
背景技术
语音语料库是指为言语技术的研究与开发而建立的语音数据及其标注的集合。大语料音库的拼接系统由于很好的做到了合成后的声音清晰、可懂、自然、具有表现力而被广泛应用。但是,大语料音库占用空间过大,其应用领域受到了很大限制,如嵌入式产品领域。虽然通过聚类、编码和压缩等技术手段处理后,占用空间可以降低,但音质受到损伤,且灵活度下降。因此,近几年出现了越来越多的大语料音库裁剪方法,试图通过裁剪音库中的语音单元来降低音库的占用空间。现有的音库裁剪方法首先采集大量所有领域的文本,然后利用大语料音库训练决策树模型;接着利用所述决策树模型来合成采集文本,对大语料音库中的语音单元进行预选;最后根据预选过程中语音单元使用的频率,对预选使用的语音单元进行裁剪,裁剪掉使用频率较低的语音单元。现有方法仅根据语音单元在预选过程中使用频率对预选语音单元进行裁剪,由于合成文本的多变性,使用频率较低的语音单元有可能在使用其它文本进行语音单元预选时使用频率较高,并且有些使用频率较低的语音单元具有一些特性,是大语料音库所必须的语音单元。因此,直接将使用频率较低的语音单元裁剪掉显然不合理,同时也容易降低大语料音库的语音单元覆盖度。
发明内容
本发明提供一种大语料音库裁剪方法,解决大语料音库占用空间大,覆盖度低的问题。
本发明采用如下技术方案:
一种大语料音库裁剪方法,包括如下步骤:
采集所有领域的文本数据,作为辅助裁剪文本;
利用所述辅助裁剪文本对大语料音库中的语音单元进行预选,得到预选的语音单元及该语音单元在预选过程中的使用频率;
根据语音单元预选结果,计算语音单元的裁剪得分;
根据每个语单元的裁剪得分,对大语料音库中预选语音单元进行裁剪,得到裁剪后的大语料音库。
作为上述方案的改进,所述利用所述辅助裁剪文本对大语料音库中的语音单元进行预选的步骤包括:
利用所述大语料音库中所有语音单元训练决策树模型;
利用所述决策树模型,对辅助裁剪文本进行语音合成,记录合成过程中使用语音单元的编号及使用频率;
根据所述单元的使用频率及预先设定的语音单元预选阈值,对大语料库中语音单元进行预选;裁剪掉使用频率低于预选阈值的语音单元。
作为上述方案的改进,所述利用所述辅助裁剪文本对大语料音库中的语音单元进行预选的步骤包括:
在预选的领域内采集大量文本,作为第二辅助裁剪文本;
利用所述第二辅助裁剪文本对预选的大语料音库中的语音单元进行预选,得到预选的语音单元;
利用预选得到的所述语音单元训练决策树模型,对第二辅助裁剪文本进行语音合成,记录合成过程中使用语音单元的编号及使用频率;
根据预选领域内语音单元预选阈值,对预选语音单元再次裁剪。
作为上述方案的改进,所述根据语音单元预选结果,计算语音单元的裁剪得分的步骤包括:
计算所述大语料音库对应的决策树模型中每个叶子节点中包含的语音单元之间的相似度;
根据所述语音单元之间的相似度,计算当前语音单元的裁剪得分。
有益效果
本发明采集所有领域的文本数据,作为辅助裁剪文本;接着利用辅助裁剪文本对大语料音库中的语音单元进行预选,得到预选的语音单元及该语音单元在预选过程中的使用频率;然后根据语音单元预选结果,计算语音单元的裁剪得分;最后根据每个语单元的裁剪得分,对大语料音库中预选语音单元进行裁剪,具体裁剪时,以预选过程中构建的决策树模型叶子节点为单位。本案所述方法根据语音单元在预选过程中的使用频率,及决策树模型叶子节点中语音单元之间的相似度来计算语音单元的裁剪得分,所述裁剪得分考虑了语音单元之间的相似度,根据裁剪得分对大语料音库进行裁剪,裁剪掉相似度较高的语音单元,即去除大语料音库中的冗余单元,从而可以在降低音库占用空间的同时,保证大语料音库语音单元的覆盖度。
附图说明
图1是本发明提供的的一个实施例的大语料音库裁剪方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东讯飞启明科技发展有限公司,未经广东讯飞启明科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710584805.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调节声波聚焦的超表面结构
- 下一篇:语音文字互通通信系统