[发明专利]一种基于复杂不变性语音信号数据集相似性度量方法在审

申请号：	202211374049.4	申请日：	2022-11-03
公开（公告）号：	CN115862591A	公开（公告）日：	2023-03-28
发明（设计）人：	朱明	申请（专利权）人：	深圳市赫墨斯科技有限公司
主分类号：	G10L13/027	分类号：	G10L13/027;G10L25/51
代理公司：	重庆壹手知专利代理事务所(普通合伙) 50267	代理人：	刘军
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于复杂不变性语音信号数据相似性度量方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于复杂不变性语音信号数据集相似性度量方法，该方法包括下述步骤，S1.输入参与相似性比对的两个语音信号数据集，将两个语音信号数据集按照完整句子划分为多个语音样本；S2.分别从两个语音信号数据集中各选出一个语音样本构成语音样本对；S3.计算语音样本对的复杂不变距离；S4.取所有语音样本对复杂不变距离的最小值作为两个语音信号数据集之间的相似性度量。本发明提供了一种基于复杂不变性的语音信号数据集相似性度量方法，用于指导语音信号合成过程中的源数据集选择。

技术领域

本发明属于语音信号个性化合成和语音信号数据集相似性度量技术领域，具体涉及一种基于复杂不变性语音信号数据集相似性度量方法，该方法结合迁移学习能够有效地提升低资源场景下语音信号的个性化合成质量。

背景技术

语音信号合成是一种将文本序列转化为语音波形的一种技术。近年来，随着深度学习的不断发展，基于深度网络的语音合成技术极大地提升了语音合成的质量。虽然基于深度网络的语音合成技术已经可以实现非常拟人的语音合成效果，但严重依赖于大量高质量的真实语音数据(几十个小时单一说话者的高质量语音数据)。在低资源场景下(几分钟的高质量单一说话者语音数据以及几小时低质量多个说话者的配对语音数据)，通常进行数据增强、收集更多可用的数据或结合迁移学习来提升语音合成的质量。这其中，迁移学习常被用在数据缺失或标注不明的情况。从深度网络本身来看，其从语音信号中提取的特征与网络一样具有相似性和继承性。因此，可以假设这些特征不只是针对某一数据集具有特异性，也可以被用在别的相关数据集。

迁移学习本质上就是发掘并利用源域和目标域之间的相似性。对于一个特定的目标数据集，使用迁移学习的关键问题就是如何选择源数据集。相关研究证明，如果源数据集和目标数据集的边际分布不同，那么使用该源数据集做迁移学习将不会产生一个最佳结果，甚至会出现负迁移现象。实际场景中，给定一个目标数据集，通常可供选择的源数据集有很多，而且来源各种各样，目前还没有一个通用的准则来指导源数据集的选择。一个常见的做法是结合领域相关知识来选择源数据集，对于语音信号数据集而言，这严重依赖于专业人员的判断，因此不适合大规模部署。针对上述问题，我们研究了一种基于复杂不变性的语音信号数据集相似性度量方法，用于指导语音信号合成过程中的源数据集选择。

发明内容

针对上述背景技术所提出的问题，本发明的目的是：旨在提供一种基于复杂不变性语音信号数据集相似性度量方法。

为实现上述技术目的，本发明采用的技术方案如下：

一种基于复杂不变性语音信号数据集相似性度量方法，该方法包括下述步骤，

S1.将参与相似性度量的两个语音信号数据集D_i和D_j按照完整的句子划分成多个不同的语音样本；

S2.假设语音信号数据集D_i划分出m个语音样本，语音信号数据集D_j划分出n个语音样本；从D_i中选取语音样本p_x，从D_j中选取语音样本q_y，以此构成m×n对语音样本对；

S3.对于每对语音样本对(p_x,q_y)，计算其复杂不变距离CID(p_x,q_y)；

S4.取所有语音样本对复杂不变距离的最小值作为语音信号数据集D_i和D_j之间的相似性度量，记为CIS(D_i,D_j)。

本发明的有益效果：

1.基于复杂不变性的语音信号数据集相似性度量方法克服了传统度量方法难以度量数据集之间相似性的局限性，并且充分考虑了语音信号之间的复杂性差异，使得相似性度量更加合理、更符合迁移学习的需求。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载