[发明专利]一种基于复杂不变性语音信号数据集相似性度量方法在审
申请号: | 202211374049.4 | 申请日: | 2022-11-03 |
公开(公告)号: | CN115862591A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 朱明 | 申请(专利权)人: | 深圳市赫墨斯科技有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L25/51 |
代理公司: | 重庆壹手知专利代理事务所(普通合伙) 50267 | 代理人: | 刘军 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 复杂 不变性 语音 信号 数据 相似性 度量 方法 | ||
本发明公开了一种基于复杂不变性语音信号数据集相似性度量方法,该方法包括下述步骤,S1.输入参与相似性比对的两个语音信号数据集,将两个语音信号数据集按照完整句子划分为多个语音样本;S2.分别从两个语音信号数据集中各选出一个语音样本构成语音样本对;S3.计算语音样本对的复杂不变距离;S4.取所有语音样本对复杂不变距离的最小值作为两个语音信号数据集之间的相似性度量。本发明提供了一种基于复杂不变性的语音信号数据集相似性度量方法,用于指导语音信号合成过程中的源数据集选择。
技术领域
本发明属于语音信号个性化合成和语音信号数据集相似性度量技术领域,具体涉及一种基于复杂不变性语音信号数据集相似性度量方法,该方法结合迁移学习能够有效地提升低资源场景下语音信号的个性化合成质量。
背景技术
语音信号合成是一种将文本序列转化为语音波形的一种技术。近年来,随着深度学习的不断发展,基于深度网络的语音合成技术极大地提升了语音合成的质量。虽然基于深度网络的语音合成技术已经可以实现非常拟人的语音合成效果,但严重依赖于大量高质量的真实语音数据(几十个小时单一说话者的高质量语音数据)。在低资源场景下(几分钟的高质量单一说话者语音数据以及几小时低质量多个说话者的配对语音数据),通常进行数据增强、收集更多可用的数据或结合迁移学习来提升语音合成的质量。这其中,迁移学习常被用在数据缺失或标注不明的情况。从深度网络本身来看,其从语音信号中提取的特征与网络一样具有相似性和继承性。因此,可以假设这些特征不只是针对某一数据集具有特异性,也可以被用在别的相关数据集。
迁移学习本质上就是发掘并利用源域和目标域之间的相似性。对于一个特定的目标数据集,使用迁移学习的关键问题就是如何选择源数据集。相关研究证明,如果源数据集和目标数据集的边际分布不同,那么使用该源数据集做迁移学习将不会产生一个最佳结果,甚至会出现负迁移现象。实际场景中,给定一个目标数据集,通常可供选择的源数据集有很多,而且来源各种各样,目前还没有一个通用的准则来指导源数据集的选择。一个常见的做法是结合领域相关知识来选择源数据集,对于语音信号数据集而言,这严重依赖于专业人员的判断,因此不适合大规模部署。针对上述问题,我们研究了一种基于复杂不变性的语音信号数据集相似性度量方法,用于指导语音信号合成过程中的源数据集选择。
发明内容
针对上述背景技术所提出的问题,本发明的目的是:旨在提供一种基于复杂不变性语音信号数据集相似性度量方法。
为实现上述技术目的,本发明采用的技术方案如下:
一种基于复杂不变性语音信号数据集相似性度量方法,该方法包括下述步骤,
S1.将参与相似性度量的两个语音信号数据集Di和Dj按照完整的句子划分成多个不同的语音样本;
S2.假设语音信号数据集Di划分出m个语音样本,语音信号数据集Dj划分出n个语音样本;从Di中选取语音样本px,从Dj中选取语音样本qy,以此构成m×n对语音样本对;
S3.对于每对语音样本对(px,qy),计算其复杂不变距离CID(px,qy);
S4.取所有语音样本对复杂不变距离的最小值作为语音信号数据集Di和Dj之间的相似性度量,记为CIS(Di,Dj)。
本发明的有益效果:
1.基于复杂不变性的语音信号数据集相似性度量方法克服了传统度量方法难以度量数据集之间相似性的局限性,并且充分考虑了语音信号之间的复杂性差异,使得相似性度量更加合理、更符合迁移学习的需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市赫墨斯科技有限公司,未经深圳市赫墨斯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211374049.4/2.html,转载请声明来源钻瓜专利网。