[发明专利]文本无关说话人验证方法和装置有效
申请号: | 201910511775.8 | 申请日: | 2019-06-13 |
公开(公告)号: | CN110232928B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 俞凯;钱彦旻;杨叶新;王帅;黄厚军 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/20;G10L25/03 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 无关 说话 验证 方法 装置 | ||
本发明公开文本无关说话人验证方法和装置,其中,一种文本无关说话人验证方法,包括:提取待验证语音的幅度特征和与所述幅度特征对应的相位特征;对所述幅度特征和所述相位特征进行处理以得到相位感知特征;对所述相位感知特征进行说话人分类以得到说话人嵌入;对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。本申请的方法和装置提供的方案通过在深度说话人嵌入学习中结合幅度特征和相位特征,说话人验证系统的对噪声鲁棒性能够得到提升。进一步地,本申请的方案不仅针对噪声鲁棒的说话人验证系统提出了新的方案,更展现了使用相位特征来提升性能的各种可能。
技术领域
本发明属于说话人验证技术领域,尤其涉及文本无关说话人验证方法和装置。
背景技术
相关技术中,现有的说话人验证系统大致分为两派:1)基于传统i-vector模型;2)基于深度学习框架。但目前市面上存有的说话人验证系统,通常需要训练和测试的环境相一致,如果测试环境比较嘈杂,其性能会大幅降低。目前市面上存在对噪声鲁棒的说话人验证系统大多通过构造带噪的数据集进行训练。存在的结合相位信息的说话人验证系统,也均是基于传统的说话人验证系统框架(高斯混合模型等)。
传统i-vector系统通过GMM(gaussian mixture model,高斯混合模型)对说话人进行建模,并通过因子分析的得到说话人嵌入。而基于深度学习框架的说话人验证系统使用神经网络对说话人嵌入进行建模。结合相位信息的说话人验证系统将相位特征和幅度特征结合在一起,通过传统说话人验证模型进行建模。
发明人在实现本申请的过程中发现,现有的方案至少存在以下缺陷:
不特地对噪声环境进行优化的说话人验证系统通常需要训练和测试的环境相一致,如果测试环境比较嘈杂,其性能会大幅降低。而如果重新构造带噪训练集,需要花费较多人力和时间来录制新的音频。使用传统说话人验证框架结合相位信息的系统在性能方面不如基于深度学习框架。这些缺陷主要是由模型性能、数据集等内容导致。
发明内容
本发明实施例提供一种文本无关说话人验证方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种文本无关说话人验证方法,包括:提取待验证语音的幅度特征和与所述幅度特征对应的相位特征;对所述幅度特征和所述相位特征进行处理以得到相位感知特征;对所述相位感知特征进行说话人分类以得到说话人嵌入;对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。
第二方面,本发明实施例提供一种文本无关说话人验证装置,包括:提取模块,配置为提取待验证语音的幅度特征和与所述幅度特征对应的相位特征;处理模块,配置为对所述幅度特征和所述相位特征进行处理以得到相位感知特征;分类模块,配置为对所述相位感知特征进行说话人分类以得到说话人嵌入;验证模块,配置为对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的文本无关说话人验证方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的文本无关说话人验证方法的步骤。
本申请的方法和装置提供的方案对提取的幅度特征和相应的相位特征进行处理,之后获取处理后的相位感知特征的说话人嵌入,然后根据该说话人嵌入对待验证语音进行验证,通过在深度说话人嵌入学习中结合幅度特征和相位特征,说话人验证系统的对噪声鲁棒性能够得到提升。进一步地,本申请的方案不仅针对噪声鲁棒的说话人验证系统提出了新的方案,更展现了使用相位特征来提升性能的各种可能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910511775.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:说话人验证反欺骗方法和装置
- 下一篇:用于对音频信号进行译码的译码器和方法