[发明专利]一种声纹识别方法、装置、终端及存储介质在审
申请号: | 202310485536.6 | 申请日: | 2023-04-28 |
公开(公告)号: | CN116417001A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 谭泉;潘俊 | 申请(专利权)人: | 王力安防科技股份有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/08;G10L17/14;G10L19/02;G10L21/0208 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 刘静 |
地址: | 321300 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 装置 终端 存储 介质 | ||
本发明公开了一种声纹识别方法、装置、终端及存储介质,包括:获取测试语音和训练语音,测试语音和训练语音均包括多个语音特征;将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;利用CDS相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。通过本发明通过分别计算测试语音和训练语音的后验概率矩阵,利用CDS相似度算法,对两个矩阵进行相似度比较,得到测试语音的声纹识别结果。通过本发明提供的方法提高了运算的速度及声纹识别的准确率。
技术领域
本发明涉及人工智能技术领域,具体涉及一种声纹识别方法、装置、终端及存储介质。
背景技术
声纹信息中包含了说话人的身份信息,是一种通过语音波形反映说话人生理和行为特征的语音信息。但是没有包含说话人的生命信息,所以声纹识别模型可以抵御冒名攻击而无法有效防御攻击。声纹识别是指通过未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对,做出两者是否同一的结论的过程,为了提升声纹识别的准确性和高效性,设计一种声纹识别分析方法是非常必要的。
发明内容
因此,本发明提供的一种声纹识别方法、装置、终端及存储介质,克服了现有技术中对于待识别语音识别准确率低、速度慢的缺陷。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种声纹识别方法,包括:
获取测试语音和训练语音,所述测试语音和训练语音均包括多个语音特征;
将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;
利用CDS相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。
可选地,所述声纹模型包括包括:声纹背景子模型、声纹分类子模型及声纹识别子模型,其中,
声纹背景子模型,用于滤除输入语音的背景噪声;
声纹分类子模型,用于对输入语音进行分类,其中,每个语音样本均对应有一个类别标签;
声纹识别子模型,用于对输入语音进行声纹目标识别。
可选地,所述声纹模型中任意一个子模型的训练过程均包括:
获取预设语音集,所述预设语音集包括多个语音样本;
采用小波变换对预设语音集进行分解,提取多个语音样本特征对应的小波熵;
将所述小波熵输入预设神经网络训练声纹子模型中进行训练,当满足预设条件时,得到训练好的声纹子模型。
可选地,所述声纹分类子模型通过EM估计算法验证该子模型是否完成训练。
可选地,所述声纹识别子模型通过MAP算法验证该子模型是否完成训练。
可选地,所述预设神经网络为卷积神经网络,其结构包括:输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层及输出层,后验概率矩阵为预设神经网络的输出。
可选地,所述语音特征包括:语音频率、语音分贝、语音的语义及语音字符的数量。
第二方面,本发明实施例提供一种声纹识别装置,包括:
获取模块,用于获取测试语音和训练语音,所述测试语音和训练语音均包括多个语音特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王力安防科技股份有限公司,未经王力安防科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310485536.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低内阻锂电池生产工艺
- 下一篇:缝隙天线组件及电子设备