[发明专利]短语语音的声纹识别方法及装置有效
申请号: | 202010128519.3 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111341320B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 吕楠楠;巫昌凯;宁博;周远侠 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18;G10L17/20;G10L17/04 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;孙乳笋 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短语 语音 声纹 识别 方法 装置 | ||
本发明提供一种短语语音的声纹识别方法及装置,方法包括:获取用户录入的短语语音的音频;对所述短语语音的音频进行音素提取处理并对提取的音素进行排序;根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别。本发明通过音素提取及排序将短语语音转换为因素的固定文本,基于转换后的固定文本进行声纹识别,提高短语语音的声纹识别准确率。
技术领域
本发明涉及声纹识别技术领域,具体涉及一种短语语音的声纹识别方法及装置。
背景技术
目前,人工智能技术广泛应用于各领域,尤其是在办公领域中的应用,人工智能技术将大量重复性流程剥离出主要业务流程,显著地提高了办公效率及正确率。在人工智能技术领域中,声纹识别技术正逐渐应用到银行业,典型应用场景为电话银行,电话银行呼叫中心使用声纹识别作为用户身份验证的辅助手段并搭建声纹黑名单,有效抵制电话诈骗。
由于声纹识别算法的局限性,要取得较理想的声纹识别准确率必须对有效长语音进行识别,而在声纹识别的实际应用中,用户讲话习惯决定用户的录音往往达不到有效长语音的要求,因而实际场景下的声纹识别准确率相对较低,在某些特定场景下甚至无法达到可应用的最低要求。
因此,现有的声纹识别算法在对短语语音的音频进行识别时,还存在识别准确率低的问题。
发明内容
针对现有技术中的问题,本发明提供一种短语语音的声纹识别方法及装置,能够有效提高对短语语音的音频识别的准确率。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种短语语音的声纹识别方法,包括:
获取用户录入的短语语音的音频;
对所述短语语音的音频进行音素提取处理并对提取的音素进行排序;
根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别。
其中,对所述短语语音的音频进行音素提取处理,包括:
采用音素提取神经网络对短语语音的音频进行辅音音素的提取处理。
其中,所述基于提取的特征进行声纹识别,包括:
根据提取的特征与用户留存的特征进行比对,若比对结果相同,则声纹识别通过。
进一步的,还包括:根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型。
其中,所述根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型,包括:
对所述短语语音的音频进行音素提取处理并对提取的音素进行排序;
采用时延神经网络对排序后的音素进行特征提取处理;
将特征提取结果和短语语音的音频对应的特征标签的交叉熵作为损失函数,基于所述损失函数对时延神经网络的参数进行训练;
其中,所述损失函数的函数值小于预设阈值,结束对时延神经网络的参数进行训练。
第二方面,本发明提供一种短语语音的声纹识别装置,包括:
获取单元,用于获取用户录入的短语语音的音频;
排序单元,用于对所述短语语音的音频进行音素提取处理并对提取的音素进行排序;
提取单元,用于根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别。
其中,所述排序单元,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010128519.3/2.html,转载请声明来源钻瓜专利网。