[发明专利]一种声纹识别方法、装置、电子设备及存储介质有效
申请号: | 202110200815.4 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112786057B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 杨奇;陈书楷 | 申请(专利权)人: | 厦门熵基科技有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭帅 |
地址: | 361000 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种声纹识别方法、装置、电子设备及存储介质;其中,方法包括:获取语音信号,并从语音信号中获取语音片段;提取语音片段的频谱图;对频谱图进行周期变换,得到周期频谱;将周期频谱变换为梅尔频谱,并基于梅尔频谱得到语谱图;通过预设CNN模型MobileAudioNet从语谱图中提取声纹特征;匹配声纹特征与预设声纹特征,识别声纹特征对应的说话人ID。从而提高了声纹识别率和识别速度。
技术领域
本发明涉及声纹识别技术领域,尤其涉及一种声纹识别方法、装置、电子设备及存储介质。
背景技术
声纹识别,是根据人声的特质来自动识别说话人身份,声纹识别技术属于生物识别验证技术,即通过语音来对说话人的身份进行验证,具有较好的便捷性、稳定性、可测量性等特点,其在诸多公共领域有着广泛的应用。
现有技术中,声纹识别通常是将截取的音频抽成一个F*D维的频谱图,然后送入卷积神经网络CNN中获得声纹特征,而这个CNN网络可以是任意的;比如:512维的向量。然后基于此向量做说话人分类,直接音频波形信号中使用短时傅里叶变化抽取出语音的频谱图,继而基于该频谱图使用CNN网络结构,则可实现声纹识别。
然而,现有技术存在声纹识别率不高,识别速度慢的技术问题。
发明内容
本发明提供了一种声纹识别方法、装置、电子设备及存储介质,用于解决现有技术存在的声纹识别率不高,识别速度慢的技术问题。
本发明提供了一种声纹识别方法,包括:
获取语音信号,并从所述语音信号中获取语音片段;
提取所述语音片段的频谱图;
对所述频谱图进行周期变换,得到周期频谱;
将所述周期频谱变换为梅尔频谱,并基于所述梅尔频谱得到语谱图;
通过预设CNN模型MobileAudioNet从所述语谱图中提取声纹特征;
匹配所述声纹特征与预设声纹特征,识别所述声纹特征对应的说话人ID。
可选地,所述获取语音信号,并从所述语音信号中获取语音片段的步骤,包括:
获取语音信号;
对所述语音信号进行分帧处理,获取语音片段。
可选地,所述提取所述语音片段的的频谱图的步骤,包括:
对所述语音片段进行短时傅里叶变换,提取所述语音片段的频谱图。
可选地,所述匹配所述声纹特征与预设声纹特征,识别所述声纹特征对应的说话人ID的步骤,包括:
计算所述声纹特征与预设声纹特征的相似性分数;
当所述相似性分数大于预设阈值时,获取所述预设声纹特征的说话人ID;
将所述说话人ID确定为所述声纹特征的说话人ID。
本发明还提供了一种声纹识别装置,包括:
语音片段获取模块,用于获取语音信号,并从所述语音信号中获取语音片段;
频谱图提取模块,用于提取所述语音片段的频谱图;
周期频谱生成模块,用于对所述频谱图进行周期变换,得到周期频谱;
语谱图生成模块,用于将所述周期频谱变换为梅尔频谱,并基于所述梅尔频谱得到语谱图;
声纹特征提取模块,用于通过预设CNN模型MobileAudioNet从所述语谱图中提取声纹特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门熵基科技有限公司,未经厦门熵基科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110200815.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种风力发电机组后备辅助系统
- 下一篇:新型蛾毛下吸式抽风净化系统