[发明专利]一种声纹识别方法和装置、服务器、存储介质有效
申请号: | 201810253151.6 | 申请日: | 2018-03-26 |
公开(公告)号: | CN108564956B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 冉承祥;高昊江;杨飞 | 申请(专利权)人: | 京北方信息技术股份有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L25/24 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100089 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种声纹识别方法和装置、服务器、存储介质,其中,该方法包括:采集待识别的语音信号;根据至少一个改进的伽马通滤波器,对语音信号进行分频段的声纹特征提取;基于提取的声纹特征,确认语音信号的识别结果。本发明实施例可以解决现有技术中由于语音的高频部分信息丢失导致的识别效果较差的问题,可以提高滤波器对语音高频部分的分辨率,提高声纹特征提取的准确性,进而提高对语音的高频部分的识别效果,并且可以降低声纹识别涉及的运算复杂度以及响应时间。
技术领域
本发明实施例涉及声音识别技术领域,尤其涉及一种声纹识别方法和装置、服务器、存储介质。
背景技术
随着用户的安全防范意识不断增加,越来越多的识别方式考虑以用户生理特征作为身份识别特征。声纹识别是一项重要且方便的识别方式。声纹识别涉及的语音特征的常用表征包括线性预测倒谱系数(Linear prediction cestrum coefficient,LPCC)、梅尔频率倒谱系数(Mel frequency cestrum coefficient,MFCC)和耳蜗频率倒谱系数(Gammatone frequency cestrum coefficient,GFCC)。
LPCC特征提取主要基于线性预测原理,认为语音采样点可由过去一段时间的语音采样线性组合来预测,可以表征一定的语音相关信息。考虑到人耳听到的声音与频率并不是线性的关系,基于LPCC特征提取的声纹识别效果往往较差。MFCC特征提取主要基于梅尔刻度,其设计模仿人的听觉,利用了人的听觉对频率的非线性感应,人耳听觉系统比任何自动识别系统更具有可靠性与便捷性,因此,MFCC特征提取是目前主流的声纹特征提取方法,该方法具有一定噪声鲁棒性。MFCC特征提取主要描述声道特征,其中蕴含的语义信息往往要强于说话人信息,在无噪声或低噪声下能作为较好的特征表达,其性能优于LPCC特征提取。然而,对于背景噪声较大,信道失真严重的语音,基于MFCC特征提取的声纹识别的抗噪能力还不够好,影响识别效果。GFCC特征提取模拟了人耳耳蜗听觉模型,利用了人耳对噪声的抗噪能力,在声纹识别方面具有较为不错的表现,鲁棒性更加优异。
但是,通过观察伽马通(Gammatone)滤波器组的频率响应发现,滤波器组在高频部分频率分辨率较低,即基于GFCC特征提取的声纹识别没有完全利用语音的高频部分所含的语音信息,导致语音识别效果较差。
发明内容
本发明实施例提供一种声纹识别方法和装置、服务器、存储介质,以解决现有技术中由于语音的高频部分信息丢失导致的识别效果较差的问题。
第一方面,本发明实施例提供了一种声纹识别方法,该方法包括:
采集待识别的语音信号;
根据至少一个改进的伽马通滤波器,对所述语音信号进行分频段的声纹特征提取;
基于提取的声纹特征,确认所述语音信号的识别结果。
第二方面,本发明实施例还提供了一种声纹识别装置,该装置包括:
声纹采集模块,用于采集待识别的语音信号;
声纹特征提取模块,用于根据至少一个改进的伽马通滤波器,对所述语音信号进行分频段的声纹特征提取;
声纹识别模块,用于基于提取的声纹特征,确认所述语音信号的识别结果。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的声纹识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京北方信息技术股份有限公司,未经京北方信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810253151.6/2.html,转载请声明来源钻瓜专利网。