[发明专利]基于听觉中枢感知机理的说话人识别方法有效
申请号: | 202010268019.X | 申请日: | 2020-04-08 |
公开(公告)号: | CN111508504B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 牛晓可;黄伊鑫;徐华兴;王治忠 | 申请(专利权)人: | 郑州大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/20;G10L25/03;G10L25/18;G10L25/24;G10L21/0208 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 宁政 |
地址: | 450001 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 听觉 中枢 感知 机理 说话 识别 方法 | ||
1.基于听觉中枢感知机理的说话人识别方法,其特征在于,该方法具体包括以下步骤:
步骤1:采用OM-LSA算法与MCRA算法结合的方法对说话人语音信号进行降噪预处理;
步骤2:利用STRF模型将预处理后的语音信号投射到特定的频谱-时间空间,生成频域-时间谱图,并进一步提取频域-时间谱图的二次特征;
步骤3:提取降噪预处理后语音信号中的MFCC系数特征;
步骤4:将步骤2中的二次特征与步骤3中的MFCC系数进行组合;
步骤5:采用常规的支持向量机对步骤4中二次特征与MFCC系数组合后的声纹特征进行分类与识别。
2.根据权利要求1所述的基于听觉中枢感知机理的说话人识别方法,其特征在于,所述步骤1中含噪声语音信号的预处理方法具体步骤为:
步骤11:根据MCRA算法估计含噪语音的时变功率谱分布,然后根据估计的功率谱分布,结合OM-LSA算法来增强瞬态噪声和非瞬态噪声成分的差异,并估计瞬态噪声的功率谱分布;
步骤12:采用MCRA算法,从瞬态噪声和语音信号中估计背景噪声的功率谱分布;
步骤13:将估计的瞬态噪声和背景噪声功率谱分布进行合并,并在此运用OM-LSA算法,一起抑制瞬态噪声和背景噪声,得到增强后的语音信号。
3.根据权利要求1所述的基于听觉中枢感知机理的说话人识别方法,其特征在于,所述步骤2中二次特征的提取步骤为:
步骤21:模拟生物听觉系统外周模型耳蜗核的处理过程,将输入的语音信号转化为听觉外周的频谱图;
步骤22:模拟STRF模型的处理过程,将步骤21输出的频谱图转化为特定尺度的频域-时间谱图;
步骤23:对步骤22生成的频域-时间谱图进一步做二次特征提取。
4.根据权利要求3所述的基于听觉中枢感知机理的说话人识别方法,其特征在于,所述步骤21中听觉外周系统模型的处理过程包括以下步骤:
步骤211:将音频信号s(t)通过耳蜗滤波器组,耳蜗滤波器组的输出用yC表示,采用以下公式对信号s(t)进行仿射小波变换:
yC(t,f)=s(t)*th(t,f),
公式中h(t,f)为各滤波器的脉冲响应,*t为时域卷积运算;
步骤212:耳蜗输出yC经过毛细胞的处理转化成听觉神经响应,表示为yA,毛细胞的处理主要包括高通滤波、非线性压缩g(.)和低通滤波器w(t),其数学式描述如下:
步骤213:根据耳蜗核的侧抑制网络作用,以模拟耳蜗核的频率选择性,表达式如下:
步骤214:利用短窗口函数μ(t,τ)与yLIN(t,f)求卷积,得到第一阶段的输出y(t,f),
y(t,f)=yLIN(t,f)*tμ(t,τ),
其中,τ是微秒级别的时间常数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010268019.X/1.html,转载请声明来源钻瓜专利网。