[发明专利]一种声纹识别方法和装置、服务器、存储介质有效
申请号: | 201810253151.6 | 申请日: | 2018-03-26 |
公开(公告)号: | CN108564956B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 冉承祥;高昊江;杨飞 | 申请(专利权)人: | 京北方信息技术股份有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L25/24 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100089 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 装置 服务器 存储 介质 | ||
1.一种声纹识别方法,其特征在于,包括:
采集待识别的语音信号;
采用改进的自扰动最小二乘法对所述语音信号进行自适应地语音加强和消除语音信号背景噪声,其自适应滤波器权值系数W(n)的更新公式为:W(n)=W(n-1)+k(n)[d(n)-uT(n)W(n-1)];其中,粗体字母表示对应的矩阵,n为时间序列,d(n)为端点检测处理过后的语音帧信号d(n)的第n个点的值;u(n)=[u(1),u(2),u(3)...,u(n)]为参考噪声信号,T表示矩阵转置;在k(n)公式中,λ为遗忘因子,P(n)=[I-k(n)uT(n)]P(n-1)+Q(n),I为单位矩阵,Q(n)为自扰动项,且在Q(n)公式中,NINT为取整函数,β与γ为常数,e(n)=d(n)-uT(n)W(n),E[e2(n)]={(n-1)·E[e2(n-1)]+e(n)}/n,E[u2(n)]={(n-1)·E[u2(n-1)]+u(n)}/n;
根据至少一个改进的伽马通滤波器,对所述语音信号进行分频段的声纹特征提取;
基于提取的声纹特征,确认所述语音信号的识别结果;
其中,所述根据至少一个改进的伽马通滤波器,对所述语音信号进行分频段的声纹特征提取,包括:
根据所述至少一个改进的伽马通滤波器,利用以下公式得到的滤波器的频率响应对所述语音信号的能量谱进行滤波,得到所述语音信号的滤波能量谱,
其中,表示第i个改进的伽马通滤波器的频率响应,Gi(k)表示标准的伽马通滤波器的频率响应,k表示所述语音信号的周期频谱上的第k个采样点,NFFT表示采样点数;
根据所述滤波能量谱得到所述语音信号的声纹特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述滤波能量谱得到所述语音信号的声纹特征包括:
对所述滤波能量谱取对数,得到对数频谱;
对所述对数频谱做离散余弦变换,得到混合耳蜗频率倒谱系数;
利用所述语音信号的平均短时对数能量替换所述混合耳蜗频率倒谱系数中的零阶系数,得到所述语音信号的声纹特征。
3.根据权利要求1所述的方法,其特征在于,在所述根据至少一个改进的伽马通滤波器,对所述语音信号进行分频段的声纹特征提取之前,所述方法还包括:
对所述语音信号进行快速傅里叶变换,并进行归一化处理;
对所述归一化处理之后得到的频谱取平方,得到所述语音信号的能量谱,以便进行所述声纹特征提取。
4.根据权利要求1所述的方法,其特征在于,所述基于提取的声纹特征,确认所述语音信号的识别结果,包括:
基于所述提取的声纹特征,利用预先训练好的隐马尔可夫模型,得到所述语音信号的识别结果,其中,所述隐马尔可夫模型是基于训练语音的声纹特征训练得到,所述训练语音的声纹特征是根据所述至少一个改进的伽马通滤波器,进行分频段的声纹特征提取后得到。
5.根据权利要求4所述的方法,其特征在于,所述识别结果包括所述语音信号的说话人信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京北方信息技术股份有限公司,未经京北方信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810253151.6/1.html,转载请声明来源钻瓜专利网。