[发明专利]噪声环境下人工耳蜗信号的说话人可懂性检测方法有效
申请号: | 201711111307.9 | 申请日: | 2017-11-10 |
公开(公告)号: | CN107767859B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 林琳;孙晓颖;陈建;杨鹏;王程;王秀成;赵静仪 | 申请(专利权)人: | 吉林大学 |
主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L25/27;G10L25/45;G10L25/51;G10L15/14 |
代理公司: | 吉林长春新纪元专利代理有限责任公司 22100 | 代理人: | 魏征骥 |
地址: | 130000 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,属于语音信号处理领域。纯净参考语音信号首先经过人工耳蜗处理算法并进行波形重构,得到经人工耳蜗处理后的纯净语音。再经过特征提取后,建立特定说话人的语音模型;识别阶段,纯净识别语音加噪声后,形成带噪识别语音,进行特征提取后,与说话可懂性模型进行匹配,得到最终的检测结果。优点在于:为提高人工耳蜗用户的语音感知力提供了一个重要的理论依据,减少噪声在匹配过程中的影响,提高检测的准确性,采用基于动态Gammachirp滤波器组的组合特征参数,进一步提高检测方法的噪声鲁棒性。 | ||
搜索关键词: | 噪声 环境 人工 耳蜗 信号 说话 人可懂性 检测 方法 | ||
【主权项】:
一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,其特征在于,包括下列步骤:(一)人工耳蜗处理过程如下:(1)、语音信号的预处理语音信号的预处理包括端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗,得到预处理后N个帧长为L的短时帧信号;(2)、对预处理后的语音信号进行FFT带通滤波器组滤波,包括以下步骤:1)对加窗的短时帧信号进行FFT变换,计算每个短时帧频谱S(l,i);其中i=1,…,N表示第i个短时帧,l表示每个短时帧第l个频率点取值,l=0,1,2,…,L‑1;2)利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波,保留落入相应通道频率范围的频率分量,其余频率分量滤除;(3)、各通道包络提取采用希尔伯特变换的方式,提取每个短时帧信号频谱中的包络,令j表示第j个通道的带通滤波器,其中j=1,…,Nc;q表示第j个带通滤波器通带内对应频率节点的个数,则经过FFT带通滤波器组后得到的每个通道的包络F(j,i);F(j,i)=ckΣu=1q|S(g(p),i)|2---(1)]]>式中,Fs为信号的采样率,ck为通道增益系数,k=1,2,…,Nc,满足ck=2|G(0)|q=12(2|G(0.5)|)q=2278.38=0.0255q≥3---(2)]]>其中|G(0)|表示汉宁窗经傅里叶变换后得到直流分量的幅度值,|G(0.5)|是将汉宁窗补零至原来长度的两倍后,进行傅里叶变换得到的第二个谐波分量的幅度值,根据不同通道内包含的频率分量个数q的大小,由上式选择对应的通道增益系数,以便均衡各通道的包络能量;(4)、峰值选择从Nc个通道的包络中选择n个幅值最大的包络值来表示产生电刺激的电极点,并利用Id来记录n个幅值最大通道的通道号,Amc表示n个幅值最大通道对应的包络;(5)、幅度压缩对于被选中作为产生电刺激的电极通道而言,需要计算各通道电极的刺激脉冲时间,并对其振幅信号Amc进行幅值压缩处理,以满足电刺激的动态范围,最终得到刺激电极上交叉脉冲刺激序列的电流幅度Im,m=1,2,…,n,这里,电极是由底至顶的顺序产生刺激信号;(6)、语音波形重构(1)输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号Im;(2)使用截止频率为Ls的低通滤波器估计每个通道的包络AL;(3)利用人工耳蜗处理算法过程中的FFT滤波器,对随机白噪声信号进行频域滤波;(4)用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制;(5)将每个通道的信号转变为时域函数,然后重叠相加所有通道的信号,最终得到经过人工耳蜗处理后的语音信号;(二)特定说话人的语音建模方法包括下列步骤:(1)、输入纯净训练语音信号,经过上述步骤(一)人工耳蜗处理,得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI;(2)、提取步骤(1)产生的语音信号CleanCI的短时谱参数,得到CleanCI语音信号的短时谱参数FCleanCI;(3)、特征提取算法步骤:首先将语音信号通过动态Gammachirp滤波器组,在每个频率通道中计算包络,然后以100Hz的采样率采样,利用对数log函数进行压缩,取其离散余弦变换,最终得到短时谱参数FCleanCI;(4)、计算短时谱参数FCleanCI一阶动态参数△FCleanCI,并形成组合特征参数FDCleanCI=[FCleanCI△FCleanCI];(5)、利用所有参考说话人的特征参数FDclean训练与说话人无关的隐马尔科夫语音模型,作为说话人独立的背景模型SI;(6)、利用背景模型SI和每个参考说话人特征参数FDclean_w,其中w=1,2,...,Nw,这里Nw是参考说话人个数,采用Baum‑Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型(hidden Markov models,HMMs)λwb,其中b表示关键词序号,b=1,2,..Nb在每个词的HMMs模型λwb中,每个音素使用两个状态表示,不同关键词模型λwb中状态的个数直接由关键词包含的音素个数决定,每个状态有两个转移特性,自转移和到边界状态的转移,每个状态由Mh个混合度的高斯混合模型构成,高斯混合模型的协方差矩阵采用对角阵,所有的模型状态都由一个单高斯模型初始化,然后混合度自适应变成2、3、4、5个,直到最后得到Mh个混合度的高斯混合模型GMM;(三)说话人可懂度检测方法(1)、输入纯净识别语音,加入噪声信号,按照信噪比SNR的要求,得到不同信噪比条件下的带噪识别语音;(2)、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理,得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI;(3)、分别提取步骤1产生的语音信号RNoisyCI和RCleanCI的短时谱参数RFNoisyCI和RFCleanCI;(4)、可靠小区域块检测1)分别短时谱参数RFNoisyCI和RFCleanCI计算每个时频单元的局部信噪比,分别得到SNR(t,f),这里t表示时间,f表示频率;SNR(t,f)=-20lg(RFCleanCI(t,f)RFNoisyCI(t,f)-RFCleanCI(t,f))---(3)]]>2)计算掩码IRM(t,f)IRM(t,f)=(SNR(t,f)SNR(t,f)+1)β---(4)]]>这里,β是一个衡量掩码的可调参数;3)确定时频单元中可靠的时频单元点;设置相应的阈值T,比较每个时频单元掩码与阈值T之间的大小,如果对应时频单元点的值大于阈值T,则认为该时频单元点为可靠的,用“1”进行标注,否则标记“0”;4)确定可靠的小区域块;如果某个区域块中包含的可靠时频单元点数大于设定的M点,则认为该区域就是可靠的小区域块,否则该区域为掩蔽区域,利用这个原则,对标注的时频单元Mask(t,f)进行分析,得到经过CI处理后带噪语音时频单元中可靠的小区域块Gc,c=1,2,…,C,其中C表示可靠小区域的个数;(5)、利用短时谱参数RFNoisyCI计算其一阶动态参数△RFNoisyCI,并形成组合参数RFDNoisyCI=[FNoisyCI△FNoisyCI];(6)、对于每一个参考说话人的识别语音,根据上述确定的可靠小区域块以及掩蔽区域,采用基于缺失数据特征的识别方法进行识别;θ(iw,ib)=argmax1≤m≤Nb1≤w≤Nw(f(RFDnoisyCI_r|λwb))---(6)]]>其中iw∈[1,Nw],ib∈[1,Nb];根据公式(6)得到的识别结果,统计每一个说话人每句话关键词识别的识别率,作为每个说话人可懂度的检测结果;(7)、在实际的听力测试中,对每一条识别语音,听力测试者需要记录对应的语音是哪个说话人的第几个关键词,然后按照公式(7)的标准进行统计计算,得到每个说话人可懂度的检测结果,与理论检测结果比对,验证计算有效性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711111307.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种语音处理方法、装置及服务器
- 下一篇:语音数据处理方法、系统及存储介质