[发明专利]一种基于深度学习的说话人识别方法有效

专利信息
申请号: 201410409252.X 申请日: 2014-08-19
公开(公告)号: CN104157290B 公开(公告)日: 2017-10-24
发明(设计)人: 陈喆;殷福亮;耿国胜 申请(专利权)人: 大连理工大学
主分类号: G10L17/02 分类号: G10L17/02;G10L17/04
代理公司: 大连东方专利代理有限责任公司21212 代理人: 姜玉蓉,李洪福
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度学习的说话人识别方法,包括以下步骤S1对采集到的语音信号进行预加重和交叠式分帧加窗;S2采用基于短时能量和短时过零率的双阈值端点检测法对语音信号进行端点检测,判断识别语音的开始时刻、过渡阶段、噪声段和结束时刻;S3对语音信号进行特征提取S4基于受限玻尔兹曼机分层组成深度信念网络模型,采用逐层贪婪算法结合说话人语音特征参数对建立好的深度信念网络模型进行训练,在深度信念网络模型的顶层加入Softmax分类器;S5将说话人的语音特征输入到完成训练的深度信念网络模型中,计算该模型输出与其他说话人语音特征的相似概率,取概率最大所对应的说话人作为识别结果。
搜索关键词: 一种 基于 深度 学习 说话 识别 方法
【主权项】:
一种基于深度学习的说话人识别方法,其特征在于包括以下步骤:S1:对采集到的语音信号进行预加重和交叠式分帧加窗:对语音信号进行高通滤波、对语音信号采用交叠的方式进行分帧后,采用Hamming窗对语音信号进行加窗;S2:采用基于短时能量和短时过零率的双阈值端点检测法对语音信号进行端点检测,判断识别语音的开始时刻、过渡阶段、噪声段和结束时刻;S3:对语音信号进行特征提取:计算每一帧语音的梅尔倒谱系数和Gammatone频率倒谱系数,将梅尔倒谱系数和Gammatone频率倒谱系数组成语音的混合特征;设计通道数为MCH的Gammatone(GT)滤波器组,GT滤波器冲激响应表达式为:Gi(z)=Ts-Tsa3(a1+(2-1)a2)z-11-2a1a3z-1+a32z-2×Ts-Tsa3(a1-(2-1)a2)z-11-2a1a3z-1+a32z-2×Ts-Tsa3(a1+(2+1)a2)z-11-2a1a3z-1+a32z-2×Ts-Tsa3(a1-(2+1)a2)z-11-2a1a3z-1+a32z-2=G1,i(z)·G2,i(z)·G3,i(z)·G4,i(z)---(14)]]>其中,a1=cos(ωiTs),a2=sin(ωiTs),a3=e‑bTs,Ts=1/16000为采样周期,ωi=2πfi,b=2πb1(24.7+0.108fi),其中b1为1.019,fi为每个GT滤波器的中心频率,如下表所示:将上述4个二阶传递函数分别进行Z域反变换,得到对应的4个时域信号g1,i(n),g2,i(n),g3,i(n)和g4,i(n),然后将其与输入信号x(n)进行卷积后,得到GT滤波器的输出;yi(n)=x(n)*g1,i(n)*g2,i(n)*g3,i(n)*g4,i(n),i=0,1,…,MCH‑1   (15)其中,“*”为信号处理中的卷积操作;对GT滤波器组的输出信号yi(n)作短时傅里叶变换,可以计算出各通道信号的频域表示Yi(k);Yi(k)=Σn=0N-1yi(n)wr(n-k)e-jωn,k=0,1,...,MCH-1---(16)]]>其中,wr(n)为矩形窗;求频域信号的对数能量:将各个通道GT滤波器输出频域信号的能量和取对数,得到各通道的频域信号能量谱;E(m)=log10[ΣkYi(k)Yi*(k)],m=0,1,...,MCH-1---(17)]]>对式(17)输出的各通道能量谱做离散余弦变换后,得到的语音参数即为上述的Gammatone频率倒谱系数(GFCC);C(p)(0)=2LΣm=0MCH-1E(m),l=0C(p)(l)=2LΣm=0MCH-1E(m)cos(πl(2m+1)2MCH),1≤l<L---(18)]]>这里,L是GT滤波器阶数,其中,L取32,MCH取32;S4:基于受限玻尔兹曼机分层组成深度信念网络模型,采用逐层贪婪算法结合说话人语音特征参数对建立好的深度信念网络模型进行训练,通过训练学习确定模型的参数,在深度信念网络模型的顶层加入Softmax分类器;S5:将待识别说话人的语音特征输入到完成训练的深度信念网络模型中,该模型输出与训练过的说话人语音特征相似的概率,取概率最大所对应的说话人作为识别结果;S2中所述端点检测具体采用如下方式,分别设置短时能量和短时过零率的低阈值和高阈值;当某一时刻语音信号的过零率和短时能量至少有一个大于对应的低阈值时,则该时刻为语音的起始时刻;在过渡阶段,如果短时能量和短时过零率都小于对应的低阈值时,则当前语音为静音状态,如果短时能量和短时过零率至少有一个大于对应的高阈值时,则当前状态进入语音阶段;在语音阶段:设置最短时间阈值,当某时间段内短时能量和短时过零率满足都小于对应阈值,该时间段间隔小于最短时间阈值时,则该时间段为噪声段,如果某时间段内短时能量和短时过零率满足都小于低阈值,该时间段间隔大于最短时间阈值时,则认为语音结束,进行下一帧数据判断;S4中:将多个受限玻尔兹曼机分层组合,得到多输入多输出深度信念网络,将训练的说话人语音特征从最底层进行训练,得到第一层受限玻尔兹曼机的输出,将第一层受限玻尔兹曼机输出作为第二层受限玻尔兹曼机的输入进行重新训练,得到第二层的模型参数,按照以上方式构建出深度信念网络模型;S4中:基于受限玻尔兹曼机的分层组成深度信念网络模型采用如下方式:设深度信念网络模型的可视层为v、隐含层为h,对于可视层v和隐含层h,给定一个能量函数E(v,h;θ),联合概率分布P(v,h;θ)可以表示为:P(v,h;θ)=1Z(θ)exp(-E(v,h;θ))---(19)]]>Z(θ)=ΣvΣhexp(-E(v,h;θ))---(20)]]>其中Z(θ)称为分配函数,受限玻尔兹曼机的能量函数如下E(v,h;θ)=-vTWh-bTv-aTh=-Σi=1DΣj=1FWijvihj-Σi=1Dbivi-Σj=1Fajhj---(21)]]>其中,D为可视层单元个数,F为隐含层单元个数,θ={W,b,a}为模型参数,Wij为可视层单元vi与隐含层单元hj之间的权重系数;aj,bi分别为相应单元的偏置,在已知可视向量v的情况下,隐含层单元的概率分布可以表示为P(h|v;θ)=Πjp(hj|v)---(22)]]>p(hi=1|v)=sigma(ΣiWijvij+aj)---(23)]]>同理,给定隐含层状态时,可视层单元的概率分布可以表示为P(v|h;θ)=Πip(vi|h)---(24)]]>p(vi=1|h)=sigma(ΣjWijhij+bi)---(25)]]>其中,sigma(x)=1/(1+exp(‑x))为S形激活函数,对模型参数求偏导,得到∂logP(v;θ)∂W=EPdata[vhT]-EPModel[vhT]---(26)]]>∂logP(v;θ)∂a=EPdata[h]-EPModel[h]---(27)]]>∂logP(v;θ)∂b=EPdata[v]-EPModel[v]---(28)]]>其中,表示数据分布Pdata(h,v;θ)=P(h|v;θ)Pdata(v)的期望,表示经验分布,表示公式(19)模型分布的期望,采用对比散度方法对深度信念网络模型进行训练求解模型参数,即ΔW=α(EPdata[vhT]-EPT[vhT])---(29)]]>其中,α为学习率,PT表示训练数据初始化后进行T步吉布斯(Gibbs)采样的概率分布,T设置为1,设v0为可视层初始状态,具体采样过程描述如下:h0~p(h|v0),v1~p(v|h0)h1~p(h,v1),v2~p(v|h1)其中,x~p(h|v0)表示x是从概率分布p(h|v0)上得到的随机采样,选择可视层v0进行参数更新;对于偏置向量b和a的更新,采用类似的过程,具体算法如下所示:输入:训练样本的混合语音特征x,RBM的权重Wi,偏置bi和ai,学习率为α初始化RBM参数:W←Wi,b←bi,a←aiv0←xh~0←sigma(b+Wv0)]]>吉布斯采样过程(对比散度过程):h0~p(h|v0)v1~p(v|h0)h1←sigma(b+Wv1)模型参数更新过程:Wi←Wi+α(h~0(v0)T-h~1(v1)T)]]>bi←bi+α(h~0-h~1)]]>ai←ai+α(v0‑v1)在深度信念网络的顶层加入Softmax分类器,并对这层进行训练,得到该层的参数,具体过程如下:Si=SoftMax(f)=efiΣi=1defi---(30)]]>其中:fθ(x)=WdX+bd,θ={Wd,bd},X为隐含层各神经元状态,θ为深度信念网络模型参数,数据分类用t=[0,1]d表示,那么当第i个模式分类为真时,ti=1;否则,ti=0;Si的损失函数采用交叉熵形式J(t,S)=-1d[Σi=1d(tilogSi+(1-ti)log(1-Si))]---(31)]]>采用使式(31)的损失函数最小,调整训练深度信念网络模型参数θθ*=arg minθJ(t,S)    (32)采用梯度下降法迭代更深度信念网络模型参数θ,使得损失函数达到最小,对深度信念网络模型参数θ求偏导得到∂J(t,S)∂θ=-1dΣi=1d(ti-Si)∂fi∂θ---(33)]]>从式(33)中可以得到,深度信念网络模型参数θ的更新过程为Wd′=Wd-η((S-t)TX+λWd)bd′=bd-η(S-t+λbd)---(34)]]>其中,λ为加权因子,η为学习因子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410409252.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top