[发明专利]基于WMFCC和DNN的帕金森患者声纹识别方法有效

申请号：	201811083605.6	申请日：	2018-09-18
公开（公告）号：	CN109285551B	公开（公告）日：	2023-05-12
发明（设计）人：	张颖;徐志京	申请（专利权）人：	上海海事大学
主分类号：	G10L17/00	分类号：	G10L17/00;G10L17/04;G10L25/24
代理公司：	上海互顺专利代理事务所(普通合伙) 31332	代理人：	成秋丽
地址：	201306 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种利用WMFCC提取人们的声纹特征、DNN识别并分类的方法,用于区分帕金森患者和健康人。WMFCC通过计算患者声纹中倒谱系数的加权和系数，解决高阶倒谱系数小、特征分量对音频的表征能力差等问题。DNN训练并分类识别有效地提高系统精度，使用MBGD优化算法降低损失函数的计算量进而提高系统训练速度。利用PD(帕金森)database中样本训练并测试分类，提高了判别帕金森患者的准确率，为帕金森患者早期快速辅助诊断提供了良好的解决方案。
搜索关键词：	基于 wmfcc dnn 帕金森患者声纹识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于WMFCC和DNN的帕金森患者声纹识别方法，其特征在于包括以下步骤：步骤一：WMFCC声纹特征提取具体步骤如下：步骤11：预加重、分帧：将语音信号通过一个高通滤波器：H(z)＝1‑kz‑1，其中k是预加重系数，应在0＜k≤1范围，通常取0.97；分帧步骤中，语音信号被划分为N个样本帧；该重叠区域包含M个取样点，其中M＜N；步骤12：加窗：设分帧后的信号为s(n)，n为帧的大小，{s_n,n＝1,...,N}；s'_n形式为：步骤13：FFT：利用FFT将N个样本从时域转换为频域；使用FFT实现DFT；设语音信号的DFT为：s_k为输入的语音信号，N表示傅立叶变换的点数；步骤14：滤波器组分析：Mel频率与语音信号的关系：Mel(f)表示梅尔频率，f为语音信号频率；步骤15：DCT：通过DCT对数滤波器组的振幅m_j计算：N是滤波器组信道的个数；步骤16：加权：PD database的声纹特征，MFCC＝(M1,M2,M3,...,Mi,...,MN)，Mi＝(meli(1),...,meli(j),...,meli(D))为声纹特征的第i帧的特征向量，D为特征参数维数，N为语音样本的帧数，meli(j)为声纹特征第i帧的第j个特征向量值；首先，将特征矩阵标准化：定义熵其中得特征分量的熵权：将MFCC各个分量的权重加权后，新参数：wM_i＝(w₁·mel_i(1),...,w_D·mel_i(D))；接着，提取PD患者前20梅尔频率倒谱系数，其中系数范围为1～20，对应的特征值后利用熵值法加权方法计算其特征分量的权重；最后，用计算所有帧的平均值来得到每个人声纹的方式提取对应的声纹；步骤二：步骤21：DNN预训练的参数预训练算法：具体过程如下：若输入为连续特征，训练一个高斯‑伯努利分布的RBM，若输入为二项分布特征，训练一个伯努利‑伯努利分布的RBM。而后将隐藏层的输出作为下一层伯努利‑伯努利分布RBM的输入数据，余下各层以此类推。该过程不需要标签信息，是无监督的训练过程。在预训练之后进行有监督的训练，在顶层添加训练数据的标签和评判标准的输出，并采用反向传播算法来调整网络的参数；步骤22：反向传播算法：通过一组训练样本(xi,yi),1≤i≤N来训练得到DNN的模型参数，其中xi为第i个样本的特征向量，yi为对应的标签；输入x：为输入层设置对应的激活值；前向传播：对每一层网络计算z^l＝W^lv^l‑1+b^l和v^l＝f(z^l)；计算输出层误差e^L：误差向量为：误差反向传播：定义第l层节点的误差为：e^l＝diag(f_l′(z^l))·(W^l+1)^T·e^l+1；输出：各层的权重矩阵和偏置由和计算得出；步骤23：小批量梯度下降优化算法：首先，MBGD算法是在全部样本里随机抽取m个样本，其中m是训练总样本；其中m个样本为：X₁,X₂,...,X_i,...,X_m。ω,b分别为网络中权值和偏置的集合，Y_i和A_i分别为第i个样本输入下的期望输出和实际输出；||·||为范数运算，均方误差为：由梯度得▽C：接着，由m个样本数据估计出整体梯度，m越大时估计越准确。此时更新公式为：其中η为一个正数，取值区间为[0,1]，η称为学习率；最后，每次抽取2个样本作为一个batch来计算损失函数，并更新参数；60次后，完成整个语音样本集的训练；步骤三：采用k‑fold交叉验证法用来衡量搭建模型的预测性能：初始采样分割成k份子样本，取一份单独的子样本作为验证模型的数据，训练则用剩余的k‑1份样本；此过程重复k次，每份子样本验证一次，取k＝n，最后将得到的n次结果取平均来评估模型的性能；继续使用同一医生收集的28例PD患者的独立测试集进行测试；为测试鉴别PD患者和健康人中的成功率，计算其包括准确性、敏感性和特异性的评判指标。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海海事大学，未经上海海事大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811083605.6/，转载请声明来源钻瓜专利网。

上一篇：基于软交换技术的语音对话智能分析方法
下一篇：声音信号处理装置和参数分配方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

基于WMFCC和DNN的帕金森患者声纹识别方法

[发明专利]基于WMFCC和DNN的帕金森患者声纹识别方法有效

专利文献下载