[发明专利]基于卷积双向长短时记忆网络的语音测谎方法有效
申请号: | 201810159072.9 | 申请日: | 2018-02-26 |
公开(公告)号: | CN108520753B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 谢跃;梁瑞宇;赵力;包永强;唐闺臣 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G10L17/26 | 分类号: | G10L17/26;G10L17/04;G10L25/27;G10L25/51 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林;闫方圆 |
地址: | 211167 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 双向 短时记忆 网络 语音 方法 | ||
1.基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:包括以下步骤,
步骤(A),将整段语音进行统一归一化处理;
步骤(B),根据数据库标签对统一归一化处理的语音进行切分;
步骤(C),对切分的语音加窗分帧处理;
步骤(D),建立变长数据的计算方式;
步骤(E),将卷积操作引入长短时记忆网络中;
步骤(F),构建完整的语音测谎网络模型;
步骤(G),训练语音测谎网络模型,并对加窗分帧处理后的语音进行测谎评测;
所述步骤(D)具体包括:建立变长数据的计算方式,先在不等长的语音数据结尾处补零至相同长度,在网络计算中,补零后语音数据的实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得。
2.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(A),将整段语音进行统一归一化处理,归一化后整段语音的范围是[-1,1],归一化前后的整段语音在数值为零处所表达的物理意义不变,均是无声段。
3.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(B),根据数据库标签对统一归一化处理的语音进行切分,所述数据库为语音学家建立的用于研究语音谎言检测的专业数据库。
4.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(C),对切分的语音加窗分帧处理,增加的窗函数为hamming窗W(n,α),其的计算公式如下,
W(n,α)=(1-α)-αcos(2πn/(n-1)),0≤n≤N-1
其中,α取值0.46,N为n的取值范围,表示Hamming窗的长度。
5.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(E),将卷积操作引入长短时记忆网络中,通过以下公式得到,
ft=σ(Wfh*ht-1+Wfx*xt+WfcCt-1+bf)
it=σ(Wih*ht-1+Wix*xt+WicCt-1+bi)
其中,*表示卷积、表示Hadamard乘积;Wfh、Wfx、Wfc分别为遗忘门ft的隐层、输入与细胞状态的权值,bf为遗忘门ft的偏置;Wih、Wix、Wic分别为信息更新值it中的隐层、输入与细胞状态的权值,bi为信息更新值it的偏置;Wch、Wcx分别为细胞状态更新值的隐层与输入的权值,bc为细胞状态更新值的偏置;Woh、Wox、Woc分别为输出值ot中的隐层、输入与细胞状态的权值,bo为输出值ot的偏置;下标t为时间步,对应特征中的帧数;ht即为当前t时间的隐层输出、σ是sigmoid函数,表示式为:σ(x)=1/(1+e-x)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810159072.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种声纹识别方法和装置
- 下一篇:一种降噪会议机