[发明专利]基于改进长短时记忆网络的婴儿哭声情感识别方法有效
申请号: | 201811273025.3 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109243493B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 梁瑞宇;梁镇麟;谢跃;赵力;唐闺臣 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L25/87;G10L25/03 |
代理公司: | 南京创略知识产权代理事务所(普通合伙) 32358 | 代理人: | 闫方圆 |
地址: | 211167 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 短时记忆 网络 婴儿 哭声 情感 识别 方法 | ||
1.基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:包括以下步骤,
步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征;
步骤(B),将长度不同的时序相关特征补零到固定长度,形成该数据集语音的时序相关特征测试集;
步骤(C),计算长短时记忆网络的注意力门以及深度注意力门;
步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络;
步骤(E),通过训练集训练该改进长短时记忆网络,每间隔训练十步,
并将时序相关特征测试集输入训练好的改进长短时记忆网络进行婴儿哭声情感评测,得到此刻婴儿哭声数据集分类的情感以及识别率。
2.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,包括以下步骤,
(A1),将婴儿哭声数据集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的婴儿哭声数据集语音按照每40ms一帧进行分帧,划分为多组帧数据;
(A3),将每组多组帧数据均提取93维的时序相关特征。
3.根据权利要求2所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:(A3),所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
4.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(B),将长度不同的时序相关特征补零到固定长度为先将所有不等长时序相关特征结尾处补零,使所有时序相关特征长度达到与数据集中的最长时序相关特征等长,补长后的时序相关特征的实际有效长度通过其的绝对值求和并判断是否为零来获得。
5.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(C),计算长短时记忆网络的注意力门以及深度注意力门,其中注意力门attnt,如公式(1)所示,
其中,σ(x)为sigmod函数,Va和Wa为对上一时刻的细胞状态来计算注意力门的可训练的矩阵,Ct-1为上一刻的细胞状态;
由于不仅要关注上一时刻信息的深度length=1,还考虑t-2,t-3,…,t-n时刻,即深度length=n的细胞状态的信息,从而提出深度注意力门如公式(2)所示,
其中,Va和Wa分别为对之前某一时刻的细胞状态来计算注意力门的共享参数的可训练矩阵。
6.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络,该改进长短时记忆网络的细胞状态,如公式(3)所示,
其中,Ct为改进长短时记忆网络在t时刻的细胞状态、代表对应着当前时刻的前i个时刻的细胞状态的对齐向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811273025.3/1.html,转载请声明来源钻瓜专利网。