[发明专利]基于音频分析与深度学习的争吵识别方法有效
申请号: | 201911206603.6 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110956953B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 熊会元;陈彩婷;刘晟;马雯菲;张秋 | 申请(专利权)人: | 中山大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L25/06;G10L25/24;G10L25/30;G10L25/63 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 音频 分析 深度 学习 争吵 识别 方法 | ||
1.基于音频分析与深度学习的争吵识别方法,其特征在于,包括以下步骤:
S1:采集与应用场景相匹配的语音样本,包括争吵与非争吵两类数据;
S2:根据语音样本制作用于情感识别的争吵语音数据集,并构建深度神经网络进行训练,得到情感识别模型;具体包括以下步骤:
S21:根据语音样本制作用于情感识别的争吵语音数据集;
S22:对争吵语音数据集进行语音特征的提取,并对每一帧分别进行z-score标准化,得到语音特征序列组;
S23:根据语音特征序列组最大的序列长度对其他序列进行补零,将不定长序列转化为定长序列,得到定长特征序列组;
S24:根据定长特征序列组构建基于长短时记忆网络LSTM和注意力机制的深度神经网络;
S25:对深度神经网络进行训练,得到情感识别模型;
S3:根据语音样本制作用于相关性分析的对话语音数据集,得到相关性系数数据表,并构建支持向量机分类器进行训练,得到对话相关性分类模型;
S4:采集待检测音频,针对情感识别模型、对话相关性分类模型对待检测音频进行预处理,提取语音特征和相关性系数;
S5:将语音特征输入情感识别模型,判断语音情感是否符合争吵的特点;若是,执行步骤S6;否则判断为非争吵语音;
S6:将相关性系数输入对话相关性分类模型,判断语音是否处于对话的状态;若是,则判断为争吵语音,否则判断为非争吵语音。
2.根据权利要求1所述的基于音频分析与深度学习的争吵识别方法,其特征在于,在所述步骤S24中,所述定长特征序列组的数据标签进行独热编码One-Hot Encoding转换。
3.根据权利要求1所述的基于音频分析与深度学习的争吵识别方法,其特征在于,在所述步骤S24中,所述的深度神经网络具体包括:
输入层:输入步骤S23中得到的定长特征序列组,并对“0”值进行过滤;
单向LSTM层:含有与特征序列维度一一对应的神经元,对时序信息进行初步提取,返回全部输出的特征序列;
双向LSTM层:连接新的单向LSTM层,与上一层单向LSTM层输出一一对应,用于进一步时间信息建模,经过双向传播,返回全部输出的特征序列;
注意力机制层:从双向LSTM层输出的每一时间步中发现序列的依赖关系;
第一全连接层:含有多个神经元,执行全连接运行,输出为:
F=f(W·t+b)
其中,W为全连接层的权重值;所述t为全连接层的输入;b为全连接层的偏置层;所述f(·)为ReLu激活函数,公式为f(x)=max(0,x),所述x为该函数的自变量;
第一Dropout层:连接在第一全连接层后,重叠率为0.3,为了避免过拟合;
第二全连接层:含有多个神经元;
第二Dropout层:连接在第二全连接层后,重叠率为0.2;
输出层:该层神经元个数为2,通过sigmoid回归算法将特征映射到目标的两个分类,即愤怒/不愤怒;其中,sigmoid函数值在0~1之间,其函数形式为:
f(x)=1/(1+e-x)
其中,x为该函数的自变量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911206603.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:叠线隧道
- 下一篇:一种环氧树脂涂料的制备工艺