[发明专利]面向家居环境的智能哭声检测方法在审
申请号: | 201810208673.4 | 申请日: | 2018-03-14 |
公开(公告)号: | CN108461091A | 公开(公告)日: | 2018-08-28 |
发明(设计)人: | 张晖;毛小旺 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L17/02;G10L17/04 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 哭声检测 家居环境 样本数据库 均值参数 判决系统 同类数据 训练样本 业务体验 音频数据 智能终端 智能 差异性 单模型 样本库 准确率 分类 检测 服务 | ||
1.一种面向家居环境的智能哭声检测方法,其特征在于,包括如下步骤:
S1,采集哭声与非哭声语音信号,分两类存入样本库;并对样本库中各类语音信号进行预处理,得到各类语音信号对应的语音帧序列;
S2,对S1中所述语音帧序列中每一帧,提取24维的音频特征,得到各类语音信号对应特征向量序列;
S3,以S2中所述特征向量序列,作为GMM训练样本,采用EM算法,分别训练哭声GMM模型和非哭声GMM模型;并提取训练好的GMM模型中各个高斯分量的均值参数,组成均值向量序列;
S4,对S3所述均值向量序列中每一个向量,添加类别标签,并保存到均值特征样本集;并以均值特征样本集作为训练样本,训练SVM模型;
S5,采集待识别的音频信号,并按照S1至S2的方法,提取信号对应的音频特征序列;其次,将音频特征序列中每一帧信号,与S3中所述均值向量序列中每一个均值向量,计算二者的似然概率,取概率最大值所对应的均值向量,作为GMM模型对该帧信号的判决结果;最后,遍历音频特征序列中所有帧,得到均值向量序列X={X1,X2,...,Xp,...,XL};其中,Xp为第p帧信号对应的均值向量,L为音频特征序列长度;
S6,将S5中所述均值向量序列X={X1,X2,...,Xp,...,XL},输入SVM模型,逐帧进行判决,最后将每帧判决结果h(Xp),按照下式进行累加求均值,得到最终音频文件的识别结果R;
其中,h(Xp)为SVM模型判决函数,输出值为1或-1;若R取值为正,则待识别音频信号判决为哭声;若R取值为负,则待识别音频信号判决为非哭声。
2.根据权利要求1所述的面向家居环境的智能哭声检测方法,其特征在于,S1中所述对各类语音信号进行预处理,具体包括如下步骤:
S201,将采集到的各类语音信号,转换成对应数字信号,分两类存入样本库;
S202,对S201所述数字信号,依次进行归一化、预加重、分帧、加窗处理后,得到各类语音信号对应的语音帧序列。
3.根据权利要求1所述的面向家居环境的智能哭声检测方法,其特征在于,S2中所述对语音帧序列中每一帧信号,提取24维的音频特征,具体包括如下步骤:
S301,对语音帧序列中每一帧信号,经过FFT变换、Mel滤波器组、对数变换、DCT变换后提取12维的MFCC特征C(m);
其中,Ci(m)代表语音帧序列中第i帧信号的MFCC特征,1≤i≤L,L为音频帧序列长度;m为特征分量的标号,1≤m≤12;
S302,对S301所述MFCC特征C(m),按照如下差分公式,计算12维差分MFCC特征ΔC(m);
其中,ΔCl(m)代表音频帧序列中第l帧信号的差分MFCC特征,2≤l≤L-2,-2≤k≤2;
S303,将S301与S302所述特征合并,组成24维的音频特征C={c1,c2,...,cw,...,c24},1≤w≤24。
4.根据权利要求1所述的面向家居环境的智能哭声检测方法,其特征在于,S3中所述用特征向量序列训练GMM模型过程中,采用改进的K-means方法对GMM模型进行初始化,具体包括如下步骤:
S401,根据GMM设置的分量数M,从特征向量序列中,随机选取M个聚类中心点O={O1,O2,...,Oj,...,OM};其中,Oj表示第j个聚类中心,是24维向量;
S402,计算特征向量序列中,第n帧特征向量
Cn={cn1,cn2,...,cnw,...,cn24}
中数据的方差其中,1≤w≤24;
S403,采用如下所示加权的欧氏距离公式,比较第n帧特征向量与各个聚类中心的距离Dis(n,Oj),1≤j≤M,选取最小距离对应的聚类中心,作为第n帧特征向量的聚类结果;
S404,对特征向量序列中所有帧,执行S402至S403操作,得到所有帧的聚类结果;
S405,重新划分每个类的聚类中心,以每个类所包含特征向量的均值作为该类新的聚类中心;并计算新、旧聚类中心的欧式距,是否小于0.001;若是,初始化过程结束;否则,继续迭代进行S402至S404的处理步骤,直至满足新、旧聚类中心的欧式距小于0.001的条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810208673.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音信号处理装置及语音信号处理方法
- 下一篇:一种对帕金森病语音分析的方法