[发明专利]面向家居环境的智能哭声检测方法在审

申请号：	201810208673.4	申请日：	2018-03-14
公开（公告）号：	CN108461091A	公开（公告）日：	2018-08-28
发明（设计）人：	张晖;毛小旺	申请（专利权）人：	南京邮电大学
主分类号：	G10L25/51	分类号：	G10L25/51;G10L17/02;G10L17/04
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	姚姣阳
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	哭声检测家居环境样本数据库均值参数判决系统同类数据训练样本业务体验音频数据智能终端智能差异性单模型样本库准确率分类检测服务
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向家居环境的智能哭声检测方法，其特征在于，包括如下步骤：

S1，采集哭声与非哭声语音信号，分两类存入样本库；并对样本库中各类语音信号进行预处理，得到各类语音信号对应的语音帧序列；

S2，对S1中所述语音帧序列中每一帧，提取24维的音频特征，得到各类语音信号对应特征向量序列；

S3，以S2中所述特征向量序列，作为GMM训练样本，采用EM算法，分别训练哭声GMM模型和非哭声GMM模型；并提取训练好的GMM模型中各个高斯分量的均值参数，组成均值向量序列；

S4，对S3所述均值向量序列中每一个向量，添加类别标签，并保存到均值特征样本集；并以均值特征样本集作为训练样本，训练SVM模型；

S5，采集待识别的音频信号，并按照S1至S2的方法，提取信号对应的音频特征序列；其次，将音频特征序列中每一帧信号，与S3中所述均值向量序列中每一个均值向量，计算二者的似然概率，取概率最大值所对应的均值向量，作为GMM模型对该帧信号的判决结果；最后，遍历音频特征序列中所有帧，得到均值向量序列X＝{X₁,X₂,...,X_p,...,X_L}；其中，X_p为第p帧信号对应的均值向量，L为音频特征序列长度；

S6，将S5中所述均值向量序列X＝{X₁,X₂,...,X_p,...,X_L}，输入SVM模型，逐帧进行判决，最后将每帧判决结果h(X_p)，按照下式进行累加求均值，得到最终音频文件的识别结果R；

其中，h(X_p)为SVM模型判决函数，输出值为1或-1；若R取值为正，则待识别音频信号判决为哭声；若R取值为负，则待识别音频信号判决为非哭声。

2.根据权利要求1所述的面向家居环境的智能哭声检测方法，其特征在于，S1中所述对各类语音信号进行预处理，具体包括如下步骤：

S201，将采集到的各类语音信号，转换成对应数字信号，分两类存入样本库；

S202，对S201所述数字信号，依次进行归一化、预加重、分帧、加窗处理后，得到各类语音信号对应的语音帧序列。

3.根据权利要求1所述的面向家居环境的智能哭声检测方法，其特征在于，S2中所述对语音帧序列中每一帧信号，提取24维的音频特征，具体包括如下步骤：

S301，对语音帧序列中每一帧信号，经过FFT变换、Mel滤波器组、对数变换、DCT变换后提取12维的MFCC特征C(m)；

其中，C_i(m)代表语音帧序列中第i帧信号的MFCC特征，1≤i≤L，L为音频帧序列长度；m为特征分量的标号，1≤m≤12；

S302，对S301所述MFCC特征C(m)，按照如下差分公式，计算12维差分MFCC特征ΔC(m)；

其中，ΔC_l(m)代表音频帧序列中第l帧信号的差分MFCC特征，2≤l≤L-2，-2≤k≤2；

S303，将S301与S302所述特征合并，组成24维的音频特征C＝{c₁,c₂,...,c_w,...,c₂₄}，1≤w≤24。

4.根据权利要求1所述的面向家居环境的智能哭声检测方法，其特征在于，S3中所述用特征向量序列训练GMM模型过程中，采用改进的K-means方法对GMM模型进行初始化，具体包括如下步骤：

S401，根据GMM设置的分量数M，从特征向量序列中，随机选取M个聚类中心点O＝{O₁,O₂,...,O_j,...,O_M}；其中，O_j表示第j个聚类中心，是24维向量；

S402，计算特征向量序列中，第n帧特征向量

C_n＝{c_n1,c_n2,...,c_nw,...,c_n24}

中数据的方差其中，1≤w≤24；

S403，采用如下所示加权的欧氏距离公式，比较第n帧特征向量与各个聚类中心的距离Dis(n,O_j)，1≤j≤M，选取最小距离对应的聚类中心，作为第n帧特征向量的聚类结果；

S404，对特征向量序列中所有帧，执行S402至S403操作，得到所有帧的聚类结果；

S405，重新划分每个类的聚类中心，以每个类所包含特征向量的均值作为该类新的聚类中心；并计算新、旧聚类中心的欧式距，是否小于0.001；若是，初始化过程结束；否则，继续迭代进行S402至S404的处理步骤，直至满足新、旧聚类中心的欧式距小于0.001的条件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810208673.4/1.html，转载请声明来源钻瓜专利网。

上一篇：语音信号处理装置及语音信号处理方法
下一篇：一种对帕金森病语音分析的方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向家居环境的智能哭声检测方法在审

专利文献下载