[发明专利]特定声音识别方法、设备和存储介质在审
申请号: | 201780009004.8 | 申请日: | 2017-10-24 |
公开(公告)号: | CN109074822A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 刘洪涛;王伟;孟亚彬 | 申请(专利权)人: | 深圳和而泰智能控制股份有限公司 |
主分类号: | G10L25/66 | 分类号: | G10L25/66;G10L25/24;G10L25/30;G10L25/18;G10L15/06 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 王广涛 |
地址: | 518000 广东省深圳市高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征参数 矩阵 存储介质 倒谱系数 梅尔频率 声音识别 采样声音信号 产品制造成本 神经网络模型 方法和设备 算法复杂度 神经网络 声音特征 提取特征 硬件要求 预先获取 计算量 算法 | ||
1.一种特定声音识别方法,其特征在于,所述方法包括:
预先获取基于深度神经网络的特定声音特征模型;
采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数;
将所述特征参数输入预先获取的基于深度神经网络的特定声音特征模型进行识别,以确定所述声音信号是否为特定声音;
所述预先获取基于深度神经网络的特定声音特征模型,包括:
采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述特征参数;
将所述特定声音样本信号的特征参数作为输入,训练基于深度神经网络模型,以获取所述基于深度神经网络的特定声音特征模型;
所述从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述特征参数,包括:
将特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中各信号帧的梅尔频率倒谱系数依次首尾相连组成一特征向量;
将所述特征向量按预设步长从所述特征向量头部到所述特征向量尾部对所述特征向量进行分割,获得包括一组长度均为预设长度的子特征向量的特征参数,每个子特征向量具有相同的标签,所述预设步长为每帧梅尔频率倒谱系数长度的整数倍,所述预设长度为所述每帧梅尔频率倒谱系数长度的整数倍;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数,包括:
将声音信号的梅尔频率倒谱系数特征参数矩阵中各信号帧的梅尔频率倒谱系数依次首尾相连组成一特征向量;
将所述特征向量按所述预设步长从所述特征向量头部到所述特征向量尾部对所述特征向量进行分割,获得包括一组长度均为所述预设长度的子特征向量的特征参数。
2.根据权利要求1所述的特定声音识别方法,其特征在于,所述将所述特定声音样本信号的特征参数作为输入,训练基于深度神经网络模型,以获取所述基于深度神经网络的特定声音特征模型,包括:
将所述特定声音样本信号的特征参数作为输入,基于深度置信网络算法进行模型训练,获得所述基于深度神经网络的特定声音特征模型的各个初始参数;
基于深度神经网络的梯度下降和反向传播算法,对所述各个初始参数进行微调,获得基于深度神经网络的特定声音特征模型的各个参数。
3.根据权利要求1所述的特定声音识别方法,其特征在于,所述将所述特征参数输入预先获取的基于深度神经网络的特定声音特征模型进行识别,以确定所述声音信号是否为特定声音,包括:
将所述特征参数包含的一组子特征向量输入预先获取的基于深度神经网络的特定声音特征模型,获得一组子特征向量对应的预测结果;
如果所述预测结果中,肯定的预测结果多于否定的预测结果,则确认所述声音信号为特定声音,否则,确认所述声音信号不是特定声音。
4.根据权利要求1-3任意一项所述的特定声音识别方法,其特征在于,所述特定声音包括咳嗽声、鼾声和喷嚏声中的任意一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳和而泰智能控制股份有限公司,未经深圳和而泰智能控制股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780009004.8/1.html,转载请声明来源钻瓜专利网。