[发明专利]真实场景下的婴儿哭声检测方法、装置及可读介质有效
申请号: | 202111042258.4 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113488077B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 珠海亿智电子科技有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 张志辉 |
地址: | 519080 广东省珠海市高新区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 真实 场景 婴儿 哭声 检测 方法 装置 可读 介质 | ||
1.一种真实场景下的婴儿哭声检测方法,其特征在于,该方法包括以下步骤:
S100,采集真实场景下包括有婴儿哭声的音频数据,将所述音频数据作为数据集进行标注及前处理,得到网络输入数据;
S200,将所述网络输入数据输入至包括有特征提取网络、人声检测网络及哭声检测网络的深度神经网络,并分别进行特征提取、人声检测及哭声检测的训练,得到所述人声检测网络和所述哭声检测网络对应的第一损失函数及第二损失函数;
S300,对所述深度神经网络整体进行训练得到第三损失函数,得到婴儿哭声检测模型;
S400,通过所述婴儿哭声检测模型对输入的真实场景采集的音频数据进行检测,得到真实场景的婴儿哭声检测结果。
2.根据权利要求1所述的真实场景下的婴儿哭声检测方法,其特征在于,所述S100包括:
所述数据集标注包括人声标注和非人声标注,以及,哭声标注和非哭声标注,其中标注方式为段级别的标注;
所述前处理包括对音频数据分别进行预加重、分帧加窗处理,并对每帧数据进行STFT变换,将STFT变换后的结果作为所述网络输入数据。
3.根据权利要求2所述的真实场景下的婴儿哭声检测方法,其特征在于,所述特征提取网络包括:
经过STFT变换后的音频频谱直接作为网络输入,所述特征提取网络通过多个步长和卷积核参数不同的一维卷积执行特征提取,STFT频谱经过所述特征提取网络的输出作为后续人声检测网络和哭声检测网络的输入特征。
4.根据权利要求1所述的真实场景下的婴儿哭声检测方法,其特征在于,所述人声检测网络包括依次连接的DS_block、全连接网络及二分类函数,所述DS_block包括左侧分支及右侧分支,所述左侧分支为逐点卷积,所述右侧分支包括逐点卷积和逐通道卷积,每个所述逐点卷积和所述逐通道卷积后均设置有批归一化函数及激活函数,所述特征提取网络用于对输入的全部特征进行预测,得到人声及非人声的概率值。
5.根据权利要求1所述的真实场景下的婴儿哭声检测方法,其特征在于,所述哭声检测网络包括依次连接的多个CNN卷积块、LSTM、全连接网络及二分类函数,获取所述特征提取网络用于对输入的音频频率特征进行预测,得到哭声及非哭声的概率值。
6.根据权利要求5所述的真实场景下的婴儿哭声检测方法,其特征在于,所述音频频率的设置为16Khz,则对应的音频频段为0-8Khz,以及音频频段的关注范围为500Hz-4kHz,其中音频频段的关注范围为网络输入范围。
7.根据权利要求1所述的真实场景下的婴儿哭声检测方法,其特征在于,所述S400包括第一检测阶段及第二检测阶段,所述第一检测阶段用于判断是否为人声,如果检测出为非人声,则检测结果为非哭声;所述第二检测阶段用于根据检测结果为人声时,进而检测是否包括婴儿哭声,所述第一检测阶段设置有唤醒第二检测阶段的判断阈值,所述判断阈值可自定义调整。
8.根据权利要求1所述的真实场景下的婴儿哭声检测方法,其特征在于,所述输入的真实场景采集的音频数据的时间长度大于5s。
9.一种真实场景下的婴儿哭声检测装置,该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海亿智电子科技有限公司,未经珠海亿智电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111042258.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种切削液回收结构
- 下一篇:一种三元复合光催化剂及其制备方法和应用