[发明专利]真实场景下的婴儿哭声检测方法、装置及可读介质有效
申请号: | 202111042258.4 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113488077B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 珠海亿智电子科技有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 张志辉 |
地址: | 519080 广东省珠海市高新区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 真实 场景 婴儿 哭声 检测 方法 装置 可读 介质 | ||
本发明涉及一种真实场景下的婴儿哭声检测方法、装置及可读介质的技术方案,包括:采集真实场景下包括有婴儿哭声的音频数据,将音频数据作为数据集进行标注及前处理,得到网络输入数据;将网络输入数据输入至包括有特征提取网络、人声检测网络及哭声检测网络的深度神经网络,并分别进行特征提取、人声检测及哭声检测的训练,得到人声检测网络和哭声检测网络对应的第一损失函数及第二损失函数;对深度神经网络整体进行训练得到第三损失函数,得到婴儿哭声检测模型;通过婴儿哭声检测模型对输入的真实场景采集的音频数据进行检测,得到真实场景的婴儿哭声检测结果。本发明的有益效果为:能够在相对较短的时间内较为准确地检测出婴儿哭声。
技术领域
本发明涉及计算机人工智能领域,具体涉及了一种真实场景下的婴儿哭声检测方法、装置及可读介质。
背景技术
对于新生婴儿来说,哭声是他们与外界交流的主要方式。婴儿会通过哭声来表达一些生理需求(如饥饿,口渴,身体不适等)。现在越来越多的智能家居产品都提供婴儿哭声检测的功能,可以协助父母看护婴儿。
现有婴儿哭声检测系统仍然存在许多不足之处,例如,持续的哭声一般要超过30s才能被成功检出,对应用环境要求比较高,大多数产品只能在安静的室内才能取得理想的检测效果,当环境音稍微复杂,检测性能急剧下降。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供了一种真实场景下的婴儿哭声检测方法、装置及可读介质,能够在相对较短的时间内较为准确地检测出哭声。
本发明的技术方案包括一种真实场景下的婴儿哭声检测方法,该方法包括以下步骤:S100,采集真实场景下包括有婴儿哭声的音频数据,将所述音频数据作为数据集进行标注及前处理,得到网络输入数据;S200,将所述网络输入数据输入至包括有特征提取网络、人声检测网络及哭声检测网络的深度神经网络,并分别进行特征提取、人声检测及哭声检测的训练,得到所述人声检测网络和所述哭声检测网络对应的第一损失函数及第二损失函数;S300,对所述深度神经网络整体进行训练得到第三损失函数,得到婴儿哭声检测模型;S400,通过所述婴儿哭声检测模型对输入的真实场景采集的音频数据进行检测,得到真实场景的婴儿哭声检测结果。
根据所述的真实场景下的婴儿哭声检测方法,其中S100包括:所述数据集标注包括人声标注和非人声标注,以及,哭声标注和非哭声标注,其中标注方式为段级别的标注;所述前处理包括对音频数据分别进行预加重、分帧加窗处理,并对每帧数据进行STFT变换,将STFT变换后的结果作为所述网络输入数据。
根据所述的真实场景下的婴儿哭声检测方法,其中特征提取网络包括:经过STFT变换后的音频频谱直接作为网络输入,所述特征提取网络通过多个步长和卷积核参数不同的一维卷积执行特征提取,STFT频谱经过所述特征提取网络的输出作为后续人声检测网络和哭声检测网络的输入特征。
根据所述的真实场景下的婴儿哭声检测方法,其中人声检测网络包括依次连接的DS_block、全连接网络及二分类函数,所述DS_block包括左侧分支及右侧分支,所述左侧分支为逐点卷积,所述右侧分支包括逐点卷积和逐通道卷积,每个所述逐点卷积和所述逐通道卷积后均设置有批归一化函数及激活函数,所述特征提取网络用于对输入的全部特征进行预测,得到人声及非人声的概率值。
根据所述的真实场景下的婴儿哭声检测方法,其中哭声检测网络包括依次连接的多个CNN卷积块、LSTM、全连接网络及二分类函数,获取所述特征提取网络用于对输入的音频频率特征进行预测,得到哭声及非哭声的概率值。
根据所述的真实场景下的婴儿哭声检测方法,其中音频频率的设置为16Khz,则对应的音频频段为0-8Khz,以及音频频段的关注范围为500Hz-4kHz,其中音频频段的关注范围为网络输入范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海亿智电子科技有限公司,未经珠海亿智电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111042258.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种切削液回收结构
- 下一篇:一种三元复合光催化剂及其制备方法和应用