[发明专利]啸叫检测方法及装置、介质和计算设备在审
申请号: | 202111347480.5 | 申请日: | 2021-11-15 |
公开(公告)号: | CN114067837A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 陈志鹏;阮良;陈功;陈丽;陈耀斌 | 申请(专利权)人: | 杭州网易智企科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 310052 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 方法 装置 介质 计算 设备 | ||
本公开的实施方式提供了一种啸叫检测方法及装置、介质和计算设备。该方法包括:获取待检测音频信号,并对所述待检测音频信号进行预处理以获得待检测音频特征数据;通过目标啸叫检测模型基于所述待检测音频特征数据获取检测结果;所述检测结果至少包含啸叫属性信息;通过第一啸叫检测模型基于在不同通信场景下采集的样本音频信号以及对应的啸叫标注信息的训练获得所述目标啸叫检测模型;所述第一啸叫检测模型包含依次级联的卷积神经网络和循环神经网络。本公开能够针对不同属性的啸叫进行检测,降低误检率,提高通话质量和参会人员体验。
技术领域
本公开的实施方式涉及人工智能技术领域,更具体地,本公开的实施方式涉及一种啸叫检测方法、啸叫检测装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在语音通信和多媒体通信领域,电话会议或者多媒体会议场景中,由于参会人数众多,极易出现由于设备问题或者环境问题导致的啸叫现象,严重影响会议通话质量,因此,针对特定场景,如何准确识别语音中的啸叫成为决定会议通话质量的关键。
然而,现有的会议通话场景中存在网络传输、通话环境复杂多变、入会设备位置变化、入会设备间存在频响差异等等现象,使得产生的啸叫复杂多变,具有非线性特征,难以进行准确测量,从而导致误检率高,严重影响通话质量和参会人的主观体验。
发明内容
本公开的实施方式提供一种啸叫检测方法、啸叫检测装置、介质和计算设备。
在本公开实施方式的第一方面中,提供了一种啸叫检测方法,包括:
获取待检测音频信号,并对所述待检测音频信号进行预处理以获得待检测音频特征数据;
通过目标啸叫检测模型基于所述待检测音频特征数据获取检测结果;所述检测结果至少包含啸叫属性信息;
其中,通过第一啸叫检测模型基于在不同通信场景下采集的样本音频信号以及对应的啸叫标注信息的训练获得所述目标啸叫检测模型;所述第一啸叫检测模型包含依次级联的卷积神经网络和循环神经网络。
在本公开的一些实施例中,基于前述方案,所述对所述待检测音频信号进行预处理以获得待检测音频特征数据,包括:
将所述待检测音频信号进行重采样,以使所述待检测音频信号归一化到指定采样率;
对归一化后的待检测音频信号进行分帧处理;
对分帧后的一帧待检测音频信号进行特征提取以获得待检测音频特征数据。
在本公开的一些实施例中,基于前述方案,所述第一啸叫检测模型的训练,包括:
基于所述卷积神经网络,对所述样本音频信号的特征数据进行卷积处理,输出第一特征向量,所述第一特征向量中包含有时序信息;
基于所述循环神经网络,对所述第一特征向量进行时序特征学习,输出第二特征向量;
对所述第二特征向量进行聚焦处理,输出啸叫属性概率分布向量,所述啸叫属性概率分布向量表示各啸叫属性对应的概率;
基于所述样本音频信号的特征数据对应啸叫属性的概率和所述啸叫标注信息,采用损失函数确定目标损失信息;
根据所述目标损失信息,对所述第一啸叫检测模型的参数进行调整。
在本公开的一些实施例中,基于前述方案,所述第一啸叫检测模型的训练,还包括:
基于指定衡量标准对所述第一啸叫检测模型中的神经元及其连接关系进行裁剪;和/或
基于指定量化准则对所述第一啸叫检测模型的参数进行量化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易智企科技有限公司,未经杭州网易智企科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111347480.5/2.html,转载请声明来源钻瓜专利网。