[发明专利]人声检测方法、装置、设备及存储介质在审
申请号: | 202010723751.1 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111883182A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 付姝华;汪斌 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/18;G10L25/21;G10L25/84 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 周纯 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人声 检测 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,提出了人声检测方法、装置、设备及存储介质,该方法包括:通过当前帧音频信号和前多帧音频信号获取时域包络信息,通过当前帧音频信号获取各子带能量,对时域包络信息进行时域数据分析,对各子带能量进行频域数据分析,根据分析结果分别计算当前帧音频信号的时域维度的第一人声检测概率值和频域维度的第二人声检测概率值,根据两个人声检测概率值综合计算得出当前帧的人声概率值,通过上述方式,增加了人声检测的精度,准确区分人声和非平稳噪声,有效避免对人声产生损伤,同时提升了对非平稳噪声的抑制效果,通过门阀值的更新适应通话场景的变化,实现对有效人声的快速跟踪。
【技术领域】
本发明涉及音频处理技术领域,还涉及人工智能领域,尤其涉及一种人声检测方法、装置、设备及存储介质。
【背景技术】
VAD(语音活动检测)语音编码技术应用非常普及,目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。如静音不发包可以节省宝贵的带宽资源,有利于减少用户感觉到的端到端的时延。但目前的VAD技术一般只能分辨静音和非静音,如果能进一步识别人声和非人声,语音编码则可进一步提升带宽利用率。
同时,识别人声和非人声在噪声抑制技术中更发挥着关键作用,噪声抑制来代表了音频前后处理的典型应用,亦决定着一款通话产品性能的成功基础,把非人声作为噪声去跟踪抑制,可以极大提升噪声抑制性能。
现有技术在噪声抑制中的人声检测采用了一部分VAD技术加以改进用以跟踪噪声,此类技术对平稳噪声抑制效果较好,但对非平稳噪声抑制效果很差。
因此,有必要提供一种新的人声检测方法。
【发明内容】
本发明的目的在于提供一种人声检测方法、装置及存储介质,解决现有技术中不能准确区分人声和非平稳噪声导致的对非平稳噪声抑制效果很差的技术问题。
本发明的技术方案如下:提供一种人声检测方法,包括:
根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息;
根据所述时域包络信息获取当前帧音频信号的时域包络信息值;
获取当前帧音频信号对应的频域信号,根据所述频域信号获取当前帧音频信号的各子带能量;
根据所述各子带能量获取当前帧音频信号的子带能量信息值;
分别确定当前帧音频信号的时域包络信息门阀值和子带能量信息门阀值;
根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值;
根据所述子带能量信息值和所述子带能量信息门阀值获取当前帧音频信号的第二人声概率值;
根据所述第一人声概率值和所述第二人声概率值获取当前帧音频信号的人声概率值。
优选地,所述根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息,包括:
获取音频样本中各帧音频信号的最大值;
计算所述音频样本中最近多帧音频信号最大值的均值并将所述均值作为平均包络值,所述最近多帧音频信号包括当前帧音频信号和当前帧音频信号之前的多帧音频信号,将所述最近多帧音频信号的最大值以及所述平均包络值作为所述时域包络信息。
优选地,所述根据所述时域包络信息获取当前帧音频信号的时域包络信息值,包括:
获取最近多帧音频信号中每帧音频信号的最大值与所述平均包络值的差值;
将每帧音频信号最大值与所述平均包络值的差值进行对数运算,得到所述差值对应的对数值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010723751.1/2.html,转载请声明来源钻瓜专利网。