[发明专利]人声检测方法、装置、设备及存储介质在审

申请号：	202010723751.1	申请日：	2020-07-24
公开（公告）号：	CN111883182A	公开（公告）日：	2020-11-03
发明（设计）人：	付姝华;汪斌	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L25/78	分类号：	G10L25/78;G10L25/18;G10L25/21;G10L25/84
代理公司：	深圳国新南方知识产权代理有限公司 44374	代理人：	周纯
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人声检测方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，提出了人声检测方法、装置、设备及存储介质，该方法包括：通过当前帧音频信号和前多帧音频信号获取时域包络信息，通过当前帧音频信号获取各子带能量，对时域包络信息进行时域数据分析，对各子带能量进行频域数据分析，根据分析结果分别计算当前帧音频信号的时域维度的第一人声检测概率值和频域维度的第二人声检测概率值，根据两个人声检测概率值综合计算得出当前帧的人声概率值，通过上述方式，增加了人声检测的精度，准确区分人声和非平稳噪声，有效避免对人声产生损伤，同时提升了对非平稳噪声的抑制效果，通过门阀值的更新适应通话场景的变化，实现对有效人声的快速跟踪。

【技术领域】

本发明涉及音频处理技术领域，还涉及人工智能领域，尤其涉及一种人声检测方法、装置、设备及存储介质。

【背景技术】

VAD(语音活动检测)语音编码技术应用非常普及，目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。如静音不发包可以节省宝贵的带宽资源，有利于减少用户感觉到的端到端的时延。但目前的VAD技术一般只能分辨静音和非静音，如果能进一步识别人声和非人声，语音编码则可进一步提升带宽利用率。

同时，识别人声和非人声在噪声抑制技术中更发挥着关键作用，噪声抑制来代表了音频前后处理的典型应用，亦决定着一款通话产品性能的成功基础，把非人声作为噪声去跟踪抑制，可以极大提升噪声抑制性能。

现有技术在噪声抑制中的人声检测采用了一部分VAD技术加以改进用以跟踪噪声，此类技术对平稳噪声抑制效果较好，但对非平稳噪声抑制效果很差。

因此，有必要提供一种新的人声检测方法。

【发明内容】

本发明的目的在于提供一种人声检测方法、装置及存储介质，解决现有技术中不能准确区分人声和非平稳噪声导致的对非平稳噪声抑制效果很差的技术问题。

本发明的技术方案如下：提供一种人声检测方法，包括：

根据音频样本中当前帧音频信号和前多帧音频信号获取时域包络信息；

根据所述时域包络信息获取当前帧音频信号的时域包络信息值；

获取当前帧音频信号对应的频域信号，根据所述频域信号获取当前帧音频信号的各子带能量；

根据所述各子带能量获取当前帧音频信号的子带能量信息值；

分别确定当前帧音频信号的时域包络信息门阀值和子带能量信息门阀值；

根据所述时域包络信息值和所述时域包络信息门阀值获取当前帧音频信号的第一人声概率值；