[发明专利]音频检测方法及装置、存储介质在审
申请号: | 202011312515.7 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112509598A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 王壹丰;蔡国都;杨朔;李黎晗;高鹏 | 申请(专利权)人: | 北京小米松果电子有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/78;G10L25/93 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 康艳青 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 检测 方法 装置 存储 介质 | ||
本公开是关于一种音频检测方法及装置、存储介质。本公开实施例提供的音频检测方法包括:在获取待检测音频中的语音段和非语音段;提取所述语音段的第一音频特征和所述非语音段的第二音频特征;利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分;利用预定的非语音段检测模型对所述第二音频特征进行检测,得到第二检测得分;根据所述第一检测得分和所述第二检测得分,确定所述待检测音频是否属于目标音频。通过本公开实施例的技术方案,可以提升音频身份验证的准确性和安全性,有效识别出重放录音的攻击。
技术领域
本公开涉及语音识别技术,尤其涉及一种音频检测方法及装置、存储介质。
背景技术
随着语音识别技术的广泛应用,声纹识别等音频检测方式成为身份验证或者语音控制等的有效实现方式之一。例如,各种门禁系统、设备身份验证系统以及用户端登录验证系统等等,此外,还有各种智能终端及程序的语音输入、语音控制等,均可采用音频检测的方法来实现。采用音频检测对于用户来说操作简便,并且适用于绝大多数人群,因此可以被广泛应用。然而,声音容易通过录音重放等方式来冒充,从而降低了音频检测的安全性。
发明内容
本公开提供一种音频检测方法及装置、存储介质。
根据本公开实施例的第一方面,提供一种音频检测方法,包括:
获取待检测音频中的语音段和非语音段;
提取所述语音段的第一音频特征和所述非语音段的第二音频特征;
利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分;
利用预定的非语音段检测模型对所述第二音频特征进行检测,得到第二检测得分;
根据所述第一检测得分和所述第二检测得分,确定所述待检测音频是否属于目标音频。
在一些实施例中,所述获取待检测音频中的语音段和非语音段,包括:
利用第一识别方法,识别所述待检测音频中的第一静音段;
利用第二识别方法,识别所述待检测音频中的清音段和第二静音段;
确定所述清音段、所述第一静音段与所述第二静音段的并集为所述非语音段;
确定所述待检测音频中所述非语音段以外的音频段为所述语音段。
在一些实施例中,所述利用第一识别方法识别所述待检测音频中的第一静音段,包括:
利用VAD(Voice Activity Detection,语音活动检测),对所述待检测音频进行能量检测;
确定所述待检测音频中能量小于预定阈值的音频段为所述第一静音段。
在一些实施例中,所述利用第二识别方法,识别所述待检测音频中的清音段和第二静音段,包括:
通过HMM(Hidden Markov Model,隐马尔科夫模型)生成所述待检测音频的音素数据集;
利用MFA(Montreal Forced Aligner,蒙特利尔强制对齐)方法,对所述音频数据集进行音素对齐;
获取音素对齐后的所述音频数据集中的所述清音段和所述第二静音段。
在一些实施例中,所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分,包括:
利用所述第一真实音模型对所述第一音频特征进行检测,得到第一真实音得分;
利用所述第一攻击音模型对所述第一音频特征进行检测,得到第一攻击音得分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司,未经北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011312515.7/2.html,转载请声明来源钻瓜专利网。