[发明专利]声纹特征构建方法、身份识别方法及相关装置在审
申请号: | 202210846819.4 | 申请日: | 2022-07-19 |
公开(公告)号: | CN116129872A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 陈燕丽;蒋宁;吴海英;刘敏;孟庆林 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/08;G10L25/51 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 徐晨影 |
地址: | 401121 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 特征 构建 方法 身份 识别 相关 装置 | ||
本申请公开了一种声纹特征构建方法、身份识别方法及相关装置。声纹特征构建方法包括:基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频;将候选对话音频划分为多个语音片段;通过语音识别模型对每个语音片段进行识别,得到每个语音片段对应的识别结果,每个语音片段对应的识别结果包括每个语音片段被识别为多个候选说话人中每个候选说话人的识别结果,多个候选说话人包括目标说话人;基于多个语音片段中每个语音片段分别对应的识别结果,删除候选对话音频的多个语音片段中的噪声语音片段,得到目标对话音频;基于目标对话音频构建目标说话人的参考声纹特征,并添加到构建声纹库。
技术领域
本申请涉及语音处理技术领域,尤其涉及一种声纹特征构建方法、身份识别方法及相关装置。
背景技术
随着声纹识别技术的发展,声纹识别作为可信的声纹特征认证技术,在身份认证、安全核身、电信欺诈等诸多领域和场景中都有广阔的应用前景。因此,构建声纹库对于声纹识别具有重要的意义。
相关技术中,主要通过对样本音频进行分割和说话人标注,然后对同一说话人的语音片段进行聚类,直接选取包含语音片段数量最多的聚类簇中语音片段的声纹特征,作为说话人的参考声纹特征,添加到声纹库中。但是,这种方式对语音分割、声纹提取以及聚类等每个环节都有较高的要求,任一环节的效果不佳,都会影响说话人的参考声纹特征的纯净度和鲁棒性,进而影响所构建的声纹库的准确性和可靠性。
发明内容
本申请实施例的目的是提供一种声纹特征构建方法、身份识别方法及相关装置,用于解决相关技术中的声纹特征构建方法无法保证参考声纹特征的纯净度和鲁棒性而导致所构建的声纹库准确性和可靠性低的问题。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种声纹特征构建方法,包括:
基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频;
将所述候选对话音频划分为多个语音片段;
通过语音识别模型对每个语音片段进行识别,得到每个语音片段对应的识别结果,每个语音片段对应的识别结果包括所述每个语音片段被识别为多个候选说话人中每个候选说话人的识别结果,所述多个候选说话人包括所述目标说话人;
基于所述多个语音片段中每个语音片段分别对应的识别结果,删除所述候选对话音频的多个语音片段中的噪声语音片段,得到目标对话音频;
基于所述目标对话音频构建所述目标说话人的参考声纹特征,并添加到构建声纹库。
第二方面,本申请实施例提供一种身份识别方法,包括:
获取待识别音频的声纹特征;
将所述待识别音频的声纹特征与声纹库中各个说话人的参考声纹特征进行匹配;
若所述待识别音频的声纹特征与所述声纹库中目标说话人的参考声纹特征匹配成功,则确定所述待识别音频属于所述目标说话人;其中,所述目标说话人的参考声纹特征为基于第一方面所述的声纹特征构建方法构建得到。
第三方面,本申请实施例提供一种声纹特征构建装置,包括:
聚类单元,用于基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频;
划分单元,用于将所述候选对话音频划分为多个语音片段;
识别单元,用于通过语音识别模型对每个语音片段进行识别,得到每个语音片段对应的识别结果,每个语音片段对应的识别结果包括所述每个语音片段被识别为多个候选说话人中每个候选说话人的识别结果,所述多个候选说话人包括所述目标说话人;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210846819.4/2.html,转载请声明来源钻瓜专利网。