[发明专利]声纹特征构建方法、身份识别方法及相关装置在审
申请号: | 202210846819.4 | 申请日: | 2022-07-19 |
公开(公告)号: | CN116129872A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 陈燕丽;蒋宁;吴海英;刘敏;孟庆林 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/08;G10L25/51 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 徐晨影 |
地址: | 401121 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 特征 构建 方法 身份 识别 相关 装置 | ||
1.一种声纹特征构建方法,其特征在于,包括:
基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频;
将所述候选对话音频划分为多个语音片段;
通过语音识别模型对每个语音片段进行识别,得到每个语音片段对应的识别结果,每个语音片段对应的识别结果中包括所述每个语音片段被识别为属于多个候选说话人中每个候选说话人的识别结果;所述多个候选说话人包括所述目标说话人;
基于所述多个语音片段中每个语音片段分别对应的识别结果,删除所述候选对话音频的多个语音片段中的噪声语音片段,得到目标对话音频;
基于所述目标对话音频构建所述目标说话人的参考声纹特征,并添加到声纹库。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个语音片段中每个语音片段对应的识别结果,删除所述候选对话音频中的多个语音片段中噪声语音片段,包括:
基于每个语音片段对应的识别结果,从所述多个候选说话人中确定每个语音片段所属的候选说话人;
基于所述每个语音片段所属的候选说话人,将所述多个语音片段中属于同一候选说话人的语音片段组成一个语音片段组,得到多个语音片段组;
将所述多个语音片段组中,包含语音片段数量最多的一个语音片段组对应的候选说话人,作为所述候选对话音频所属的候选说话人,并确定所述多个语音片段中每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度;
基于所述每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度,以及所述每个语音片段所属的候选说话人,从所述多个语音片段中确定噪声语音片段;
删除所述候选对话音频中的噪声语音片段。
3.根据权利要求2所述的方法,其特征在于,所述基于所述每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度,以及所述每个语音片段所属的候选说话人,从所述多个语音片段中确定噪声语音片段,包括:
若所述候选对话音频所属的候选说话人与所述目标说话人相同,则统计所述多个语音片段中第一类语音片段的数量;所述第一类语音片段是指所述多个语音片段中所属的候选说话人与所述目标说话人不同的语音片段;
若所述第一类语音片段的数量大于或等于预设数量阈值,则将所述多个语音片段均作为噪声语音片段;
如果所述第一类语音片段的数量小于预设数量阈值,则基于所述每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度,从所述多个语音片段中确定第二类语音片段;所述第二类语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度均小于预设相似度阈值;
将所述第二语音片段确定为所述噪声语音片段。
4.根据权利要求2所述的方法,其特征在于,所述基于所述每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度,以及所述每个语音片段所属的候选说话人,从所述多个语音片段中确定噪声语音片段,包括:
若所述候选对话音频所属的候选说话人与所述目标说话人不同,则将所述多个语音片段均确定为所述噪声语音片段。
5.根据权利要求1所述的方法,其特征在于,所述基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频,包括:
基于预设声纹聚类算法,对所述多个第一样本对话音频进行聚类,得到多个聚类簇;
从所述多个聚类簇中,选取所包含的第一样本对话音频数量最多的聚类簇,作为目标聚类簇;
从所述目标聚类簇包含的第一样本对话音频中确定候选对话音频。
6.根据权利要求5所述的方法,其特征在于,所述多个第一样本对话音频中每个第一样本对话音频均是基于目标说话人的历史对话音频确定的;
基于所述目标说话人的历史对话音频确定一个第一样本对话,包括:
若所述历史对话音频为单声道音频,则从所述历史对话音频中分割出所述目标说话人的语音片段,并基于所述目标说话人的语音片段,确定所述第一样本对话音频;
若所述历史对话音频为多声道音频,则从所述历史对话音频中提取所述目标说话人所属声道的声道音频,作为所述第一样本对话音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210846819.4/1.html,转载请声明来源钻瓜专利网。