[发明专利]声纹识别方法、装置、计算机设备及存储介质在审
申请号: | 202011604899.X | 申请日: | 2020-12-30 |
公开(公告)号: | CN112820297A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 余强 | 申请(专利权)人: | 平安普惠企业管理有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/22;G10L17/18;G10L17/04;G10L15/26;G10L15/22;G10L15/02;G10L15/04;G10L13/04 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种声纹识别方法,其特征在于,所述方法包括:
接收用户终端发送的第一音视频数据,所述第一音视频数据包括至少一次会话中的多段有效音视频片段,每段有效音视频片段的播放时长不小于第一预设时长;
从所述多段有效音视频片段中的第一音视频片段中确定机器人播报完话术的第一时刻;所述机器人为服务器中设置的虚拟用户;
对所述第一音视频片段进行语音转换,得到第一文本,以及从所述第一音视频片段中确定所述第一文本发送给机器人的第二时刻;
根据所述第一时刻和所述第二时刻确定目标时段;
从所述第一音视频片段中提取所述目标时段的目标音视频片段,最终得到多个目标音视频片段;
将所述多个目标音视频片段合成,得到目标声纹;
对所述目标声纹进行声纹识别。
2.根据权利要求1所述的方法,其特征在于,所述接收用户终端发送的第一音视频数据之前,所述方法还包括:
确定一次会话的有效声纹时长为所述第一预设时长;
向所述用户终端发送第一指令,所述第一指令用于指示用户在一次会话中的有效声纹时长高于所述第一预设时长;
所述将所述多个目标音视频片段合成,得到目标声纹,包括:
根据各段目标音视频片段分别确定所述用户在每次会话中的会话起始时刻和会话结束时刻;
根据所述会话起始时刻和所述会话结束时刻得到各段目标音视频片段中的第一有效声纹;
将各段目标音视频片段中的第一有效声纹合成,得到所述目标声纹。
3.根据权利要求2所述的方法,其特征在于,所述向所述用户终端发送第一指令之前,所述方法还包括:
设置第一预设时长,所述第一预设时长为所述目标声纹的最小时长。
4.根据权利要求3所述的方法,其特征在于,所述根据所述会话起始时刻和所述会话结束时刻得到各段目标音视频片段中的第一有效声纹之后,所述将各段目标音视频片段中的第一有效声纹合成,得到所述目标声纹之前,所述方法还包括:
累计至少一个所述目标时段对应的时长,得到候选累计时长;
比较所述累计时长与所述第一预设时长;
当确定所述累计时长小于所述第一预设时长时,获取下一个第一音视频片段对应的目标时段,重复比较累计时长与所述第一预设时长的操作,直至累计时长不小于所述第一预设时长时,将参与累计时长计算的第一音视频片段中的目标音视频片段进行合成,得到所述目标声纹。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述对所述目标声纹进行声纹识别,包括:
基于声纹模型对所述目标声纹进行声纹识别;
若确定所述目标声纹均属于同一个用户且所述用户为预设用户,则确定所述本次会话为有效会话。
6.根据权利要求5所述的方法,其特征在于,所述基于声纹模型对所述目标声纹进行声纹识别之前,所述方法还包括:
获取多次会话中得到的多次历史目标声纹;
将所述多次历史目标声纹输入神经网络模型,以对所述神经网络模型进行训练,得到所述声纹模型。
7.根据权利要求6所述的方法,其特征在于,所述目标声纹是指针对用户与机器人的一次有效会话中获取的用户的声纹,所述目标声纹为将多个目标音视频进行拼接或合成后得到的声纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安普惠企业管理有限公司,未经平安普惠企业管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011604899.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:Slurm集群计费方法、系统、电子设备及存储介质
- 下一篇:一种衡压换气装置