[发明专利]模型训练方法、用户识别方法、系统、设备及介质在审
申请号: | 202110641691.3 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113327621A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 任君;罗超;邹宇;李巍;严丽 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G06F16/68;G06N3/04 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 杨东明;罗朗 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 用户 识别 系统 设备 介质 | ||
本发明公开了一种模型训练方法、用户识别方法、系统、设备及介质,该模型训练方法包括:获取训练样本中的多个音频数据;设置神经网络模型训练时所使用的损失函数;基于每个音频数据以及损失函数对神经网络模型进行模型训练,以得到声纹识别模型;损失函数包括第一损失函数和第二损失函数。本发明利用获取的多个音频数据以及损失函数对神经网络模型进行模型训练,以得到声纹识别模型,损失函数包括第一损失函数和第二损失函数,实现了基于第一损失函数和第二损失函数相结合对神经网络模型进行模型训练,提升了声纹识别模型的辨别度和性能,避免了声纹识别模型难收敛的问题,进而提高了声纹识别模型识别进线用户身份的准确率低和安全性。
技术领域
本发明涉及声纹识别技术领域,特别涉及一种模型训练方法、用户识别方法、系统、设备及介质。
背景技术
随着非接触多模态技术的蓬勃发展,多态融合验证逐渐成为趋势,单个技术识别具有较强的局限性,精度无法达到某些场景下的商业要求,同时仅凭单一识别技术存在漏洞和安全风险,“声纹识别+”的多模态技术融合后的产品形态将会明显提升用户使用体验。最近DeepFake(由人工智能生成的语音或视频)诈骗兴起,声纹识别也逐步成为音视频鉴伪技术的焦点,模仿、合成说话人的声音易于欺骗人耳,但难以欺骗声纹识别系统,因此声纹识别技术对反欺诈效果具有较好的鉴别性。而由于各场景的特殊性,通用的声纹识别系统无法满足业务需求。
目前在OTA(Online Travel Agency,在线旅游社)场景中的基于声纹识别的系统中,仍然没有实时性较高的声纹识别框架用于用户身份的验证,由于用户量大,录音环境复杂,建立上千万声纹库困难极大。
而在OTA行业中用户下完酒店订单后存在“陌生人”查房或者修改酒店订单信息的行为,此行为严重损害了用户的信息安全和OTA平台的利益。在OTA行业需要有巨大的呼叫中心支撑,定然每天产生大量的通话录音,电话录音中涉及客人和客服两端,客服环境相对单一,但是客人环境极其复杂,且动态变化,给声纹识别系统带来较大的挑战,而现有的模型由于难收敛、辨别度低以及性能差,导致识别进线用户身份的准确率低、安全性差的缺陷。
发明内容
本发明要解决的技术问题是为了克服现有技术中的模型由于难收敛、辨别度低以及性能差,导致识别进线用户身份的准确率低、安全性差的缺陷,提供一种模型训练方法、用户识别方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明第一方面提供了一种模型训练方法,包括:
获取训练样本,所述训练样本包括多个音频数据;
设置神经网络模型训练时所使用的损失函数;
基于每个所述音频数据以及所述损失函数对所述神经网络模型进行模型训练,以得到声纹识别模型;
所述损失函数包括第一损失函数和第二损失函数,所述第一损失函数为基于特征角度进行分类的损失函数,所述第二损失函数为区分类间和类内的损失函数。
较佳地,所述损失函数的表达式为:Ltotal=αLAAM+βLcos
其中,
Ltotal表示损失函数,LAAM表示第一损失函数,Lcos表示第二损失函数,α表示LAAM的权重,β表示Lcos的权重,N表示训练样本的数量,S表示余弦距离的放缩因子超参数,m表示间隔距离,i表示第i个训练样本,yi表示第i个训练样本对应的标签,θyi表示第i个训练样本和第i个标签的夹角,θj表示第j个训练样本与第j个标签的夹角。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110641691.3/2.html,转载请声明来源钻瓜专利网。