[发明专利]一种声纹识别的方法、模型训练的方法以及服务器有效
申请号: | 201910745056.2 | 申请日: | 2018-10-10 |
公开(公告)号: | CN110289003B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 李娜;陀得意 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 模型 训练 以及 服务器 | ||
本申请公开了一种声纹识别的方法,该方法应用于人工智能领域,具体可应用于语音识别领域,该方法包括:获取待识别的目标语音信息;通过语音识别模型获取目标语音信息的目标特征信息;根据目标特征信息以及注册特征信息确定声纹识别结果,注册特征信息为待识别对象的语音信息在通过语音识别模型之后得到的。本申请中还提供了一种模型训练的方法以及服务器。本申请中利用归一化指数函数和中心化函数对语音识别模型进行联合优化,能够减少来自同一说话人深度特征之间的类内变化。采用两种函数同时监督和学习语音识别模型,可使深度特征具有更好的区分性,从而提升识别性能。
本申请为2018年10月10日提交中国专利局、申请号为201811179856.4、发明名称为“一种声纹识别的方法、模型训练的方法以及服务器”的中国专利申请的分案申请。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种声纹识别的方法、模型训练的方法以及服务器。
背景技术
网络信息技术的高速发展使人们能够方便地获得各种信息,随之也产生了信息安全问题。由于越来越多的涉及信息安全保密的场所需要可靠的身份认证系统,因此基于指纹、虹膜、人脸、手写签名以及语音的身份认证技术都在应用需求的推动下得到了很大的发展。语音是身份信息的重要载体,与人脸和指纹等其他生物特征相比,语音的获取成本低廉,使用简单,便于远程数据采集,且基于语音的人机交流界面更为友好,因此说话人识别技术成为重要的自动身份认证技术。近年来,说话人识别技术在智能家居领域中的身份认证、语音支付及个性化推荐中有着越来越重要的应用价值。
目前,基于卷积神经网络(Convolutional Neural Network,CNN)训练得到的系统可以对说话人进行识别。这类系统通常对短语音截取固定时长的音频,将该音频转换为图片后输入至CNN网络进行训练,通过预定义的softmax损失函数来调整整个网络。
然而,基于softmax损失函数的系统,在训练过程中,容易出现过拟合现象,也就是在训练集上的性能表现较好,但是对于未训练过的测试集而言,其性能表现较差。
发明内容
本申请实施例提供了一种声纹识别的方法、模型训练的方法以及服务器,利用归一化指数函数和中心化函数对声纹识别模型进行联合优化,能够减少来自同一说话人深度特征之间的类内变化。采用两种函数同时监督和学习声纹识别模型,可使深度特征具有更好的区分性,从而提升识别性能。
有鉴于此,本申请的第一方面提供了一种声纹识别的方法,包括:
获取待识别的目标语音信息;
通过声纹识别模型获取所述目标语音信息的目标特征信息,其中,所述声纹识别模型为根据第一损失函数以及第二损失函数训练得到的,所述第一损失函数属于归一化指数函数,所述第二损失函数属于中心化函数;
根据所述目标特征信息以及注册特征信息确定声纹识别结果,其中,所述注册特征信息为待识别对象的语音信息在通过所述声纹识别模型之后得到的。
本申请的第二方面提供了一种模型训练的方法,包括:
获取待训练语音信息集合,其中,所述待训练语音信息集合包括至少一个对象所对应的语音信息;
根据所述待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数,其中,所述模型调节函数包括所述第一损失函数以及第二损失函数,所述第一损失函数属于归一化指数函数,所述第二损失函数属于中心化函数;
根据所述模型调节函数训练得到声纹识别模型。
本申请的第三方面提供了一种服务器,包括:
获取模块,用于获取待识别的目标语音信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910745056.2/2.html,转载请声明来源钻瓜专利网。