[发明专利]基于声纹的身份验证方法和装置有效
申请号: | 201710019531.9 | 申请日: | 2017-01-10 |
公开(公告)号: | CN108288470B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 石自强;刘柳;刘汝杰 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;江河清 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声纹 身份验证 方法 装置 | ||
1.一种基于声纹的身份验证方法,包括:
接收未知语音;
利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹,其中,得到所述基于神经网络的声纹提取器包括:
采集来自不同说话者的语音,
将所述说话者的辅助信息作为所述神经网络的分组标签进行标记,并且将标记过的语音作为训练样本输入所述神经网络,和
通过分别使用层次神经网络和扁平神经网络,基于所述分组标签进行深度学习来得到所述基于神经网络的声纹提取器;
将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及
利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。
2.根据权利要求1所述的身份验证方法,其中,所述说话者的辅助信息包括:说话者的语种、音素序列、发声通道、情感、年龄、生活区域以及性别中的一项或多项。
3.根据权利要求1所述的身份验证方法,其中,进行深度学习来得到所述基于神经网络的声纹提取器还包括:
采用所述层次神经网络将不同的分组标签分别放置在不同层进行深度学习得到层次网络提取器;以及
采用所述扁平神经网络将全部分组标签放置在输出层进行深度学习得到扁平网络提取器。
4.根据权利要求3所述的身份验证方法,其中,利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹的步骤还包括:
分别利用所述层次网络提取器和所述扁平网络提取器提取来提取所述未知语音中的声纹;以及
将所述层次网络提取器所提取的声纹和所述扁平网络提取器所提取的声纹拼接在一起作为所提取的所述未知语音中的声纹。
5.根据权利要求3所述的身份验证方法,其中,所述分组标签包含的信息越简单,则该分组标签在层次神经网络中放置的位置越靠前。
6.根据权利要求1所述的身份验证方法,其中,利用随机梯度下降方法进行所述深度学习,所述随机梯度下降方法使用以下公式来计算神经网络的权重:
wt+1=θt+(at-1)(θt-θt-1)/at+1+at(θt-wt)/at+1
其中,wt是权重,∈t′是学习率,是损失函数f的梯度,a0=1,
7.根据权利要求1所述的身份验证方法,其中,利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人的步骤还包括:
训练第一高斯混合模型和第二高斯混合模型,其中,所述第一高斯混合模型对应两个声纹属于同一个人的情况,所述第二高斯混合模型对应两个声纹不属于同一个人的情况;
计算所述拼接的声纹分别在所述第一高斯混合模型上的第一概率和所述第二高斯混合模型上的第二概率;以及
当所述第一概率大于所述第二概率,则所提取的声纹与预先存储的声纹是来自同一个人,否则,则是来自不同的人。
8.根据权利要求1所述的身份验证方法,其中,所提取的所述未知语音中的声纹包含所述说话者的辅助信息。
9.一种基于声纹的身份验证装置,包括:
语音接收单元,被配置为接收未知语音;
声纹提取单元,被配置为利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹,其中,得到所述基于神经网络的声纹提取器包括:
采集来自不同说话者的语音,
将所述说话者的辅助信息作为所述神经网络的分组标签进行标记,并且将标记过的语音作为训练样本输入所述神经网络,和
通过分别使用层次神经网络和扁平神经网络,基于所述分组标签进行深度学习来得到所述基于神经网络的声纹提取器;
声纹拼接单元,被配置为将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及
身份验证单元,被配置为利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710019531.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音箱及交互方法
- 下一篇:用于识别语音的电子设备