[发明专利]一种基于注意力机制的声纹特征提取方法及装置在审
申请号: | 201910101750.0 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109801635A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 冯大航;陈孝良;苏少炜;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18;G10L17/22;G10L25/24 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 马莉 |
地址: | 100086 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开提供了一种基于注意力机制的声纹特征提取方法及装置,所述声纹特征提取方法包括:将目标说话人的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重;从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征d‑vector。本公开通过引入了注意力机制来估计语音帧的权重,提升了声纹特征的区分性,能够在保证在声纹认证的情况下,提高目标说话人的通过率,降低非目标说话人的误识率,提升个性化的用户体验。 | ||
搜索关键词: | 注意力机制 声纹特征提取 神经网络 声纹特征 语音帧 权重 声纹认证 特征输入 用户体验 语音频谱 区分性 通过率 隐层 加权 注意力 个性化 取出 激活 引入 保证 | ||
【主权项】:
1.一种基于注意力机制的声纹特征提取方法,包括:将目标说话人的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重;从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征d‑vector:其中,所述αt即为第t帧语音帧的权重,ht为第t帧的隐层输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910101750.0/,转载请声明来源钻瓜专利网。