首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于transformer框架的多通道声纹识别方法及装置、设备在审

申请号：	202111682904.3	申请日：	2021-12-31
公开（公告）号：	CN114446308A	公开（公告）日：	2022-05-06
发明（设计）人：	潘文安;谢悦皎	申请（专利权）人：	香港中文大学（深圳）
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/18;G10L17/04;G10L25/18;G10L25/45
代理公司：	深圳市欣亚知识产权代理事务所(普通合伙) 44621	代理人：	葛勤;程光慧
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 transformer 框架通道声纹识别方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于transformer框架的多通道声纹识别方法，其特征在于，所述方法包括：

将待识别的音频信息进行声源分解，再通过短时傅里叶变换得到三通道频谱图Ⅰ；

对同一组所述三通道频谱图Ⅰ分别同时进行转置、填补或截断，得到两组三通道频谱图Ⅱ；

将所述两组三通道频谱图Ⅱ输入至改进的LeViT神经网络模型中，并利用所述改进的LeViT神经网络模型对所述音频信息的声纹进行识别处理输出所述音频信息的声纹识别信息，其中所述声纹识别信息至少包括所述音频信息对应的说话者。

2.根据权利要求1所述的方法，其特征在于，所述改进的LeViT神经网络模型包括特征提取模型模块、自注意力-多层感知机模块和收缩自注意力模块，所述将所述两组三通道频谱图Ⅱ输入至改进的LeViT神经网络模型，并利用改进的LeViT神经网络模型对所述音频信息的声纹进行识别处理，具体包括：

通过所述特征提取模块对所述两组三通道频谱图Ⅱ进行特征提取；

依次通过第一阶段、第二阶段、第三阶段对进行特征提取后的所述两组三通道频谱图Ⅱ进行处理；所述第一阶段、第二阶段依次包括所述自注意力-多层感知机模块、收缩自注意力模块以及多层感知机模块，所述第三阶段依次包括自注意力-多层感知机模块以及平均池化层模块。

3.根据权利要求1所述的方法，其特征在于，对同一组所述三通道频谱图Ⅰ分别同时进行转置、填补或截断，得到两组三通道频谱图Ⅱ，还包括：

通过梅尔滤波器对所述三通道频谱图Ⅰ进行过滤处理。

4.根据权利要求2所述的方法，其特征在于，所述自注意力模块对所述三通道频谱图Ⅱ处理，具体包括：

对特征提取后的所述两组三通道频谱图Ⅱ进行线性变换，再计算第一自注意力；

对所述第一自注意力进行转置、维度变化并输入激活函数中计算，再通过第一线性层得到第一张量维度。

5.根据权利要求4所述的方法，其特征在于，所述对特征提取后的所述两组三通道频谱图Ⅱ进行线性变换，再计算第一自注意力具体包括：

对特征提取后的所述两组三通道频谱图Ⅱ进行线性变换，得到所述第一自注意力中的参数，所述参数至少包括Q、K、V，其中Q为query查询参数，K为key相关性参数，V为value被查询参数；

通过所述参数Q、K、V计算所述第一自注意力。

6.根据权利要求3所述的方法，其特征在于，所述收缩自注意力模块对所述三通道频谱图Ⅱ处理，具体包括：

对通过所述自注意力-多层感知机模块处理后的所述两组三通道频谱图Ⅱ进行采样后，得到第二自注意力的参数Q、K、V；

将所述参数Q的长宽减少一半，再计算所述第二自注意力；

对所述第二自注意力进行转置、维度变化并输入激活函数中计算，再通过第二线性层得到第二张量维度。

7.根据权利要求2所述的方法，其特征在于，所述依次通过第一阶段、第二阶段、第三阶段对进行特征提取后的所述两组三通道频谱图Ⅱ进行处理之后还包括：

将通过所述第三阶段处理后的所述两组三通道频谱图Ⅱ输入至softmax分类器中，得到所述音频信息对应的说话者。

8.一种基于transformer框架的多通道声纹识别装置，其特征在于，包括：

变换模块：用于将待识别的音频信息进行声源分解，再通过短时傅里叶变换得到三通道频谱图Ⅰ；

处理模块：用于对同一组所述三通道频谱图Ⅰ分别同时进行转置、填补或截断，得到两组三通道频谱图Ⅱ；

识别模块：用于将所述两组三通道频谱图Ⅱ输入至改进的LeViT神经网络模型中，并利用所述改进的LeViT神经网络模型对所述音频信息的声纹进行识别处理输出所述音频信息的声纹识别信息，其中所述声纹识别信息至少包括所述音频信息对应的说话者。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于香港中文大学（深圳），未经香港中文大学（深圳）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111682904.3/1.html，转载请声明来源钻瓜专利网。

上一篇：盘刷往复驱动机构及玻璃清洗机
下一篇：车门玻璃运动轨迹确认方法及系统

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top