[发明专利]一种多模型融合的声纹识别方法、终端、服务器及存储介质在审

申请号：	201910441119.5	申请日：	2019-05-24
公开（公告）号：	CN110164453A	公开（公告）日：	2019-08-23
发明（设计）人：	洪国强;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤;王静	申请（专利权）人：	厦门快商通信息咨询有限公司
主分类号：	G10L17/04	分类号：	G10L17/04;G10L17/20;G10L17/18;G10L17/10;H04L9/32
代理公司：	厦门仕诚联合知识产权代理事务所(普通合伙) 35227	代理人：	乐珠秀
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声纹识别多模式融合存储介质模型融合音频数据频段服务器终端自适应算法场景采样频率环境噪声模型训练声纹模型语音数据采样率识别率声纹兼容语音认证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多模型融合的声纹识别方法，其特征在于，包括如下步骤：

(1)建立多模式融合方式进行模型训练，生成多模式融合声纹识别模型，具体如下：

分别对第一至第n采样频率的音频数据进行模型训练，其中n为大于等于1的整数：

第一采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为N1个频率段；处于第一频率段的音频数据采用第M₁算法进行训练，生成第M₁₁模型；处于第i频率段的音频数据采用第M_i算法模型进行训练，生成第M_1i模型；依次类推，处于第N₁频率段的音频数据采用第M_N1算法进行训练，生成第M_1N1模型；其中N₁为大于等于1的整数；

第二采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为N₂个频率段；处于第一频率段的音频数据采用第M₁算法进行训练，生成第M₂₁模型；处于第i频率段的音频数据采用第M_i算法进行训练，生成第M_2i模型，依次类推，处于第N₂频率段的音频数据采用第M_N2算法进行训练，生成第M_2N2模型；其中N₂为大于等于1的整数；

依次类推

第n采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为N_n个频率段；处于第一频率段的音频数据采用第M₁算法进行训练，生成第M_n1模型；处于第i频率段的音频数据采用第M_i算法进行训练，生成第M_ni模型；依次类推，处于第Nn频率段的音频数据采用第M_Nn算法进行训练，生成第Mn_Nn模型；其中n为大于等于2的整数，Nn为大于等于1的整数；

(2)根据场景需求，选择所述多模式融合声纹识别模型用于进行声纹注册或认证；所述场景需求包含音频数据的采样频率。

2.根据权利要求1所述的多模型融合的声纹识别方法，其特征在于，

所述方法还包含：

所述声纹认证之前，用户注册过程中，根据音频数据的采样频率，确认所应用的多模式融合声纹识别模型，并获取若干模型在不同方式下的注册声纹特征以及相应认证的比较阈值。

3.根据权利要求2所述的多模型融合的声纹识别方法，其特征在于，

判断认证音频数据采样频率是否与注册音频数据采样频率相同，

若认证音频数据采样频率与注册音频数据采样频率相同，则将若干认证声纹特征分别与相应的若干个注册声纹特征进行相似性比较得到若干相似值，根据若干相似值与若干比较阈值确认是否验证成功；

若认证音频数据采样频率与注册音频数据采样频率不相同，则采用注册音频数据采样频率所对应的多模式融合声纹识别模型进行验证，获取若干个认证声纹特征，将若干认证声纹特征分别与相应的若干个注册声纹特征进行相似性比较得到若干相似值，根据若干相似值与若干比较阈值确认是否验证成功。

4.根据权利要求2所述的多模型融合的声纹识别方法，其特征在于，

根据认证音频数据的采样频率，根据注册时的多模式融合声纹识别模型对应的音频数据频率从低到高划分的若干个频率段，分别判断若干个频率段的音频数据进行信噪比检测，若认证音频数据的某一频率段的信噪比小于或小于等于设定的信噪阈值，则多模式融合声纹识别模型剔除该频率段对应的模型进行验证。

5.根据权利要求3所述的多模型融合的声纹识别方法，其特征在于，

根据若干相似值与若干比较阈值确认是否验证成功的方式包含以下的任意一种：