[发明专利]一种基于质量维度的声纹识别算法评估方法有效

专利信息
申请号: 201910633799.0 申请日: 2019-07-15
公开(公告)号: CN110335611B 公开(公告)日: 2021-12-10
发明(设计)人: 董波;王道宁;张亚东;陶亮;廖志梁 申请(专利权)人: 易诚高科(大连)科技有限公司
主分类号: G10L17/00 分类号: G10L17/00;G10L15/08;G10L17/04
代理公司: 大连优路智权专利代理事务所(普通合伙) 21249 代理人: 宋春昕;刘国萃
地址: 116000 辽宁省大连市高*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于质量维度的声纹识别算法评估方法,包括基于目标相关的声纹识别评估方法和基于非目标相关的声纹识别评估方法,对于单个声纹识别算法而言,可以通过多维度评估,得到算法对各种不同参量的敏感性,从而针对不同参量做算法优化;对于不同的声纹识别算法而言,可以提供更详细的比对结果,结合应用环境来给出最优的识别算法。
搜索关键词: 一种 基于 质量 维度 声纹 识别 算法 评估 方法
【主权项】:
1.一种基于质量维度的声纹识别算法评估方法,其特征在于:包括基于目标相关的声纹识别评估方法和基于非目标相关的声纹识别评估方法,基于目标相关的声纹识别评估方法包括以下步骤:2‑1.在测试声纹数据库存在的情况下,对库做参数属性模型化分类,分类的对象包括:情绪、假音与音量;2‑2.基于情绪的测试库分类:对测试库每个声纹信号进行标号,不同人的声纹,标号不同,相同人的声纹,标号相同;2‑2‑1.对典型情绪声纹做量化分类,以正常情绪的声纹信号为参考,将与情绪相关的因子与个性特征分离;2‑2‑2.在正常情绪下采集声纹信号,然后按照步骤2‑2‑1的方法统计分离后信号的分布情况;2‑2‑3.在不同状态下,分别按照2‑2‑2的方式统计出各个情绪状态下的声纹信号分布情况;2‑2‑4.基于统计出的声纹信号分布情况,训练情绪状态分类器;2‑2‑5.对库中的任意声纹样本,按照步骤2‑2‑1的方式取得情绪声纹频率,然后基于步骤2‑2‑4给出的状态分类器,获得任意样本的情绪标签;2‑3.基于假音的测试库信息标记:2‑3‑1.假音是指通过有意识的控制而只使部分声带发生振动所发出来的声音;2‑3‑2.采集部分声纹样本,采集对象包括正常状态下的样本以及用假音发音的声纹样本;2‑3‑3.对同人不同发音状态的声纹样本做分组,训练假音分类器,然后对测试库中的样本做真假音分类,得到任意样本的真假音标记IDtype。2‑4.基于音量的测试库分类:2‑4‑1.音量是针对主频的幅频能量占平均能量的大小;2‑4‑2.对所有样本进行中心频率提取,得到该频率下的幅频信息,然后幅频信息除以短时声纹信号的0频幅频,得到的比值作为各样本的能量比η,能量比越大,认为相对音量越高;2‑5.对于得到情绪、假音、音量评估或者分类信息的测试库而言,对需要测试的声纹识别算法先进行一次整体的识别统计,找到识别失败的样本,然后对于识别失败的样本,按照不同的量化与分类维度做汇总统计:2‑5‑1.以情绪标记为横坐标,同区间识别失败样本的数量为纵坐标,统计情绪变化引入识别失败的统计直方图,哪个坐标下的分布概率越大,代表算法对相对应情绪的敏感度越高;2‑5‑2.以是否假音为横坐标,同状态下识别失败样本的数量为纵坐标,统计假音引入识别失败的统计直方图,一般在刻意修改发声状态下的样本会丧失个性特征,使识别率降低,但这也从客观上说明现阶段的声纹识别算法泛化能力不足;2‑5‑3.以相对音量大小为横坐标,按照固定的步长对遮挡率做区间划分,等级分类为横坐标,同区间识别失败样本的数量为纵坐标,统计相对音量大小改变引入识别失败的统计直方图,哪个等级的分布概率越大,代表算法对相对应的敏感度越高,正常状态下,相对音量越小,算法性能越差;2‑6.对其他要测试的算法均进行步骤2‑5,得到所有算法对不同目标质量参量的敏感度结果,在相同条件下:基于情绪的误识别直方图分布越广,算法对情绪越敏感;假音状态下的误识别样本数量越多,算法越不稳定;同音量等级下,误识别直方图样本数量越少,算法对音量变化的鲁棒性越高;基于非目标相关的声纹识别评估方法包括以下步骤:3‑1.在测试声纹库存在的情况下,对声纹库做质量属性模型化分类,分类的对象包括:噪声水平与背景杂音能量;3‑2.基于噪声的测试库分类:3‑2‑1.对测试库中的任意声纹样本做一次傅里叶变换,提取高频信号的能量则取高频段的幅频均值作为噪声能量,其余频段的能量减去该均值的结果为非噪声能量;3‑2‑2.计算声纹信号信噪比=20log(非噪声能量/噪声能量);3‑2‑3.重复进行步骤3‑2‑1~3‑2‑2,计算出所有声纹信号的信噪比信息snr,然后对信噪比做最大值与最小值统计,得到信噪比取值范围,对整个范围做固定步长的分区,得到不同的信噪比区间,然后找到所有样本信噪比所在区间的标号;3‑3.基于背景音的测试库信息标记:3‑3‑1.对测试库中的任意声纹信号,对按照步骤3‑2‑1进行去噪的声纹频谱做多个主频统计,得到主频序列中的最高频率与最低频率;3‑3‑2.计算最高频率与最低频率的差值,得到音频主频带范围;3‑3‑3.重复进行3‑3‑1~3‑3‑2,计算出所有样本的频带范围信息,然后做最大范围值与最小范围统计,得到范围的取值区间,对整个区间做固定步长的分区,得到不同的范围区间,然后找到所有声纹信号所在区间的标号;3‑4.对于得到噪声、背景杂音量化评估或者分类信息的测试库而言,对需要测试的声纹识别算法先进行一次整体的识别统计,找到识别失败的样本,然后对于识别失败的样本,按照不同的量化与分类维度做汇总统计:3‑4‑1.以信噪比区间为横坐标,同区间识别失败样本的数量为纵坐标,统计信噪比引入识别失败的统计直方图,正常状态下,信噪比等级越高,算法性能越差;3‑4‑2.以不同背景杂音范围分类为横坐标,同区间识别失败样本的数量为纵坐标,统计模糊度引入识别失败的统计直方图,正常状态下,杂音等级越高,算法性能越差。3‑5.对其他要测试的算法均进行步骤3‑4,得到所有算法对不同非目标质量参量的敏感度结果,在相同条件下:同质量参数等级下,误识别直方图样本数量越少,算法鲁棒性越高。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易诚高科(大连)科技有限公司,未经易诚高科(大连)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910633799.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top