[发明专利]一种应对复杂声学环境的说话人确认方法、系统及存储介质在审
申请号: | 202010871239.1 | 申请日: | 2020-08-26 |
公开(公告)号: | CN111986679A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 刘明;周彦兵;孙冲武;赵学华;高波 | 申请(专利权)人: | 深圳信息职业技术学院 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L21/0208;G10L25/12;G10L25/24;G10L25/30;G10L25/45 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 黎健任 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应对 复杂 声学环境 说话 确认 方法 系统 存储 介质 | ||
本发明提供了一种应对复杂声学环境的说话人确认方法、系统及存储介质,该说话人确认方法包括执行以下步骤:步骤1:输入说话人语音;步骤2:接收步骤1的说话人语音音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人语音音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;步骤4。本发明的有益效果是:利用梅尔倒谱特征和线性预测特征级联的方式,进行说话人声纹建模,提高了算法对目标声纹的辨识能力。
技术领域
本发明涉及数据处理领域,尤其涉及一种应对复杂声学环境的说话人确认方法、系统及存储介质。
背景技术
目前,智能手机、智能音箱、对话机器人等产品中都会加入目标说话人声纹确认的功能,来提高这类电子设备对用户的专用性。但是,当具备说话人确认功能的语音产品工作在一些复杂的应用场景时,如存在各式各样背景噪音的环境、周围有其他人说话干扰的场景等,产品的声纹识别准确率较低。除此之外,当目标说话人由于感冒或其他疾病而导致自身的声音发生一些变化时,目前市面上的语音产品也难以正确地识别目标说话人的声纹。
发明内容
本发明提供了一种应对复杂声学环境的说话人确认方法,包括执行以下步骤:
步骤1:输入说话人音频;
步骤2:接收步骤1的说话人音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;
步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;
步骤4:采用声纹识别模块接收增强后的人工声纹特征,进行更深层次的抽象表示分析,再在神经网络的输出层得到新的特征表示形式,最后计算不同语句之间的相似值,输出相似度向量,并做出是否是目标说话人的判决。
作为本发明的进一步改进,在所述步骤2中,所述梅尔倒谱系数提取模块还包括依次执行以下步骤:
预处理步骤:将原始语音信号进行采样量化、预加重、加窗分帧预处理,得到每一帧语音信号的语音序列s(n);
傅里叶变换步骤:对预处理后得到的语音序列s(n)进行快速傅里叶变换,将其从时域变换到频域,得到其频谱,并求得频谱的幅度值S(k);
滤波步骤:将幅度值S(k)通过梅尔频率滤波器组Hm(k)得到的输出为Pm(m=0,1,…,M-1),参数Pm的表达公式如下:
其中,Hm(k)是梅尔频率滤波器组的传递函数,其定义表达如下式所示:
公式(2)中M为三角形滤波器的数量,即梅尔滤波器组的阶数,f(m)是三角形滤波器的中心频率;f(m-1)和f(m+1)分别表示一个三角形滤波器的上限频率与下限频率;
梅尔倒谱系数计算步骤:对参数Pm进行对数能量计算,输出得到的参数为Lm(m=0,1,…,M-1),再将参数Lm进行离散余弦变换,将得到的参数Lm转换到倒谱域中,这样就得到了梅尔倒谱系数Cmel,其具体过程如下:
Lm=ln(Pm),(m=0,1,…,M-1) (3)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院,未经深圳信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010871239.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双机翼压差式流量计用可拆卸式防护装置
- 下一篇:一种铁质工艺品除锈的方法