[发明专利]一种人脸声纹特征融合验证的方法在审
申请号: | 201910641594.7 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110363148A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 胡增;江大白 | 申请(专利权)人: | 中用科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T3/40;G06T3/60;G06T5/10;G10L17/00;G10L25/24;G10L25/45 |
代理公司: | 成都天汇致远知识产权代理事务所(普通合伙) 51264 | 代理人: | 陆岩 |
地址: | 230088 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 验证 声纹特征 人脸 融合 频域信号 时域信号 短时傅里叶变换 图像 二维人脸图像 正弦信号分量 直流信号分量 对数频谱 加窗分帧 频率转换 声音频谱 声音文件 特征向量 线性关系 向量转换 一次验证 应用层 误检 感知 解析 转换 分析 联合 | ||
1.一种人脸声纹特征融合验证的方法,其特征在于,包括以下步骤:
将输入的声音文件解析成声音的时域信号;
通过短时傅里叶变换和加窗分帧将所述时域信号转变为频域信号;
通过对数频谱变换将所述频域信号中的频率转换成人耳能感知的线性关系;
通过倒频分析,采用DCT变换将转换后的频域信号中的直流信号分量和正弦信号分量分离;
提取声音频谱特征向量,将所述向量转换成图像;
将所述图像与二维人脸图像融合。
2.根据权利要求1所述的一种人脸声纹特征融合验证的方法,其特征在于,所述通过短时傅里叶变换和加窗分帧将所述时域信号转变为频域信号,具体为:
选择一个时频局部化的窗函数h(t),通过短时傅里叶变换计算出各个不同时刻的功率谱,所述短时傅里叶变换的公式为:
其中,f(τ)代表输入音频的时域信号,τ表示积分变量,t表示所述不同时刻。
3.根据权利要求2所述的一种人脸声纹特征融合验证的方法,其特征在于,所述窗函数为海明窗。
4.根据权利要求1所述的一种人脸声纹特征融合验证的方法,其特征在于,所述通过对数频谱变换将频率转换成人耳能感知的线性关系,具体为:
通过下式将频率标度转化为对数频率标度,使人耳对频率的感知度为线性感知关系:
mel(f)=2595*log10(1+f/700)
其中,mel(f)表示对数频率,f表示短时傅里叶变换后得到的频率。
5.根据权利要求1所述的一种人脸声纹特征融合验证的方法,其特征在于,所述通过倒频分析,采用DCT变换将转换后的频域信号中的直流信号分量和正弦信号分量分离,具体为:
其中,
其中,mfcc(u)表示倒频谱,mel(i)表示对数频率,N表示频率点的数量,u表示倒频谱的频率点。
6.根据权利要求1所述的一种人脸声纹特征融合验证的方法,其特征在于,所述提取声音频谱特征向量,将所述向量转换成图像,具体为:
将输出向量的范围:
mfcc∈[min,max]
线性变换到图像的范围:
pixel∈[0,255]
这样就得到了声音的倒频谱图,所述声音的倒频谱图的横轴为时间,纵轴为频率;其中,mfcc表示倒频谱,min表示mfcc的最小值,max表示mfcc的最大值,pixel表示转换为图像之后的像素。
7.根据权利要求1所述的一种人脸声纹特征融合验证的方法,其特征在于,所述将所述图像与二维人脸图像融合,具体为:
将倒频谱图顺时针旋转90度,如果拼接后的图像的横轴长度和旋转90度后的倒频谱图的横轴长度不一致,则缩放二维人脸图像,使二者横轴长度一致,再将二者进行拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中用科技有限公司,未经中用科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910641594.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产品表面字符识别方法
- 下一篇:笔迹的处理方法和装置