[发明专利]一种文本相关的声纹密钥生成方法有效
申请号: | 201811139547.4 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109326294B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 吴震东 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;H04L9/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 黄前泽 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 相关 声纹 密钥 生成 方法 | ||
1.一种文本相关的声纹密钥生成方法,其特征在于:包括声纹密钥训练和声纹密钥提取;声纹密钥训练通过前期采集的声纹样本训练出声纹密钥提取矩阵;声纹密钥提取将待提取声纹样本经预处理后,乘上声纹密钥训练得到的密钥提取矩阵,得到声纹密钥;具体步骤如下:
步骤一、声纹密钥训练,具体步骤为:
第一步,用户对同一个文本信息,一般为1-3个连续的单词,录取自身语音,重复20次以上,次数由用户根据训练情况调整;
第二步,录取10个以上不同用户读取相同文本信息的语音,各重复20次以上;录取10个以上不同用户读取不同文本信息、持续时间相近的语音,各重复20次以上;
第三步,对第一、二步录取语音进行预处理,提取声纹语谱图具体过程为:
1)预增强:
以S1(n)表示语音时域信号,其中n=0、1、2…、N-1,预增强公式为:S(n)=S1(n)–a*S1(n-1),0.9<a<1.0;a为欲加重系数,用以调整欲增强幅度;
2)音框化,即对语音信号分帧;
3)汉明窗处理:
音框化后的语音时域信号为S(n),n=0、1、2…、N-1,表示分为了n段语音信号;那么乘上汉明窗后的语音时域信号为S’(n),见式⑴:
S’(n)=S(n)*W(n) ⑴;
得:a=0.46,a的取值区间为0.3~0.7之间,具体数值根据实验和经验数据确定;w(n)为汉明窗函数,具有较平滑的低通特性,能够较好的反映短时语音信号的频率特性;
4)快速傅立叶转换FFT:
对乘上汉明窗后的语音时域信号S’(n)实施基2FFT变换,得到线性频谱X(n,k),基2FFT变换为本领域内通用算法;X(n,k)为第n段语音帧的频谱能量密度函数,k对应频谱段,每一段语音帧对应了时间轴上的一个时间片;
5)生成文本相关声纹语谱图:
用时间n作为时间轴坐标,k作为频谱轴坐标,将|X(n,k)|2的值表示为灰度级,显示在相应的坐标点位置上,即构成了声纹语谱图;通过变换10log10(|X(n,k)|2)得到语谱图的dB表示;
第四步,对声纹语谱图进行滤波、归一化预处理,具体滤波方式有高斯、小波、二值化滤波,用户根据实际测试情况任意选择一种或多种方式进行滤波;
第五步,对声纹语谱图进行机器学习,得声纹稳定特征学习矩阵,即声纹密钥提取矩阵;
第四步得到的声纹语谱图分成两大类,一类为用户本人的相关文本声纹语谱图,另一类为非用户本人的相关文本与非相关文本混合的对比声纹语谱图,称为正负样本集合;
用M=[M1,M2]表示参加训练的正负样本集合,Mi=[xi1,xi2,...,xiL],i∈{1,2}表示第i类样本集合,i=1为正样本,i=2为负样本;xir∈Rd,1≤i≤2,1≤r≤L,xir为一维列向量,由一张声纹语谱图的所有像素点的值形成一个二维矩阵,再将二维矩阵的每一行顺次拼接,得到一维行向量,转置后得到一维列向量xir,xir长度为d,Rd表示d维实数域,L表示同一类样本集合中有L张声纹语谱图,即L个列向量;
现在根据两类样本的特点,训练声纹密钥提取矩阵W1,W1∈Rd×dz,得式⑵:
其中为训练样本的正样本均值,为训练样本的负样本均值;J为代价函数,反映了训练样本经声纹密钥提取矩阵W1投影后与正负样本集合均值之间的距离差,用欧氏距离计算;
令:
求解矩阵(H1-H2)的特征值与特征向量,得到声纹密钥提取矩阵W1,即:(H1-H2)w=λw;w为矩阵(H1-H2)的特征向量,λ为特征值;
由于{w1,w2,...,wdz}为特征向量,分别对应特征值{λ1,λ2,...,λdz},其中λ1≥λ2≥...≥λdz≥0,特征值小于0的特征向量不被纳入矩阵W1的构造;
至此训练出声纹密钥提取矩阵W1;
步骤二、声纹密钥提取,具体步骤为:
第1步,用户录取自身文本相关语音,3秒左右;
第2步,提取声纹语谱图,具体参考步骤一第三步;
第3步,对声纹语谱图进行滤波、归一化预处理,然后将声纹语谱图转为矩阵形式,并按行顺次拼接,得声纹向量xt;
第4步,用步骤一训练的声纹密钥提取矩阵W1,转置后左乘第3步得到的声纹向量xt,即W1T·xt,得dz维声纹特征向量xtz,xtz为稳定后声纹特征向量;
第5步,对xtz的每一维分量进行一次棋盘法运算,进一步稳定声纹特征向量为xtz;
棋盘法运算,步骤如下:
对xtz中的每一个维分量记为xtzi;
量化公式见式⑶:
其中,D为棋盘法的格子大小,取正数,具体值可由用户根据经验选定,一般满足Λ(x)的取值在0~63之间,xtzi为xtz中的每一个分量,Λ(x)为整数值;
Λ(x)即xtzi量化后的值,为棋盘格子中最接近xtzi点与坐标原点的格子的坐标值;
第6步,取第五步计算结果向量的前32或64个分量,前后拼接,以每个分量取值0~64,可形成4比特密钥计算,即可形成128bit或256bit的声纹密钥;完成声纹密钥的提取。
2.如权利要求1所述的一种文本相关的声纹密钥生成方法,其特征在于:第四步所述的归一化处理指语谱图尺寸统一到固定的长宽大小,语谱图每一个像素点的值统一到0-255范围内,能够采用matlab函数库中的imresize函数实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811139547.4/1.html,转载请声明来源钻瓜专利网。