[发明专利]一种文本相关的声纹密钥生成方法有效

申请号：	201811139547.4	申请日：	2018-09-28
公开（公告）号：	CN109326294B	公开（公告）日：	2022-09-20
发明（设计）人：	吴震东	申请（专利权）人：	杭州电子科技大学
主分类号：	G10L17/04	分类号：	G10L17/04;H04L9/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	黄前泽
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本相关声纹密钥生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本相关的声纹密钥生成方法，其特征在于：包括声纹密钥训练和声纹密钥提取；声纹密钥训练通过前期采集的声纹样本训练出声纹密钥提取矩阵；声纹密钥提取将待提取声纹样本经预处理后，乘上声纹密钥训练得到的密钥提取矩阵，得到声纹密钥；具体步骤如下：

步骤一、声纹密钥训练，具体步骤为：

第一步，用户对同一个文本信息,一般为1-3个连续的单词，录取自身语音，重复20次以上，次数由用户根据训练情况调整；

第二步，录取10个以上不同用户读取相同文本信息的语音，各重复20次以上；录取10个以上不同用户读取不同文本信息、持续时间相近的语音，各重复20次以上；

第三步，对第一、二步录取语音进行预处理，提取声纹语谱图具体过程为：

1)预增强：

以S1(n)表示语音时域信号，其中n＝0、1、2…、N-1，预增强公式为：S(n)＝S1(n)–a*S1(n-1)，0.9＜a＜1.0；a为欲加重系数，用以调整欲增强幅度；

2)音框化,即对语音信号分帧；

3)汉明窗处理：

音框化后的语音时域信号为S(n)，n＝0、1、2…、N-1，表示分为了n段语音信号；那么乘上汉明窗后的语音时域信号为S’(n)，见式⑴：

S’(n)＝S(n)*W(n) ⑴；

得：a＝0.46，a的取值区间为0.3～0.7之间，具体数值根据实验和经验数据确定；w(n)为汉明窗函数，具有较平滑的低通特性，能够较好的反映短时语音信号的频率特性；

4)快速傅立叶转换FFT：

对乘上汉明窗后的语音时域信号S’(n)实施基2FFT变换，得到线性频谱X(n，k)，基2FFT变换为本领域内通用算法；X(n，k)为第n段语音帧的频谱能量密度函数，k对应频谱段，每一段语音帧对应了时间轴上的一个时间片；

5)生成文本相关声纹语谱图：

用时间n作为时间轴坐标,k作为频谱轴坐标,将|X(n,k)|²的值表示为灰度级，显示在相应的坐标点位置上，即构成了声纹语谱图；通过变换10log₁₀(|X(n,k)|²)得到语谱图的dB表示；

第四步，对声纹语谱图进行滤波、归一化预处理，具体滤波方式有高斯、小波、二值化滤波，用户根据实际测试情况任意选择一种或多种方式进行滤波；

第五步，对声纹语谱图进行机器学习，得声纹稳定特征学习矩阵，即声纹密钥提取矩阵；

第四步得到的声纹语谱图分成两大类，一类为用户本人的相关文本声纹语谱图，另一类为非用户本人的相关文本与非相关文本混合的对比声纹语谱图，称为正负样本集合；

用M＝[M₁,M₂]表示参加训练的正负样本集合，M_i＝[x_i1,x_i2,...,x_iL],i∈{1,2}表示第i类样本集合，i＝1为正样本，i＝2为负样本；x_ir∈R^d,1≤i≤2,1≤r≤L，x_ir为一维列向量，由一张声纹语谱图的所有像素点的值形成一个二维矩阵，再将二维矩阵的每一行顺次拼接，得到一维行向量，转置后得到一维列向量x_ir，x_ir长度为d，R^d表示d维实数域，L表示同一类样本集合中有L张声纹语谱图，即L个列向量；