[发明专利]一种文本相关的声纹密钥生成方法有效

申请号：	201811139547.4	申请日：	2018-09-28
公开（公告）号：	CN109326294B	公开（公告）日：	2022-09-20
发明（设计）人：	吴震东	申请（专利权）人：	杭州电子科技大学
主分类号：	G10L17/04	分类号：	G10L17/04;H04L9/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	黄前泽
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种文本相关的声纹密钥生成方法。本发明包括声纹密钥训练和声纹密钥提取；声纹密钥训练通过前期采集的声纹样本训练出声纹密钥提取矩阵。声纹密钥提取将待提取声纹样本经预处理后，乘上声纹密钥训练得到的密钥提取矩阵，得到声纹密钥。本发明利用话者文本相关的语谱图在更充分地表达话者的声音特质的同时，保持前后采样样本具有更稳定的相似性。在此基础上，用机器学习方法从多个语谱图中训练出声纹稳定特征向量提取矩阵，用该矩阵对后续样本进行处理，可提取更稳定的声纹密钥。方法具有稳定性好、简洁、方便使用的特点。
搜索关键词：	一种文本相关声纹密钥生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文本相关的声纹密钥生成方法，其特征在于：包括声纹密钥训练和声纹密钥提取；声纹密钥训练通过前期采集的声纹样本训练出声纹密钥提取矩阵；声纹密钥提取将待提取声纹样本经预处理后，乘上声纹密钥训练得到的密钥提取矩阵，得到声纹密钥；具体步骤如下：步骤一、声纹密钥训练，具体步骤为：第一步，用户对同一个文本信息,一般为1‑3个连续的单词，录取自身语音，重复20次以上，次数由用户根据训练情况调整；第二步，录取10个以上不同用户读取相同文本信息的语音，各重复20次以上；录取10个以上不同用户读取不同文本信息、持续时间相近的语音，各重复20次以上；第三步，对第一、二步录取语音进行预处理，提取声纹语谱图具体过程为：1)预增强：以S1(n)表示语音时域信号，其中n＝0、1、2…、N‑1，预增强公式为：S(n)＝S1(n)–a*S1(n‑1)，0.9a＝0.46，a的取值区间为0.3～0.7之间，具体数值根据实验和经验数据确定；w(n)为汉明窗函数，具有较平滑的低通特性，能够较好的反映短时语音信号的频率特性；4)快速傅立叶转换FFT：对乘上汉明窗后的语音时域信号S’(n)实施基2FFT变换，得到线性频谱X(n，k)，基2FFT变换为本领域内通用算法；X(n，k)为第n段语音帧的频谱能量密度函数，k对应频谱段，每一段语音帧对应了时间轴上的一个时间片；5)生成文本相关声纹语谱图：用时间n作为时间轴坐标,k作为频谱轴坐标,将|X(n,k)|2的值表示为灰度级，显示在相应的坐标点位置上，即构成了声纹语谱图；通过变换10log10(|X(n,k)|2)得到语谱图的dB表示；第四步，对声纹语谱图进行滤波、归一化等预处理，具体滤波方式有高斯、小波、二值化等信号处理领域通用滤波方式，具体采用哪种方式，或几种方式的组合，由用户根据实际测试情况选择；第五步，对声纹语谱图进行机器学习，得声纹稳定特征学习矩阵，即声纹密钥提取矩阵；第四步得到的声纹语谱图分成两大类，一类为用户本人的相关文本声纹语谱图，另一类为非用户本人的相关文本与非相关文本混合的对比声纹语谱图，称为正负样本集合；用M＝[M1,M2]表示参加训练的正负样本集合，Mi＝[xi1,xi2,...,xiL],i∈{1,2}表示第i类样本集合，i＝1为正样本，i＝2为负样本；xir∈Rd,1≤i≤2,1≤r≤L，xir为一维列向量，由一张声纹语谱图的所有像素点的值形成一个二维矩阵，再将二维矩阵的每一行顺次拼接，得到一维行向量，转置后得到一维列向量xir，xir长度为d，Rd表示d维实数域，L表示同一类样本集合中有L张声纹语谱图，即L个列向量；现在根据两类样本的特点，训练声纹密钥提取矩阵W1，W1∈Rd×dz，得式⑵：其中为训练样本的正样本均值，为训练样本的负样本均值；J为代价函数，反映了训练样本经声纹密钥提取矩阵W₁投影后与正负样本集合均值之间的距离差，用欧氏距离计算；令：求解矩阵(H1‑H2)的特征值与特征向量，得到声纹密钥提取矩阵W1，即：(H1‑H2)w＝λw；w为矩阵(H1‑H2)的特征向量，λ为特征值；由于{w1,w2,...,wdz}为特征向量，分别对应特征值{λ1,λ2,...,λdz}，其中λ1≥λ2≥...≥λdz≥0，特征值小于0的特征向量不被纳入矩阵W1的构造；至此训练出声纹密钥提取矩阵W1；步骤二、声纹密钥提取，具体步骤为：第1步，用户录取自身文本相关语音，3秒左右；第2步，提取声纹语谱图，具体参考步骤一第三步；第3步，对声纹语谱图进行滤波、归一化等预处理，然后将声纹语谱图转为矩阵形式，并按行顺次拼接，得声纹向量xt；第4步，用步骤一训练的声纹稳定特征学习矩阵W1，转置后左乘第3步得到的声纹向量xt，即W1T·xt，得dz维声纹特征向量xtz，xtz为稳定后声纹特征向量；第5步，对x_tz的每一维分量进行一次棋盘法运算，进一步稳定声纹特征向量为棋盘法运算，步骤如下：对xtz中的每一个维分量记为xtzi；量化公式见式⑶：其中，D为棋盘法的格子大小，取正数，具体值可由用户根据经验选定，一般满足Λ(x)的取值在0～63之间，xtzi为xtz中的每一个分量，Λ(x)为整数值；Λ(x)即xtzi量化后的值，为棋盘格子中最接近xtzi点与坐标原点的格子的坐标值；第6步，取第五步计算结果向量的前32或64个分量，前后拼接，以每个分量取值0～64，可形成4比特密钥计算，即可形成128bit或256bit的声纹密钥；完成声纹密钥的提取。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811139547.4/，转载请声明来源钻瓜专利网。

上一篇：一种音频识别结果的生成方法及装置
下一篇：解码具有增强的频谱带复制元数据的音频位流

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本相关的声纹密钥生成方法有效

专利文献下载