[发明专利]语音识别方法、装置以及计算机设备在审
申请号: | 201910871726.5 | 申请日: | 2019-09-16 |
公开(公告)号: | CN110556126A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/45;G10L17/04 |
代理公司: | 11015 北京英特普罗知识产权代理有限公司 | 代理人: | 王勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音片 语音识别 加窗 计算机可读存储介质 计算机设备 特征向量 语音片段 语音数据 语音帧 预设 语音识别装置 加窗算法 梅尔频率 阈值时 分帧 声纹 向量 鉴别 | ||
1.一种语音识别方法,其特征在于,所述方法包括步骤:
获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据;
根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧;
提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC;
计算所述MFCC与声纹鉴别向量的距离,其中,所述声纹鉴别向量是预先将所述用户的采样语音信息输入到声纹特征训练模型进行训练得到;
当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。
2.如权利要求1所述的语音识别方法,其特征在于,所述平稳加窗算法为:
其中,T1为加窗语音帧的时长,w(t)表示在语音帧的时长范围内的t时刻的需对t时刻语音信号进行加窗的加权值,K和K′是常数变量,K<K′且K+K′=1,K是根据环境噪声进行设置的。
3.如权利要求2所述的语音识别方法,其特征在于,所述方法还包括:
对每一帧语音数据进行加窗时,获取语音数据中的环境噪声的频率分布信息,再根据噪声的最高频率分布调整所述K。
4.如权利要求1所述的语音识别方法,其特征在于,所述声纹特征训练模型为高斯混合模型GMM,所述方法还包括:
通过将GMM训练出不同用户的声纹鉴别向量与将所述MFCC分别进行距离计算;
选择出小于预设阈值且最小的距离所对应的第一声纹鉴别向量;
将所述第一声纹鉴别向量对应的第一用户作为所述语音片段对应的目标用户。
5.如权利要求1或4所述的语音识别方法,其特征在于,所述距离为余弦距离,所述距离对应的计算公式为:
其中,x代表标准声纹鉴别向量,y代表当前声纹鉴别向量。
6.如权利要求1所述的语音识别方法,其特征在于,在所述对所述语音片段进行分帧之前,所述方法还包括:
对所述语音片段进行预加重处理,补偿语音片段中的高频成分。
7.一种语音识别装置,其特征在于,所述装置包括:
分帧模块,用于获取语音片段,对所述语音片段进行分帧,得到每一帧语音数据;
加窗模块,用于根据预设的平稳加窗算法依次对所述语音片段的每一帧语音数据进行加窗,得到所述语音片段的加窗语音帧;
提取模块,用于提取所述语音片段的加窗语音帧的梅尔频率倒谱特征向量MFCC;
计算模块,用于计算所述MFCC与声纹鉴别向量的距离,其中,所述声纹鉴别向量是预先将所述用户的采样语音信息输入到声纹特征训练模型进行训练得到;
识别模块,用于当所述距离小于预设阈值时,判断所述语音片段的识别结果为通过。
8.如权利要求5所述的语音识别装置,其特征在于,所述平稳加窗算法为:
其中,T1为加窗语音帧的时长,w(t)表示在语音帧的时长范围内的t时刻的需对t时刻语音信号进行加窗的加权值,K和K′是常数变量,K<K′且K+K′=1,K是根据环境噪声进行设置的。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4任一项所述的语音识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-4中任一项所述的语音识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910871726.5/1.html,转载请声明来源钻瓜专利网。