[发明专利]语音识别方法、装置、电子设备及可读存储介质有效

申请号：	201810842328.6	申请日：	2018-07-27
公开（公告）号：	CN109147798B	公开（公告）日：	2023-06-09
发明（设计）人：	辛颖	申请（专利权）人：	北京三快在线科技有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/20
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100083 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种语音识别方法、装置、电子设备及可读存储介质，所述方法包括：获取目标人物对应的语音文件按照预设帧长划分的多个语音帧；对于各语音帧，生成所述语音帧的特征向量；对所述各语音帧的特征向量进行聚类，生成特征中心向量；根据参考噪声帧的特征中心向量，从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量，并生成目标语音特征中心向量，所述参考噪声帧为所述多个语音帧中的噪声帧，所述目标语音特征中心向量用于确定所述目标人物的身份信息。解决了现有技术中去噪导致的识别较慢、无法去掉所有噪声导致语音识别准确度较低的问题，能够直接提取特征，并将噪声弱化，提高了识别的速度和准确度。

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备及可读存储介质。

背景技术

随着语音识别技术的迅速发展，语音作为身份识别的有效手段逐渐成熟。

现有技术中，专利申请CN107610707A提出了一种声纹识别方法、装置、电子设备及可读存储介质：首先，通过预处理对语音数据进行去噪，得到有效语音数据；然后，从有效语音数据中提取MFCC(Mel-frequency cepstral coefficients,梅尔频率倒谱系数)声学特征，得到MFCC维度及语音分帧数的特征矩阵；最后，根据特征矩阵从预设特征矩阵集中确定语音数据的说话人。

然而，去噪处理运算复杂度较大，导致语音识别速度较慢，且去噪处理具有针对性，无法保证去掉所有噪声，导致语音识别准确率较低。

发明内容

本发明提供一种语音识别方法、装置、电子设备及可读存储介质，以解决现有技术语音识别的上述问题。

根据本发明的第一方面，提供了一种语音识别方法，所述方法包括：

获取目标人物对应的语音文件按照预设帧长划分的多个语音帧；

对于各语音帧，生成所述语音帧的特征向量；

对所述各语音帧的特征向量进行聚类，生成特征中心向量；

根据参考噪声帧的特征中心向量，从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量，并生成目标语音特征中心向量，所述参考噪声帧为所述多个语音帧中的噪声帧，所述目标语音特征中心向量用于确定所述目标人物的身份信息。

根据本发明的第二方面，提供了一种语音识别装置，所述装置包括：

语音帧划分模块，用于获取目标人物对应的语音文件按照预设帧长划分的多个语音帧；

特征向量生成模块，用于对于各语音帧，生成所述语音帧的特征向量；

特征中心向量生成模块，用于对所述各语音帧的特征向量进行聚类，生成特征中心向量；