[发明专利]基于卷积神经网络的语音特征匹配方法在审

申请号：	201910638624.9	申请日：	2019-07-16
公开（公告）号：	CN110379419A	公开（公告）日：	2019-10-25
发明（设计）人：	李剑峰	申请（专利权）人：	湖南检信智能科技有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/02;G10L15/26
代理公司：	北京联瑞联丰知识产权代理事务所(普通合伙) 11411	代理人：	黄冠华
地址：	410007 湖南省长沙市雨花区环***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音记录文件语音特征匹配卷积神经网络特征向量图像片段语音查询预处理时间顺序排列语音识别系统傅里叶变换频谱信号特征序列音频信号音频样本语音识别健壮性梅尔谱准确率池化时域切割查找转换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于卷积神经网络的语音特征匹配方法，包括：S1，预处理，提取音频信号的梅尔谱图，在时域上切割成图像片段，对图像片段做傅里叶变换得到频谱信号；并提取出特征向量；S2，将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件，并将语音记录文件转换成二值特征序列；S3，语音特征匹配，利用语音查询文件与语音记录文件进行比较，查找出与语音查询文件具有相同内容的语音记录文件。本发明提高了语音识别的准确率，降低了语音识别系统的复杂性，增强了软件健壮性。

技术领域

本发明涉及语音识别技术领域，更为具体地，涉及一种基于卷积神经网络的语音特征匹配方法。

背景技术

语音是人们之间交流的重要工具，例如语音电话、语音聊天和语音功能提示等，随着信息化时代的深入发展，近年来语音交互技术受到了广泛的关注。

在现有语音处理技术中，例如公开号为CN103236260B的中国专利公开了一种语音识别系统，包括：存储单元，用于存储至少一个用户的语音模型；语音采集及预处理单元，用于采集待识别语音信号，对待识别语音信号进行格式转换及编码；特征提取单元，用于从编码后的待识别语音信号中提取语音特征参数；模式匹配单元，用于将所提取的语音特征参数与至少一个语音模型进行匹配，确定待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性，并使用MFCC参数，建立说话人的语音特征模型，实现说话人的特征识别算法，能够达到提高说话人检测可靠性的目的，使得最终能够在电子产品上实现说话人识别的功能。但是，存在语音识别的准确率较低，语音识别系统的较为复杂，软件运行健壮性较差等问题。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种基于卷积神经网络的语音特征匹配方法，提高了语音识别的准确率，降低了语音识别系统的复杂性，增强了软件健壮性。

本发明的目的是通过以下技术方案来实现的：

一种基于卷积神经网络的语音特征匹配方法，包括：

S1，预处理，提取音频信号的梅尔谱图，在时域上切割成图像片段，对所述图像片段做傅里叶变换得到频谱信号；并提取出特征向量；

S2，将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件，并将语音记录文件转换成二值特征序列；

S3，语音特征匹配，利用语音查询文件与所述语音记录文件进行比较，查找出与语音查询文件具有相同内容的语音记录文件；

S4，对匹配的语音记录文件进行分类处理后，解码转换为文本信息，并匹配识别相应的情感分类模板，在完成情感匹配识别后，通过输出设备输出匹配结果内容。

进一步的，在步骤S1中，采用PCA白化降低频谱的维度。

进一步的，在步骤S2中，包括如下步骤：

S21，将同一个音频样本的所有特征向量按时间顺序排列；

S22，将排列好的特征向量分成多等份，对每一等份进行池化，然后将所有向量拼起来；