[发明专利]基于匹配模型二次识别的语音识别方法及系统在审
申请号: | 201710342320.9 | 申请日: | 2017-05-16 |
公开(公告)号: | CN107146615A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 赵兆;何云亚;许志勇 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/20;G10L15/14;G10L15/08;G10L15/06;G10L25/30;G10L17/26 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 吴茂杰 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 匹配 模型 二次 识别 语音 方法 系统 | ||
技术领域
本发明属于人机语音交互技术领域,特别是一种识别准确度高、用户体验好的基于匹配模型二次识别的语音识别方法及实现该方法的系统。
背景技术
语音识别是理想的人机交互中介工具,是推动机器向更智能化发展的重要技术。能听懂人讲话,可以进行思考和理解人的意图,并最终对人作出语音或者行动上的响应的智能化机器一直是人工智能的终极目标之一。
在大数据的背景下,机器学习逐渐渗透到智能家居、车载语音、身份识别等领域。基于大数据的深度学习研究方法对语音识别系统性能的提升有重要意义。早在几年前就有国外学者提出了关于将深度学习研究方法运用在语音识别上(Geoffrey Hinton,Li Deng,Dong Yu.Deep neural networks for acoustic modeling in speech recognition)。
但是通过调整模型结构以及参数来提升语音识别系统准确率的方法,在实际用户语音噪声背景不匹配时会导致语音识别准确率急剧下降,严重影响人机交互体验。
发明内容
本发明的目的在于提供一种基于匹配模型二次识别的语音识别方法,识别准确度高、用户体验好。
本发明的另一目的在于提供一种基于匹配模型二次识别的语音识别系统,识别准确度高、用户体验好。
实现本发明目的的技术解决方案为:
一种基于匹配模型二次识别的语音识别方法,包括如下步骤:
(10)语音处理:对用户输入的语音进行预处理及特征提取;
(20)语音识别:识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
(30)用户评价:接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;
(40)匹配模型识别:在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。。
实现本发明另一目的的技术解决方案为:
一种基于匹配模型二次识别的语音识别系统,包括:
语音处理单元(1),用于对用户输入的语音进行预处理及特征提取;
语音识别单元(2),用于识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
用户评价(3),用于接收用户对第一次识别结果的反馈信息;
匹配模型识别单元(4),用于根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。
本发明与现有技术相比,其显著优点为:
1、识别准确度高:本发明的方法基于机器学习,利用针对不同用户的输入语音情况在对应的训练集上建立与之匹配的声学模型,很好的保证了识别系统的准确率;
2、用户体验好:本发明的方法重复利用了用户输入语音,避免了一旦识别出错只能二次输入的情况,极大的提升了用户体验。
下面结合附图和具体实施方式对本发明作进一步的详细描述。
附图说明
图1为本发明基于匹配模型二次识别的语音识别方法的主流程图。
图2是图1中识别解析用户的语音信息步骤的原理框图。
图3是图1中用户性别提取步骤的原理框图。
图4是图1中环境噪声提取步骤的流程图。
具体实施方式
如图1所示,本发明基于匹配模型二次识别的语音识别方法,包括如下步骤:
(10)语音处理:对用户输入的语音进行预处理及特征提取;
现有技术中,常见的语音识别模型建模过程包括以下步骤:
(1)获取足量已经标注好的训练数据,提取每个训练样本的梅尔域倒谱系数(MFCC)作为声学特征;整理训练数据的标注信息提取文本特征矢量
(2)将训练样本的声学特征向量输入到由受限玻尔兹曼机器(RBM)堆叠构成的深度神经网络(DNN)中,采用GMM-HMM基线系统经强制对齐得到神经网络的输出层。将训练样本的网络输出结果与实际标注信息进行对照得到输出层的误差信号,利用误差反向传播(BP)算法来调整网络参数。反复训练,调整参数得到最终的声学模型。
(3)根据样本文本特征矢量,分析得到统计意义上的语言环境中的词序列概率。用三音素的N-gram分析方法训练语言模型,得到样本空间的语言模型。
(4)运用维特比解码算法,把由训练样本空间抽取得到的发音词典,语音模型以及声学模型连成一个网络,通过搜索网络中的最优路径完成待解析的用户输入语音的解码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710342320.9/2.html,转载请声明来源钻瓜专利网。