[发明专利]一种端到端的语音识别方法在审

申请号：	201910988520.0	申请日：	2019-10-17
公开（公告）号：	CN110751945A	公开（公告）日：	2020-02-04
发明（设计）人：	贾宇;董弋粲;沈宜;卢江波;张明亮	申请（专利权）人：	成都三零凯天通信实业有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16;G10L15/183;G10L15/22;G10L15/26
代理公司：	51218 成都金英专利代理事务所(普通合伙)	代理人：	袁英
地址：	610041 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言模型声学模型拼音符号准确率语音传统算法泛化性能模型文件人机交互文字内容训练语音语音内容语音识别语音数据直接转化端到端构建声光汉字
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种端到端的语音识别方法，包括以下步骤：S1：获取若干的语音数据并得到语谱图，构建声学模型和语言模型；S2：利用所述声光模型，训练语音数据得到包含拼音符号的声学模型文件；S3：利用所述语言模型，训练所述包含拼音符号的模型文件得到包含汉字的语言模型文件；S4：输入待识别的语音，利用声学模型文件和语言模型文件对语音进行识别。可以方便的将语音内容直接转化为文字内容，识别可以到达端到端，且流程相对简单，泛化性能和识别准确率较传统算法有极大的提升，有效的提高了识别的效率和准确率，大大促进了人机交互领域的发展。

技术领域

本发明涉及语音识别、自然语言处理领域，尤其涉及一种端到端的语音识别方法。

背景技术

随着人工智能技术的不断发展，以及一系列新兴技术的不断出现，在语音识别的方法上面，人工智能的技术相比较于传统方法逐渐显露出极大的优势，在语音识别领域取得了较传统算法更好的效果，甚至取得了传统算法无法达到的高度。语音识别长期以来一直是人类难以逾越的一个鸿沟，由于语音环境复杂多变，语音中包含大量噪声，以及涉及到远场语音和近场语音的问题，语音识别一直难以取得较好的效果，在传统的方法中，人类需要对采集到的语音进行大量的人工处理，比如去噪、语音增强等等一系列操作，随后还要对语音进行特征的提取，构造一个巨大的语音内容词典，然后使用人工精心设计的分类和预测算法对语音内容进行推断和预测，这类算法往往都是浅层的分类器，所以大多数都很难达到预期的效果。

发明内容

本发明的目的在于提出一种端到端的语音识别方法，提出了一种基于现代深度学习技术的语音识别方法，可以方便的将语音内容直接转化为文字内容，识别可以到达端到端，且流程相对简单，泛化性能和识别准确率较传统算法有极大的提升，有效的提高了识别的效率和准确率，大大促进了人机交互领域的发展。

进一步地，包括以下步骤：

S1：获取若干的语音数据并得到语谱图，构建声学模型和语言模型；

S2：利用所述声光模型，训练语音数据得到包含拼音符号的声学模型文件；

S3：利用所述语言模型，训练所述包含拼音符号的声学模型文件得到包含汉字的语言模型文件；

S4：输入待识别的语音，利用声学模型文件和语言模型文件对语音进行识别。

进一步地，所述步骤S1：包括如下步骤：

S11：提取语音数据的时域特征、进行语音数据的分帧与加窗和进行傅里叶变换得到语谱图；

S12：采用深度卷积神经网络和CTC算法构建声学模型，采用Transformer构建语言模型。

进一步地，所述S2包括如下步骤：

S21：获取带有标签的语音数据；