[发明专利]一种基于人工智能的自动语音识别方法及系统有效
申请号: | 202010019733.5 | 申请日: | 2020-01-09 |
公开(公告)号: | CN110827801B | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 漆伟;马永霄;童永鳌;张瑞冬;殷子凌;张浩 | 申请(专利权)人: | 成都无糖信息技术有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/18;G10L15/22;G10L15/26;G10L25/24 |
代理公司: | 成都为知盾专利代理事务所(特殊普通合伙) 51267 | 代理人: | 李汉强 |
地址: | 610000 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 自动 语音 识别 方法 系统 | ||
1.一种基于人工智能的自动语音识别方法,其特征在于包括以下步骤:
S1、语音预处理:对原始语音序列做预处理,以消除因为人类发声器官本身和由于采集语音信号的设备对语音信号质量产生影响的因素,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量;
S2、语音特征提取:采用梅尔倒谱系数来获取语音的声谱特征图,然后对输入的语音信号进行滤波,将每个输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为下一步的语音输入特征;
S3、语音训练识别:输入提取的语音特征及语音对应文字编码进行学习,先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本;具体操作如下,
S3001.把构建好的频谱特征批量的送入特征学习层第一层卷积层:卷积核尺寸为:41x11x32,步长:2x3,
S3002.把特征学习层第一层卷积层输出特征送入特征学习层第二层卷积层:卷积核尺寸为:21x11x32,步长:2x1,
S3003.到此就进行了特征的学习,接下来是进行特征间的语义信息进行学习,
S3004.把特征学习层的输出,送入到循环神经网络中,神经元设置为1280,然后把该层的输出特征进行归一化处理,
S3005.重复进行第S3004步7次,构建7层的循环神经网络层,每层都加上一层归一化处理,加快模型的收敛,
S3006.最后构建一层全连接层,输出个数为字典映射表的个数及每个汉字的概率,到此网络构建完成,
S3007.构建CTC损失函数,获取标签的长度,标签的信息,网络的输出,语音序列的长度来计算模型训练的损失,后面模型的优化就是根据这个损失进行调优的,
S3008.然后进行语音识别模型训练,具体是首先初始化预先构建的模型;然后初始化一个Adam的优化器,初始化学习率为:0.001,并对学习率进行指数式衰减;再采用一机多卡的训练方式,进行模型迭代;
S4、文本矫正:把语音训练识别输出文本输入到语言模型,将语音训练识别的输出文本通过语言模型来计算一个句子出现的概率,最终选出概率最大的句子,然后输出比较通顺的文字,再采用拼写纠错模型来对错别字和同音字进行纠错改正,最终得到通顺且语义逻辑连贯的文本。
2.根据权利要求1所述的一种基于人工智能的自动语音识别方法,其特征在于:所述语音预处理具体操作是:
对语音进行端点检测,找到语音信号的起始点和结束点;
然后对语音的高频部分进行添加权重,去除口唇辐射的影响,增加语音的高频分辨率,再对语音进行分帧处理;
随后对语音信号进行加窗,对加窗的语音波形加以强调而对波形的其余部分加以减弱,最后达到语音预处理的效果,提高语音质量。
3.根据权利要求1或2所述的一种基于人工智能的自动语音识别方法,其特征在于:语音特征提取过程中还需对语音输入特征进行归一化处理,以语音训练识别过程中加快模型的训练速度和实际场景使用时的预测速度。
4.根据权利要求1所述的一种基于人工智能的自动语音识别方法,其特征在于:语音训练识别中:
所述特征学习层是由两层的二维卷积神经网络组成,学习每个频谱特征,
所述语义学习层是由七层循环神经网络以及每层加上一层批量归一化层组成,用于学习频谱特征间语义信息;
所述输出层输出的文本为字典表中的一个个汉字。
5.根据权利要求1所述的一种基于人工智能的自动语音识别方法,其特征在于:语音训练识别过程中采用的是CTC损失,用于处理在语音特征及语音对应文字编码时序列标注中输入与输出标签的对齐,实现端到端的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都无糖信息技术有限公司,未经成都无糖信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010019733.5/1.html,转载请声明来源钻瓜专利网。