[发明专利]一种语音识别解码的方法及装置有效
申请号: | 202110594164.1 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113436619B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 程高峰;李鹏;缪浩然;石瑾;张鹏远;孙晓晨;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08;G10L19/18;G10L25/18;G10L25/24;G10L25/27;G10L25/30;G10L25/45;G10L25/54;H04L9/32;G10L15/14 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 解码 方法 装置 | ||
本发明提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别系统,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别系统,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别系统。
技术领域
本申请涉及人工智能领域,更具体的,涉及一种语音识别解码的方法及装置。
背景技术
语言交流是人类最自然的交流方式之一,人类对于计算机语音的研究涵盖了语音编解码、语音识别、语音合成、说话人识别、激活词、语音增强等。在这些领域当中语音识别是当下最热门的研究。早在计算机发明之前,自动语音识别就已经提上了议程,早期的声码器可以认为是语音识别及合成的雏形。经过几十年的研究,语音识别技术已经渗透到我们生活的方方面面,应用范围涵盖了智能家居、智能音箱、车载交互、国家安全等领域。
传统的语音识别系统基于经典的信源信道模型(Source-ChannelModel),由声学模型、发音词典和语言模型组成,分别对音素、词语和语句建模。解码时采用加权有限状态机整合声学模型、发音词典和语音模型中的概率分布,在网络中搜索出一段语音信号对应的最大概率的文字内容。传统的语音识别系统在百千小时的训练数据上可以取得较高的准确率,已经得到工业界的广泛应用。但是随着训练数据的规模增长至千万小时,传统的语音识别系统的性能已经达到瓶颈。
近年来,基于深度神经网络的序列到序列模型在语音和自然语言处理领域迅速发展,基于编码器和解码器的端到端语音识别框架因此被提出并已被广泛验证。研究报告显示,基于端到端的语音识别系统在千万小时的训练数据上,性能可以超过传统的混合深度神经网络(Deep Neural Networks,DNN)和隐马尔可夫模型(Hidden Markov Model,HMM)。因为端到端语音识别系统省略了语音识别系统帧级别对齐的流程以及发音字典,简化了训练和解码的流程。但是基于编码器和解码器的端到端语音识别系统有以下两个缺点,其一是解码使用的束搜索算法基于自回归结构的神经网络,与传统语音识别解码相比速度下降明显;其二是训练使用的文本语料局限于有标注的音频,无法直接使用额外的文本语料,跨领域识别性能明显下降。
发明内容
为了解决以上问题,本申请提出一种语音识别解码方法及装置。
第一方面,本发明提供一种语音识别解码的方法,包括:
确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
优选地,根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,建立第二加权有限状态转移器;
根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型建立第三加权有限状态转移器;
对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获得所述第一加权有限状态转移器。
优选地,所述根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594164.1/2.html,转载请声明来源钻瓜专利网。