[发明专利]一种基于非确定化词图生成的语音识别方法及其系统有效
申请号: | 202011332447.0 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112509557B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 沈铭章 | 申请(专利权)人: | 杭州一知智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 311200 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 确定 化词图 生成 语音 识别 方法 及其 系统 | ||
1.一种基于非确定化词图生成的语音识别方法,其特征在于,包括以下步骤:
步骤1:获取待识别的语音信号进行预处理,并提取声学特征;
步骤2:将声学特征作为预训练声学模型的输入,获取声学特征对应的声学概率;
步骤3:通过解码图和声学概率构建解码网络,采用阈值约束法对构建的解码网络大小进行约束;通过解码网络获取到原始词图,所述原始词图由状态节点和从状态节点出发的转移弧边构成;
步骤4:针对原始词图,首先对原始词图做拓扑排序,得到拓扑有序的词图;然后采用动态规划算法,确定拓扑有序的词图中每一个状态节点的最优前驱节点,再从最终状态节点回溯寻找最优代价路径,直至回到初始状态节点处,得到最优代价路径的状态节点序列,将状态节点序列对应的转移弧边上的词序列作为语音识别结果;所述的步骤4具体为:
步骤4.1:针对从解码网络获取到的原始词图,从所述原始词图中获取最优代价路径的词图并做拓扑排序,得到拓扑有序的词图;
步骤4.2:对于拓扑有序的词图中的全部状态节点,记录每一个状态节点的最优前驱节点以及当前状态节点处的最优代价,并且添加一个最终状态节点F作为回溯的起始状态节点,存储全局最优路径的代价G;
步骤4.3:顺序访问词图中的每一个状态节点s,对于从s出发的每一条转移弧边a,计算沿该弧边出发到达目标状态节点d处的代价c,若c值小于当前目标状态节点d处最优代价,则更新状态节点d处的最优代价,并将状态节点d的最优前驱节点设为s;若当前状态节点s处的最终代价小于全局最优路径的代价G,则更新全局最优路径的代价,并将最终状态节点F的最优前驱节点设为s;否则不做更新;
步骤4.4:重复步骤4.3,得到最终更新后的全局最优路径的代价G′,以及更新后的全部状态节点及其最优前驱节点;
步骤4.5:从最终状态F开始回溯,获取每一个状态节点的最优前驱节点,并获取从最优前驱节点出发到达当前状态节点处的转移弧边,得到转移弧边上对应的输出标签,直至回到初始状态节点处,最后将得到完整的输出标签对应的词序列作为语音识别结果。
2.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,步骤1所述的预处理包括过滤长静音、分帧和加窗。
3.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,步骤1所述声学特征的提取方法具体为:对预处理后的语音信号做快速傅里叶变换获取其功率谱,然后通过三角带通滤波器组求得梅尔能量,得到语音特征。
4.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,所述的步骤2将数帧声学特征同时作为预训练声学模型的输入,所述的预训练声学模型选自GMM-HMM、DNN-HMM或者TDNN。
5.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,通过解码图中的图概率和声学模型计算得到的声学概率构建解码网络,所述的解码图中包括语言模型,通过语言模型获得每个词出现的概率;所述的解码图选用加权有限状态转换机,由一系列状态节点和从状态节点出发的转移弧边构成,所述转移弧边上包含转移概率、发音概率以及语言模型概率信息。
6.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,步骤3所述的阈值约束法具体为:设计一个容差估计值,超出所述容差估计值的代价路径被剪枝,得到最差代价路径与最优代价路径之间的代价差值处于容差估计值范围内的解码网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011332447.0/1.html,转载请声明来源钻瓜专利网。