[发明专利]一种基于非确定化词图生成的语音识别方法及其系统有效

申请号：	202011332447.0	申请日：	2020-11-24
公开（公告）号：	CN112509557B	公开（公告）日：	2023-03-31
发明（设计）人：	沈铭章	申请（专利权）人：	杭州一知智能科技有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/26
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	郑海峰
地址：	311200 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于确定化词图生成语音识别方法及其系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于非确定化词图生成的语音识别方法，其特征在于，包括以下步骤：

步骤1：获取待识别的语音信号进行预处理，并提取声学特征；

步骤2：将声学特征作为预训练声学模型的输入，获取声学特征对应的声学概率；

步骤3：通过解码图和声学概率构建解码网络，采用阈值约束法对构建的解码网络大小进行约束；通过解码网络获取到原始词图，所述原始词图由状态节点和从状态节点出发的转移弧边构成；

步骤4：针对原始词图，首先对原始词图做拓扑排序，得到拓扑有序的词图；然后采用动态规划算法，确定拓扑有序的词图中每一个状态节点的最优前驱节点，再从最终状态节点回溯寻找最优代价路径，直至回到初始状态节点处，得到最优代价路径的状态节点序列，将状态节点序列对应的转移弧边上的词序列作为语音识别结果；所述的步骤4具体为：

步骤4.1：针对从解码网络获取到的原始词图，从所述原始词图中获取最优代价路径的词图并做拓扑排序，得到拓扑有序的词图；

步骤4.2：对于拓扑有序的词图中的全部状态节点，记录每一个状态节点的最优前驱节点以及当前状态节点处的最优代价，并且添加一个最终状态节点F作为回溯的起始状态节点，存储全局最优路径的代价G；

步骤4.3：顺序访问词图中的每一个状态节点s，对于从s出发的每一条转移弧边a，计算沿该弧边出发到达目标状态节点d处的代价c，若c值小于当前目标状态节点d处最优代价，则更新状态节点d处的最优代价，并将状态节点d的最优前驱节点设为s；若当前状态节点s处的最终代价小于全局最优路径的代价G，则更新全局最优路径的代价，并将最终状态节点F的最优前驱节点设为s；否则不做更新；

步骤4.4：重复步骤4.3，得到最终更新后的全局最优路径的代价G′，以及更新后的全部状态节点及其最优前驱节点；

步骤4.5：从最终状态F开始回溯，获取每一个状态节点的最优前驱节点，并获取从最优前驱节点出发到达当前状态节点处的转移弧边，得到转移弧边上对应的输出标签，直至回到初始状态节点处，最后将得到完整的输出标签对应的词序列作为语音识别结果。

2.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法，其特征在于，步骤1所述的预处理包括过滤长静音、分帧和加窗。

3.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法，其特征在于，步骤1所述声学特征的提取方法具体为：对预处理后的语音信号做快速傅里叶变换获取其功率谱，然后通过三角带通滤波器组求得梅尔能量，得到语音特征。

4.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法，其特征在于，所述的步骤2将数帧声学特征同时作为预训练声学模型的输入，所述的预训练声学模型选自GMM-HMM、DNN-HMM或者TDNN。

5.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法，其特征在于，通过解码图中的图概率和声学模型计算得到的声学概率构建解码网络，所述的解码图中包括语言模型，通过语言模型获得每个词出现的概率；所述的解码图选用加权有限状态转换机，由一系列状态节点和从状态节点出发的转移弧边构成，所述转移弧边上包含转移概率、发音概率以及语言模型概率信息。

6.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法，其特征在于，步骤3所述的阈值约束法具体为：设计一个容差估计值，超出所述容差估计值的代价路径被剪枝，得到最差代价路径与最优代价路径之间的代价差值处于容差估计值范围内的解码网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司，未经杭州一知智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011332447.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于缓存语言模型的语音识别自适应方法和系统
下一篇：一种电站锅炉炉膛内冷态流场的测量系统及测量方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于非确定化词图生成的语音识别方法及其系统有效

专利文献下载