[发明专利]一种基于AC自动机热词增强的语音识别方法和系统在审

专利信息
申请号: 202210103668.3 申请日: 2022-01-28
公开(公告)号: CN114187902A 公开(公告)日: 2022-03-15
发明(设计)人: 李立峰 申请(专利权)人: 杭州一知智能科技有限公司
主分类号: G10L15/06 分类号: G10L15/06;G10L15/08;G10L15/183;G06F40/279;G06F40/242;G06F16/33
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 郑海峰
地址: 311200 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ac 自动机 增强 语音 识别 方法 系统
【权利要求书】:

1.一种基于AC自动机热词增强的语音识别方法,其特征在于,包括以下步骤:

步骤1:分别构建以字和词为单元的语言模型,将待识别语音作为语音识别系统的输入,由语言模型生成解码图;

步骤2:获取热词表,以语言模型中的字和词作为字典,对热词表中的每一个热词进行分词,构建基于热词的AC自动机;

步骤3:在语音识别的解码路径搜索过程中建立令牌结构体,用于存储解码图上的当前解码路径的所有结点指针和总代价、AC自动机上的当前匹配路径的结点指针和该结点的缩小代价值;令牌结构体随着解码图中当前时刻解码的结点进行传递;

将解码图中当前结点输出的识别结果与基于热词的AC自动机动态匹配,若匹配成功,则对解码图中当前解码路径的总代价进行更新,使更新后的总代价降低;若匹配失败,则解码图中当前解码路径的总代价不变;

解码图中的不同解码路径形成竞争机制,最终代价最小的路径为目标路径,输出语音识别结果。

2.根据权利要求1所述的基于AC自动机热词增强的语音识别方法,其特征在于,所述的AC自动机构建方法为:

步骤2.1:以语言模型中的字和词作为字典,对热词表中的每一个热词进行分词处理,在分词过程中,首先以词为单位进行分词,若无法以词为单位,则再以字为单位进行分词;标记分词处理后的每一个词或者字在对应热词中的位置;

步骤2.2:根据分词结果,将处于第j个位置的词或者字作为AC自动机的第j层的一个结点,若字典中存在完整的热词,则将该热词作为第一层的一个结点;将第j层结点的next指针连接第j+1层结点,有共同前缀的词对应的结点共用一个父结点,且第一层的所有结点连接根结点;遍历热词表中的所有热词;

步骤2.3:若存在相同的分词,则将最长分词后缀的结点的fail指针指向其余最长分词后缀的结点,得到构建好的AC自动机。

3.根据权利要求2所述的基于AC自动机热词增强的语音识别方法,其特征在于,所述的AC自动机中每一个结点对应一个预设的(0-1]之间的代价比例。

4.根据权利要求1所述的基于AC自动机热词增强的语音识别方法,其特征在于,解码图中的每一个结点有若干输出边,每一条边对应一种识别结果,在所述的动态匹配过程中,需要将解码图中当前结点的每一条输出边对应的识别结果分别与基于热词的AC自动机动态匹配,所述的动态匹配具体为:

首先,判断解码图当前结点的令牌结构体中是否存在AC自动机结点指针;

第一种情况,存在AC自动机结点指针,记为结点a,则将解码图当前结点的所有输出边与AC自动机结点a的next指针所指结点进行匹配;

第二种情况,不存在AC自动机结点指针,则将解码图当前结点的所有输出边与AC自动机第一层结点进行匹配;

之后,判断匹配结果;

若第一种情况或者第二种情况下匹配成功,则计算AC自动机上的当前匹配路径的结点所对应的缩小代价值;将AC自动机中匹配的结点指针和缩小代价存储到解码图当前结点的令牌结构体中,并对输出边对应的当前解码路径的总代价进行更新;若匹配结果为热词的结尾,则清空令牌结构体中存储的AC自动机中匹配结点对应的历史缩小代价;若匹配结果不是热词的结尾,则将令牌结构体传递至解码图中待匹配的下一结点;

若第一种情况下匹配失败,则从AC自动机结点a的fail指针所指结点的下一层结点进行匹配,恢复部分历史缩小代价,作为第一种情况判断匹配结果;若AC自动机结点a不存在fail指针,则与AC自动机第一层结点进行匹配,作为第二种情况判断匹配结果;

若第二种情况下匹配失败,说明AC自动机中不存在与当前结点输出边的识别结果相匹配的热词,解码图中当前解码路径的总代价不变,将当前令牌结构体传递至解码图中待匹配的下一结点。

5.根据权利要求4所述的基于AC自动机热词增强的语音识别方法,其特征在于,在动态匹配过程中建立缓存机制,所述的缓存机制用于存储解码图当前结点对应的输出边已匹配过的AC自动机结点指针;

在对解码图当前结点的输出边执行动态匹配之前,首先判断缓存中是否存在已匹配过的AC自动机结点指针,若存在,则直接获取已匹配的结果,若不存在,则自动搜索AC自动机。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210103668.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top