[发明专利]基于分位数自适应裁剪的快速关键词检出方法有效
申请号: | 201110244531.1 | 申请日: | 2011-08-25 |
公开(公告)号: | CN102426836A | 公开(公告)日: | 2012-04-25 |
发明(设计)人: | 韩纪庆;袁浩;李海洋 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/00 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 韩末洙 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 位数 自适应 裁剪 快速 关键词 检出 方法 | ||
技术领域
本发明涉及一种连续语音中关键词的快速检出方法,具体是在Viterbi解码过程中快速自适应裁剪局部路径的方法。
背景技术
语音识别是机器通过识别和理解过程将人类的语音信号转换为相应的文本或命令的技术,根本目的是研究出一种机器,使其具有听觉功能,即以人类的语音作为输入,理解并做出相应的反应。关键词检出是语音识别中一个重要的研究领域,是从连续语音中识别出一组给定词的过程。它是一种非受限的语音信号处理系统,允许用户采用自然的说话方式,而不必局限于特定的语法。相比于连续语音识别,关键词检出具有检出率高、实用性强、时间耗费少等优点,具有广阔的应用前景。虽然关键词检出技术有这些优点,且近年来取得了长足的进步,但是其检出效率仍不够高。一般的关键词检出系统,检出率通常能达到90%以上,但是系统效率始终是制约其进一步发展的瓶颈。当前,随着网络的普及,网络上传播的音视频信息迅速增加,人们可以方便快速的从中获取海量的音视频数据。但是如何有效地从大量的多媒体数据中挖掘特定的信息成为一个问题。当前基于垃圾模型的关键词检出系统,都是根据Viterbi解码算法在许多隐马尔科夫模型构成的大的模型上解码得到关键词和垃圾模型的序列。解码过程中,某一时刻可能存在大量的局部路径,及早删除不可能的路径,只在那些可能性高的路径上进行搜索,能大幅提高系统的检出效率。但是传统的自适应裁剪方法对局部路径的裁剪不够彻底,每帧裁剪后通常会有一多半的路径会保留下来,而这其中有很多不可能的路径,导致系统效率低下。因此,需要研究自适应的裁剪方法,进一步提高系统的检出速度,改善实时性。
发明内容
本发明的目的是为了解决关键词检出系统解码过程中,自适应裁剪方法不能有效最大程度裁剪局部路径,从而导致系统效率低下的问题,本发明提供了一种基于分位数自适应裁剪的快速关键词检出方法。
本发明的基于分位数自适应裁剪的快速关键词检出方法是通过以下步骤实现:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得每个局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
本发明步骤一中对于一个语音文件,S是有限的。但是如果直接用麦克风输入语音,那么理论上S可以无限大,但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量,可以随着时间向后推移,那么S就逐渐增大。
本发明步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分(即步骤三中得的相应局部路径概率得分)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sα)(1<λ<3);
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110244531.1/2.html,转载请声明来源钻瓜专利网。