[发明专利]一种语音中检测关键词的方法和装置有效
申请号: | 201310740533.9 | 申请日: | 2013-12-27 |
公开(公告)号: | CN103730115A | 公开(公告)日: | 2014-04-16 |
发明(设计)人: | 李伟浩;苏鹏宇 | 申请(专利权)人: | 北京捷成世纪科技股份有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/183 |
代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙) 11417 | 代理人: | 刘元霞 |
地址: | 100191 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 检测 关键词 方法 装置 | ||
1.一种语音中检测关键词的方法,其特征在于,包括如下步骤:
对输入语音进行声学解码,根据声学编码对应的声学特征确定输入语音对应的候选词序列,并根据候选词序列和对应的回溯路径、匹配得分生成词候选网格;
将所述词候选网格进行拆分,形成以拼音为单位的候选字网格;
将所述候选字网格中的弧进行优化,并聚类为混淆网络;
根据混淆网络的格式,对每个拼音建立逆向索引;
将待检索关键词转换成目标拼音,并通过所述逆向索引定位所述待检索关键词中的每个目标拼音在混淆网络中的位置,根据混淆网络中各目标拼音的时序关系及对应的置信度判断所述待检索关键词是否出现在语音中。
2.根据权利要求1所述的方法,其特征在于:所述根据声学编码对应的声学特征确定输入语音对应的候选词序列时,提取语音信号的线性感知预测参数,通过隐马尔可夫的声学模型及N-gram的语言模型,分别计算各线性感知预测参数在每个模型中的概率得分,利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列。
3.根据权利要求2所述的方法,其特征在于:所述利用维特比解码,搜索最优路径,得到输入语音对应的候选词序列具体为:根据贝叶斯决策准则,所述候选词序列为
其中,所述声学特征的特征矢量为Y=y1,y2,...,yN,P(W)为所述候选词序列中候选词W的先验概率,其值由语言模型决定;P(Y|W)表示候选词W产生特征矢量序列Y的条件概率;P(Y)为所述特征矢量Y的先验概率。
4.根据权利要求1所述的方法,其特征在于:所述候选词网格中包括弧和节点;弧记录了输入语音对应的解码信息,包括词、词的起始时间以及对应的声学、语言学特征得分;节点用于表示输入语音时对应的离散的时刻点,分别记录了前后连接弧的时刻信息。
5.根据权利要求1所述的方法,其特征在于:所述将所述候选字网格中的弧进行优化,并聚类为混淆网络具体为:
在候选字网格上计算各条弧的后验概率,删去后验概率小于既定阈值的弧;
从候选字网格上提取一条从起始节点到终止节点的完整路径,作为网格对齐用的参考路径;
将所述候选字网格中的弧与参考路径作比较,合并具有相同拼音的弧,对不同拼音的弧进行聚类,形成不同拼音对应的相交弧组成混淆网络的元素。
6.根据权利要求5所述的方法,其特征在于:所述合并具有相同拼音的弧时,对在时间上相交的具有相同拼音ID的各条弧进行合并,合并后形成的弧对应的后验概率等于原有各条弧对应的后验概率之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷成世纪科技股份有限公司,未经北京捷成世纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310740533.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐热铝合金
- 下一篇:含钽铸造锌‑铝合金及其制备方法