[发明专利]一种语音指令范围动态变化的连续语音识别方法无效
申请号: | 201210483176.8 | 申请日: | 2012-11-24 |
公开(公告)号: | CN102945673A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 赵乾;朱群;吴玲;潘颂声;何春江;王兵 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L19/008 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 指令 范围 动态 变化 连续 识别 方法 | ||
1.一种语音指令范围动态变化的连续语音识别方法,其特征在于实现步骤如下:
(1)输入初始语音指令集文本,并进行文本处理;所述语音指令集文本可根据应用需要分为一组或多组,不同组指令集可具有不同的生命周期;
(2)根据步骤(1)中输出的文本,为每组语音指令集分别搭建解码网络,并将解码网络、声学模型传给各自的解码器;所述声学模型是语音识别的基础数学模型,模型单元是音素、音节或字;
(3)实时接收语音数据片段,并提取声学特征序列传给每个解码器并进行解码。所述声学特征是描述短时语音本质特征的一组值;
(4)在解码的过程中允许外部应用系统根据运行逻辑的需要动态地增、删语音指令集,并根据语音指令集的动态变化实时更新解码网络。所述根据语音指令集的动态变化实时更新解码网络的过程具体如下:
(41)接受外部应用系统语音指令集调整请求;
(42)若需要增加新的语音指令集,则对新语音指令集进行文本处理,依据文本构建相应的解码网络,并开始进行解码;若需要删除某些语音指令集,则停止该语音指令集对应解码器的所有运算,并删除对应的解码网络;
(5)当某个解码器率先解码至网络的结束位置时,获取所有解码器的最优结果,并进行排序,取概率最大的结果作为最优结果,并判断此时结果是否可信,若可信则终止所有解码器的运算,转入第(6)步,否则转入第(3)步继续解码;
(6)外部应用系统依据第(5)步的判断结果做出相应的操作。
2.根据权利要求1所述的一种语音指令范围动态变化的连续语音识别方法,其特征在于:步骤(2)中所述的解码网络是命令词解码网络或lvcsr解码网络。
3.根据权利要求1所述的一种语音指令范围动态变化的连续语音识别方法,其特征在于:所述步骤(3)中声学特征为梅尔倒谱系数MFCC、倒谱系数CEP、线性预测系数LPC或感知线性预测系数PLP。
4.根据权利要求1所述的一种语音指令范围动态变化的连续语音识别方法,其特征在于:所述步骤(5)中判断可信结果的过程如下:
(51)当某个解码器率先解码至网络的结束位置时,获取所有解码器的最优结果;
(52)根据概率对所有解码结果进行排序;
(53)取排序后概率最大的结果作为最优结果;
(54)计算该结果的置信度得分,并与阈值进行比较;
(55)若大于阈值时,则认为该结果可信,反之,认为不可信。
5.根据权利要求1所述的一种语音指令范围动态变化的连续语音识别方法,其特征在于:在步骤(5)中所述的对解码结果进行可信度判断时,为了保证判断的准确性,可以参照vad(Voice Activation Detection)的检测结果,即确认解码结束位置是否处于vad结果中的静音段,若是则认为本次识别结果是可信的,否则认为不可信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210483176.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种静力压桩机四抓夹持器的压力调节系统
- 下一篇:用于高空升降装置的支架结构