[发明专利]一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现在审

专利信息
申请号: 202011323748.7 申请日: 2020-11-23
公开(公告)号: CN114530141A 公开(公告)日: 2022-05-24
发明(设计)人: 陆峰;薛玉敏 申请(专利权)人: 北京航空航天大学
主分类号: G10L15/00 分类号: G10L15/00;G10L15/02;G10L15/08;G10L15/14;G10L15/183;G10L19/00;G10L25/24
代理公司: 北京唯智勤实知识产权代理事务所(普通合伙) 11557 代理人: 陈佳
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 特定 场景 中英文 混合 离线 语音 关键词 识别 方法 及其 系统 实现
【说明书】:

本公开的实施例公开了一种中英文混合的离线语音关键词识别方法及其系统。该方法的一具体实施方式包括:获取语音数字信号,对其进行语音活动检测,得到待识别语音段;定义自适应关键词匹配窗口,分割待识别语音段;对语音段进行特征提取,得到梅尔频率倒谱系数嵌入特征向量;分析自定义关键词列表,结合预先训练的音素补白模型,得到中文解码网络空间和英文解码网络空间;将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中,得到识别结果;对识别结果后处理,生成目标识别结果。该实施方式的计算量低,可以离线识别,识别准确率高,响应速度快,支持中英文混合识别,能够灵活的更换关键词列表从而适应不同场景下的应用。

技术领域

本公开的实施例涉及语音识别技术领域,具体涉及中英文混合的离线语音关键词识别方法及其系统。

背景技术

语音关键词识别技术是自动语音识别领域的一个研究分支,自动语音识别技术需要对采集到的连续语音流进行完整的解码转换,对硬件计算能力要求更高,常常采用数据上传云端计算的在线识别方式,在网络离线时识别效果急剧下降,在线识别也存在着数据上传云端时的隐私泄露风险。语音关键词识别只关注关键词部分,对硬件依赖较低,可以在本地完成解码计算,从而实现离线识别,在军事领域、空中交通管制领域、语音监听领域等特定场景有着广阔的应用前景。

语音关键词识别最早开始于20世纪70年代,经过多年的技术发展与积累,语音关键词识别算法,大致可以分为两类。一类是基于音素补白模型的语音关键词识别,该种方法将待识别语音看作是由关键词和非关键词两部分组成,另一类是基于模板匹配的语音关键词识别,该种方法将待识别语音直接与关键词模板语音进行对比,计算距离差异。

对于基于音素补白模型的语音关键词识别方法,有基于隐马尔可夫模型和基于神经网络两种实现方案。基于隐马尔可夫模型的音素补白模型对关键词和非关键词都建立HMM(Hidden Markov Model,隐马尔可夫模型),HMM能够比较好的描述语音信号特征状态的统计分布概率,但是这种实现方法存在识别准确率低,响应时间慢等缺点,需要进一步优化。基于神经网络的音素补白模型则将关键词识别看作是关键词和非关键词的分类问题,该种方案需要大量语料进行神经网络训练,更换关键词时,需要重新收集训练数据,重新训练网络参数,因此该种方案在实际应用中较为受限。

对于基于模板匹配的语音关键词识别方法,也有基于DTW(Dynamic TimeWarping,动态时间规整)和基于嵌入学习两种实现方案。基于DTW的关键词识别,是语音关键词识别早期使用的一种方法,核心思想就是动态规划进行序列对齐,然后计算序列之间的距离,这种方式实现比较简单,但是主要用于孤立词识别。基于嵌入学习的语音关键词识别则是通过训练一个神经网络特征提取器(例如:LSTM特征提取器),将待识别语音和关键词模板语音经过特征提取器转换为长度相同的特征向量,然后计算向量距离,这种实现方法在单个关键词识别时,具有很高的识别准确率,因此在智能设备唤醒领域具有广泛应用,但是随着待识别的关键词数目增多,识别准确率会急剧下降,虽然仅需要收集少量关键词模板语料即可实现更换待识别关键词,但是这种方式又带来非特定人识别效果较差的问题。

发明内容

本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

针对上述语音关键词识别存在的问题,本公开的一些实施例提出了中英文混合的离线语音关键词识别方法及其系统实现,并提出以上下文相关音素为隐马尔可夫模型声学模型基本建模单元,采用在线式废料模型匹配连续语音中的非关键词部分,通过上述这些方法使得关键词识别能够很方便地根据特定场景更换关键词列表,并且不会对识别准确率产生太大的影响,更换关键词列表也不需要重新训练废料模型,本公开的一些实施例还提出简化语音活动检测和优化路径解码等策略提升系统识别准确率和响应速度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011323748.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top