[发明专利]一种关键词识别方法、装置、设备及可读存储介质有效
申请号: | 202010074563.0 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111276124B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 徐超;宫云梅;浦宏杰;鄢仁祥 | 申请(专利权)人: | 苏州科达科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/18;G10L15/26;G10L25/03 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 田媛媛 |
地址: | 215011 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 识别 方法 装置 设备 可读 存储 介质 | ||
本发明公开了一种关键词识别方法、装置、设备及可读存储介质,该方法包括以下步骤:对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;对缓存的各个语音激活标志进行统计,并利用统计结果确定缓存的各个语音激活标志对应的目标语音信号是否存在语音段;如果是,则对目标语音信号进行关键词识别后,将缓存的语音激活标志清零;如果否,则继续对连续语音信号中的未检测帧信号进行语音激活检测。该方法可减少实施关键词识别的频率,降低对计算力的需求,对资源的占用,进一步地在计算力和资源不足的设备上也可实施关键词识别,以满足语音监听、人机交互和语音库检索等需求。
技术领域
本发明涉及信号处理技术领域,特别是涉及一种关键词识别方法、装置、设备及可读存储介质。
背景技术
关键词识别(Keyword Spotting,KWS)技术是从连续的自然语音数据流中识别出一个或多个指定词的一种技术。关键词识别主要用于语音监听、人机交互和语音库检索等方面。
现阶段深度神经网络在连续语音识别技术领域得以广泛应用并取得了相比于以前更好的识别性能。例如,为了降低漏检率,基于深度神经网络的连续语音识别系统,处理流程:提取一帧信号特征,更新特征矩阵,接着模型推理进行关键字识别,然后对识别结果进行后处理。可以看出,处理流程主要分三部分:特征提取,模型推理及识别结果后处理。
在计算力和资源充足的情况下,这种处理方法能够比较好的完成检测与识别功能,但是在一些计算力和资源有限的设备(如监控前端)上实施关键词检测时,就会遇到资源不足等瓶颈问题,难以进行关键词识别。
综上所述,如何有效地解决对语音进行关键词识别耗费计算力和资源等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
经过统计发现现有的对语音进行关键词识别,其处理流程中模型推理占用总体效率的95%以上,而且因为频繁的推理,也增加了识别结果后处理的负担。而在实际应用中,连续语音信号中并非一直不断地会存在语音,因此没有必要对连续语音信号一直进行关键词识别。基于此,本发明的目的是提供一种关键词识别方法、装置、设备及可读存储介质,可在识别语音中的关键词时,降低对计算力和资源的需求,以便在计算力和资源有限的设备上实施关键词检测。
为解决上述技术问题,本发明提供如下技术方案:
一种关键词识别方法,包括:
对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志;
对缓存的各个所述语音激活标志进行统计,并利用统计结果确定缓存的各个所述语音激活标志对应的目标语音信号是否存在语音段;
如果是,则对所述目标语音信号进行关键词识别后,将缓存的所述语音激活标志清零;
如果否,则继续对所述连续语音信号中的未检测帧信号进行语音激活检测。
优选地,所述对缓存的各个所述语音激活标志进行统计,并利用统计结果确定缓存的各个所述语音激活标志对应的目标语音信号是否存在语音段,包括:
统计缓存的各个所述语音激活标志中连续有语音激活标志的比例或个数;
判断所述比例是否大于语音比例,或判断所述个数是否大于语音个数;
如果是,则确定所述目标语音信号有语音段;
如果否,则确定所述目标语音信号无语音段。
优选地,所述对连续语音信号中的帧信号进行语音激活检测,获得并缓存每一帧信号对应的语音激活标志的步骤,包括:
从缓存读取所述连续语音信号对应的每一帧信号,并对每一帧信号进行语音激活检测,获得每一帧信号对应的所述语音激活标志;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州科达科技股份有限公司,未经苏州科达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010074563.0/2.html,转载请声明来源钻瓜专利网。