[发明专利]误唤醒音频的获取方法和装置在审

申请号：	202010981082.8	申请日：	2020-09-17
公开（公告）号：	CN112114886A	公开（公告）日：	2020-12-22
发明（设计）人：	李旭;杜霜霜	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F9/4401	分类号：	G06F9/4401;G10L15/04;G10L15/22;G10L17/18
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	唤醒音频获取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了误唤醒音频的获取方法和装置，涉及语音识别技术领域。具体实施方式包括：采集播放的音频，作为待处理音频；将待处理音频输入到预设的深度神经网络模型，得到待处理音频的近似唤醒音频片段在待处理音频中的位置，其中，深度神经网络模型用于预测在输入的音频中的、唤醒词音频的近似音频片段的位置；基于近似唤醒音频片段的位置，在待处理音频中确定误唤醒片段，并生成包括误唤醒片段的误唤醒片段集合。本申请可以通过深度神经网络模型，准确地找到音频中误唤醒片段的位置，进而得到准确的误唤醒片段集合。

技术领域

本申请涉及计算机技术领域，具体涉及语音识别技术领域，尤其涉及误唤醒音频的获取方法和装置。

背景技术

智能语音交互产品中误唤醒一直是触发概率低，但一旦触发会引起用户的强烈反感的现象。

电视播放、音乐播放等情况下容易产生误唤醒，而这部分语料的来源多种多样，在测试环境中很难捕捉，即便捕捉到也很难完全复现当时场景，使得智能产品产生错误唤醒。特别是对一些新品设备，其错误唤醒音频更是难以收集。

发明内容

提供了一种误唤醒音频的获取方法、装置、电子设备以及存储介质。

根据第一方面，提供了一种误唤醒音频的获取方法，包括：采集播放的音频，作为待处理音频；将所述待处理音频输入到预设的深度神经网络模型，得到所述待处理音频的近似唤醒音频片段在所述待处理音频中的位置，其中，所述深度神经网络模型用于预测在输入的音频中的、唤醒词音频的近似音频片段的位置；基于所述近似唤醒音频片段的位置，在所述待处理音频中确定误唤醒片段，并生成包括所述误唤醒片段的误唤醒片段集合。

根据第二方面，提供了一种误唤醒音频的获取装置，包括：获取单元，被配置成采集播放的音频，作为待处理音频；预测单元，被配置成将所述待处理音频输入到预设的深度神经网络模型，得到所述待处理音频的近似唤醒音频片段在所述待处理音频中的位置，其中，所述深度神经网络模型用于预测在输入的音频中的、唤醒词音频的近似音频片段的位置；生成单元，被配置成基于所述近似唤醒音频片段的位置，在所述待处理音频中确定误唤醒片段，并生成包括所述误唤醒片段的误唤醒片段集合。

根据第三方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如误唤醒音频的获取方法中任一实施例的方法。

根据第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如误唤醒音频的获取方法中任一实施例的方法。

根据本申请的方案，可以通过深度神经网络模型，准确地找到音频中误唤醒片段的位置，进而得到准确的误唤醒片段集合。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请一些实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的误唤醒音频的获取方法的一个实施例的流程图；

图3是根据本申请的误唤醒音频的获取方法的一个应用场景的示意图；

图4a是根据本申请的误唤醒音频的获取方法的又一个实施例的流程图；

图4b是根据本申请的误唤醒音频的获取方法的又一个应用场景的示意图；

图5是根据本申请的误唤醒音频的获取装置的一个实施例的结构示意图；

图6是用来实现本申请实施例的误唤醒音频的获取方法的电子设备的框图。