[发明专利]音频处理方法及装置在审
申请号: | 201980033584.3 | 申请日: | 2019-07-31 |
公开(公告)号: | CN112189232A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 吴俊峰;周事成 | 申请(专利权)人: | 深圳市大疆创新科技有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/84 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 518057 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 | ||
1.一种音频处理方法,其特征在于,包括:
基于语音活性检测方法从音频信号中截取音频片段;
采用滑动窗口方法对所述音频片段进行目标处理,得到所述音频片段的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述采用滑动窗口方法对所述音频片段进行目标处理之前,还包括:
以所述音频片段为处理单元,对所述音频片段进行所述目标处理,得到所述音频片段的处理结果;
判断所述音频片段的处理结果是否满足结果条件;
若所述音频片段的处理结果不满足所述结果条件,则执行采用滑动窗口方法对所述音频片段进行目标处理的步骤。
3.根据权利要求2所述的方法,其特征在于,若所述音频片段的处理结果不满足所述结果条件,则执行采用滑动窗口方法对所述音频片段进行目标处理的步骤,包括:
若所述音频片段的处理结果不满足所述结果条件且所述音频片段满足时长条件,则执行采用滑动窗口方法对所述音频片段进行目标处理的步骤。
4.根据权利要求3所述的方法,其特征在于,所述时长条件包括时长大于或等于时长阈值。
5.根据权利要求4所述的方法,其特征在于,所述时长阈值与满足所述结果条件的音频片段的最短音频长度正相关。
6.根据权利要求2所述的方法,其特征在于,所述目标处理包括提取音频特征并对所述音频特征利用预先训练的模型进行解码。
7.根据权利要求6所述的方法,其特征在于,以音频片段为处理单元进行目标处理和采用滑动窗口方法进行目标处理利用的模型相同。
8.根据权利要求2所述的方法,其特征在于,从音频信号中截取的音频片段的个数为多个;
以所述音频片段对处理单元对所述音频片段进行所述目标处理,得到所述音频片段的处理结果,包括:
从多个所述音频片段中选择一个音频片段,并以所述音频片段为处理单元对所述音频片段进行所述目标处理,得到所述音频片段的处理结果;
所述采用滑动窗口方法对所述音频片段进行目标处理之后,还包括:返回从多个所述音频片段中选择一个音频片段,并以所述音频片段为处理单元对所述音频片段进行所述目标处理的步骤执行,直至满足完成条件。
9.根据权利要求8所述的方法,其特征在于,所述完成条件包括下述中的任意一种:
得到目标数量个满足所述结果条件的处理结果、进行预设次数的目标处理、对于预设数量的音频片段进行目标处理、对于所有音频片段进行目标处理。
10.根据权利要求1-9任一项所述的方法,所述采用滑动窗口方法对所述音频片段进行目标处理,包括:
根据窗口的长度以及位置截取所述音频片段的当前子片段;
对所述当前子片段进行目标处理;
若所述当前子片段的处理结果满足结果条件,则将所述当前子片段的处理结果作为所述音频片段的处理结果;
若所述当前子片段的处理结果不满足所述结果条件,则将窗口滑动一个步长后返回所述根据窗口的长度以及位置截取所述音频片段的当前子片段的步骤执行,直至满足结束条件,以完成对所述音频片段的所述目标处理。
11.根据权利要求10所述的方法,其特征在于,所述窗口的长度与满足所述结果条件的音频片段的最长音频长度正相关。
12.根据权利要求10所述的方法,其特征在于,所述结束条件包括:窗口移动到音频片段的结束端,和/或,窗口滑动次数达到最大滑动次数。
13.根据权利要求12所述的方法,其特征在于,所述最大滑动次数与期望的处理精度正相关;和/或,所述步长与期望的处理精度负相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市大疆创新科技有限公司,未经深圳市大疆创新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980033584.3/1.html,转载请声明来源钻瓜专利网。