[发明专利]检索音频的方法、装置、设备和存储介质在审
申请号: | 202011540312.3 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112667844A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 陈洲旋;赵伟峰 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G06F16/632 | 分类号: | G06F16/632;G06F16/683 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 宁立存 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 音频 方法 装置 设备 存储 介质 | ||
1.一种检索音频的方法,其特征在于,所述方法包括:
获取第一音频;
基于预先训练的分类模型,确定所述第一音频的类别,其中,所述类别包括第一类别或第二类别,所述第一类别用于指示所述第一音频中的噪声音频与人声音频的音量关系满足预设条件,所述第二类别用于指示所述第一音频中的噪声音频与人声音频的音量关系不满足预设条件;
如果所述第一音频的类别为第一类别,则检索与所述第一音频相匹配的第二音频;
如果所述第一音频的类别为第二类别,则控制输出检索失败提示信息。
2.根据权利要求1所述的方法,其特征在于,所述基于预先训练的分类模型,确定所述第一音频的类别,包括:
筛选出所述第一音频中音量值大于预设音量值的目标音频段;
获得每个目标音频段的音高线;
将每个目标音频段的音高线输入预先训练的分类模型,输出所述第一音频的类别。
3.根据权利要求2所述的方法,其特征在于,所述预先训练的分类模型包括转换模块、自注意学习模块、子分类模块以及处理模块;所述将每个目标音频段的音高线输入预先训练的分类模型,输出所述第一音频的类别,包括:
将每个目标音频段的音高线输入预先训练的分类模型中的转换模块,得到每个目标音频段维度对齐后的音高序列;
将每个目标音频段维度对齐后的音高序列输入预先训练的分类模型中的自注意学习模块,得到每个目标音频段权重调整后的音高序列;
将每个目标音频段权重调整后的音高序列输入预先训练的分类模型中的子分类模块,得到每个目标音频段的类别;
将每个目标音频段的类别输入所述预先训练的分类模型中的处理模块,得到所述第一音频的类别。
4.根据权利要求3所述的方法,其特征在于,所述将每个目标音频段的类别输入所述预先训练的分类模型中的处理模块,得到所述第一音频的类别,包括:
将每个目标音频段的类别输入所述预先训练的分类模型中的处理模块,以使所述处理模块基于每个目标音频段的类别和每个目标音频段的时长,确定出每个类别的总时长并将对应总时长最长的类别确定为所述第一音频的类别。
5.根据权利要求2所述的方法,其特征在于,所述检索与所述第一音频相匹配的第二音频,包括:
基于每个目标音频段的音高线,检索与第一音频相匹配的第二音频。
6.根据权利要求5所述的方法,其特征在于,所述基于每个目标音频段的音高线,检索与第一音频相匹配的第二音频,包括:
对于每个目标音频段的音高线,在预先存储的各音频的基准音高线中,确定与所述目标音频段的音高线满足匹配条件的多个基准音高线,得到所述目标音频段的至少一个基准音高线;
在所有目标音频段的基准音高线中,确定出现次数最多的目标基准音高线;
将所述目标基准音高线的音频,确定为与所述第一音频相匹配的第二音频。
7.根据权利要求5所述的方法,其特征在于,所述基于每个目标音频段的音高线,检索与第一音频相匹配的第二音频,包括:
将所述第一音频段除所述目标音频段之外的其它音频段的音高线设置为0;
基于每个目标音频段和其他音频段的音高线,检索与第一音频相匹配的第二音频。
8.根据权利要求1所述的方法,其特征在于,所述基于预先训练的分类模型,确定所述第一音频的类别,包括:
筛选出所述第一音频中音量值大于预设音量值的目标音频段;
将所述目标音频段输入预先训练的分类模型,输出所述第一音频的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011540312.3/1.html,转载请声明来源钻瓜专利网。