[发明专利]音频标签的设置方法、装置、设备和存储介质有效
申请号: | 201811030676.X | 申请日: | 2018-09-05 |
公开(公告)号: | CN109065076B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 涂臻;杨振宇;刘云峰;吴悦;陈正钦;胡晓;汶林丁 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G10L25/90 | 分类号: | G10L25/90;G10L15/26;G10L25/24;G10L15/22;G10L15/06;G10L15/04;G06F16/61 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 王金宝 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 标签 设置 方法 装置 设备 存储 介质 | ||
1.一种音频标签的设置方法,其特征在于,包括:
获取完整音频;
切分所述完整音频,得到至少两个子音频;
通过预先训练得到的音频标签设置模型为所述子音频设置标签;
整合各所述子音频的标签,生成所述完整音频的完整标签;
获取终端上传的所述完整标签是否合适的判断结果;所述判断结果包括:是或否;
若所述判断结果为否,获取所述终端上传的合适的完整标签;
以所述终端上传的合适的完整标签和所述完整音频为训练数据,训练所述音频标签设置模型;
所述通过预先训练得到的音频标签设置模型为所述子音频设置标签包括:
对所述子音频进行分帧;
分别提取每一帧子音频的音频特征;
整合所述每一帧子音频的音频特征,得到音频特征矩阵;
向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
向子采样层输入所述第一输出数据,进行子采样,得到第二输出数据;
向BN层输入所述第二输出数据,得到第三输出数据;
向最大池化层输入所述第三输出数据,得到第四输出数据;
向全连接+softmax层输入所述第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签。
2.根据权利要求1所述的方法,其特征在于,所述切分所述完整音频,得到至少两个子音频,包括:
预处理所述完整音频;
确定所述完整音频中的音频段和静音段;
按照所述音频段和所述静音段切分所述完整音频,并将所述音频段保留为所述子音频。
3.根据权利要求2所述的方法,其特征在于,所述预处理所述完整音频包括:
转码所述完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。
4.根据权利要求2所述的方法,其特征在于,所述确定所述完整音频中的音频段和静音段包括:
采用语音端点检测算法,确定所述完整音频中的音频段和静音段。
5.根据权利要求1所述的方法,其特征在于,所述音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。
7.一种音频标签的设置装置,其特征在于,包括:
第一获取模块,用于获取音频;
切分模块,用于切分所述音频为各个子音频;
标签设置模块,通过音频标签设置模型为所述子音频设置标签;
整合模块,用于整合各所述子音频的标签,生成所述音频的完整标签;
第二获取模块,用于获取终端上传的所述完整标签是否合适的判断结果;所述判断结果包括:是或否;
第三获取模块,用于若所述判断结果为否,获取所述终端上传的完整标签;
训练模块,用于以所述终端上传的完整标签和完整音频为训练数据,训练所述音频标签设置模型;
其中,所述通过预先训练得到的音频标签设置模型为所述子音频设置标签包括:
对所述子音频进行分帧;
分别提取每一帧子音频的音频特征;
整合所述每一帧子音频的音频特征,得到音频特征矩阵;
向双向循环神经网络GRU层输入音频特征矩阵,得到第一输出数据;
向子采样层输入所述第一输出数据,进行子采样,得到第二输出数据;
向BN层输入所述第二输出数据,得到第三输出数据;
向最大池化层输入所述第三输出数据,得到第四输出数据;
向全连接+softmax层输入所述第四输出数据,得到子音频对应各标签的概率,选择概率最大的标签作为当前子音频的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811030676.X/1.html,转载请声明来源钻瓜专利网。