[发明专利]音频识别方法、系统、移动终端及存储介质有效
申请号: | 202010065691.9 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111276133B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 曾志先;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/26;G10L15/16;G10L15/22;G10L15/06;G10L15/02;G10L25/24 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 识别 方法 系统 移动 终端 存储 介质 | ||
1.一种音频识别方法,其特征在于,所述方法包括:
获取音频数据,并将所述音频数据中的音频文件转换为音频特征;
对所述音频特征进行标签标注,并将标注结果进行存储,以得到标签数组;
构建LSTM神经网络模型,在所述LSTM神经网络模型上封装Attention网络,并在所述LSTM神经网络模型中构建全连接层;
对所述音频特征进行数值标准化处理,并将标准化处理后的所述音频特征输入所述LSTM神经网络模型,以得到音频概率结果;
根据所述标签数组对所述音频概率结果进行损失计算,以得到损失值,并根据所述损失值对所述LSTM神经网络模型的模型参数进行迭代训练;
将待检测音频输入所述LSTM神经网络模型进行音频识别,以得到音频识别结果;
所述将标准化处理后的所述音频特征输入所述LSTM神经网络模型的步骤包括:
控制所述LSTM神经网络模型和所述Attention网络对所述音频特征进行分析,以得到音频矩阵;
将所述音频矩阵输入所述全连接层,以使将所述音频矩阵转换为针对音频帧数的识别结果;
通过SoftMax算法将所述全连接层输出的识别结果转换为概率值,以得到所述音频概率结果,所述音频概率结果中存储有两个所述概率值,两个所述概率值分别为对应音频帧为有效音和无效音的概率。
2.如权利要求1所述的音频识别方法,其特征在于,所述将所述音频数据中的音频文件转换为音频特征的步骤包括:
将所述音频文件转换为40维度的MFCC特征,以使将所述音频文件从时域转换为频域,且每帧所述MFCC特征的长度为0.025秒。
3.如权利要求1所述的音频识别方法,其特征在于,所述对所述音频特征进行标签标注的步骤包括:
分别对每帧所述音频特征进行分类,以得到有效帧和无效帧;
对所述有效帧进行第一标识标记,对所述无效帧进行第二标识标记,以得到所述标签数组,且每个音频对应一个所述标签数组。
4.如权利要求1所述的音频识别方法,其特征在于,所述对所述音频特征进行数值标准化处理的步骤包括:
计算所述音频特征的平均值和标准差,并根据所述平均值和所述标准差依序对每个所述音频特征进行标准化处理。
5.如权利要求4所述的音频识别方法,其特征在于,所述标准化处理采用的计算公式为:
(A-B)/C;
其中,A为对应所述音频特征中的原数值,B为所述平均值,C为所述标准差。
6.如权利要求1所述的音频识别方法,其特征在于,所述根据所述标签数组对所述音频概率结果进行损失计算的步骤包括:
通过采用cross entropy交叉熵函数在所述LSTM神经网络模型中预测结果与所述标签数组之间进行损失计算,以得到所述损失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010065691.9/1.html,转载请声明来源钻瓜专利网。