[发明专利]一种采用双Token标签的声事件标注及识别方法有效
申请号: | 202110465526.7 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113140226B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 姚雨;宋浠瑜;王玫;仇洪冰 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/51;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 token 标签 事件 标注 识别 方法 | ||
1.一种采用双Token标签的声事件标注及识别方法,其特征在于,包括声事件标注过程和识别过程,所述声事件标注过程为:
1-1)音频标签形式:采用音频标注软件Audacity播放包含各类声事件的原始音频数据,标注步骤为:在音频的每个声事件发生时间范围内随机地选取两个Token,分别为Ci_start与Ci_end,C表示声事件类别;
1-2)重复标注步骤,完成数据集中所有音频标注;
所述识别过程为:
2-1)构建音频数据集:根据检测任务要求添加声事件音频构成音频数据集,首先确定待检测声事件类别,采用音频标注软件Audacity播放待检测声事件音频,播放音频的同时,在软件Label Track栏中点击鼠标标记声事件类别和时间戳,完成音频数据标注,在听到的声事件发声时间范围内随机的选取两个点,得到两个Token,Token分别为Ci_start与Ci_end,C表示声事件类别,最后,采用Audacity导出标签文件,标签文件记录了音频文件名、每个音频文件名下发生的声事件类别、每个声事件时间戳;
2-2)音频数据预处理和特征提取:
对于音频:对所有音频重采样频率为16kHz,重采样完成后对音频波形数据标准化,使音频波形数据值规整到(-1,1)范围类,采用max标准化:x(t)=s(t)/max(|s(t)|),然后采用短时傅里叶变换对所有音频提取128维的对数梅尔能量谱,短时傅里叶变换具体参数为:nfft=2048、采样频率为16kHz、采用1/2帧重叠,最后对对数梅尔能量谱采样z-score标准化:假设输入对数梅尔能量谱为X1,X2,...Xn,其中,
,得到规整后的对数梅尔能量谱Y1,Y2....Yn的均值为0,方差为1;
对音频标签:将以秒为单位的标签转换成以帧为单位的标签,对每个标签文件采取如下步骤变换得到以帧为单位的音频标签编码矩阵,标签编码矩阵由0元素和1元素组成,矩阵的列数n为帧数,矩阵的行数m为声事件类别数,一个包含m类声事件的音频标签编码矩阵从以秒为单位到以帧为时间单位的转换如下:
step1:产生一个m行n列的零矩阵,假设采样频率为sr,音频持续时间为t,则矩阵列数n=sr*t,矩阵行数m为声事件类别数;
step2:确定每个声事件以帧为单位的时间戳:假设以秒为单位的时间戳timestampsecond、frame_length为帧长、hop_length为帧重叠,则时间戳转换公式为:
timestampframe=timestampsecond÷nfft÷(frame_length-hop-length);
step3:timestampframe包含范围即每个声事件起始帧到结束帧之间的矩阵值用1替换0;
2-3)音频数据扩增:采用如下数据扩增方式将原始音频数据扩增至原来的三倍:音频随机缩放、time masking、frequency masking、加随机噪声、音频样本混合(mixup);
2-4)搭建卷积循环神经网络:采用PyTorch框架搭建如下卷积循环神经网络:第一层为输入层、输入128维对数梅尔能量谱,第二层为输入通道数为16的2维卷积层接2×2的2d池化,第三层为输入通道数为32的2维卷积层接2×2的2d池化,第四层为输入通道数为64的2维卷积层接2×2的2d池化,第五层为输入通道数为128的2维卷积层接2×1的2d池化,第六层为输入通道数为256使用2×1的2d池化,再将输出特征图张量展平,第七层为输入通道数为256的一维卷积层,第八层为使用两层GRU的双向循环神经网络、神经元个数为256,第九层为输出层,依次使用256、80个神经元的全连接层且使用ReLU激活,最后拼接一个神经元个数为声事件类别数的、使用sigmoid激活的全连接层,每个卷积层都使用大小为3×3的卷积核、步长为1,并且每个卷积层接一个批标准化层、且都使用ReLU函数激活;
2-5)训练卷积循环神经网络学习检测模型:将训练数据即音频的对数梅尔能量谱送入步骤2-4)搭建的卷积循环神经网络,卷积循环神经网络初始权值参数由PyTorch随机给定,得到输出其中C为声事件类别数,T为帧总数,计算真阳性预测标签损失Yp,将Yp和逐元素相乘得到输出最后计算如下二项交叉熵损失函数:
梯度反向传播,使用Adam梯度下降法,学习率设置为0.001,更新权值参数,迭代训练直至损失不再下降,保存模型参数;
2-6)使用训练好的检测模型识别待检测音频:将标签未知的待检测音频标准化后提取对数梅尔能量谱在规整后送入卷积循环神经网络,得到神经网络概率输出,保存,依据f1-score为标尺搜索最佳判决门限α,依据判决门限α二值化得到双Token标签下预测结果,具体做法是:依据双Token标签预测输出矩阵确定的声事件开始结束时间帧节点,计算神经网络概率输出矩阵对应帧节点的相邻帧cosine相似度,相似度大于0.5则延展该帧,即延展了双Token标签矩阵中时间戳,最后得到标签延展后的预测矩阵,得到识别结果,完成识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110465526.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能审讯一体机
- 下一篇:一种基于改进VIBE的手势检测方法