[发明专利]特征处理方法、装置和用于处理特征的装置在审
申请号: | 202111153302.9 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113889079A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 唐文琦 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 岳阳 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 处理 方法 装置 用于 | ||
1.一种特征处理方法,其特征在于,所述方法包括:
对音频数据进行分帧加窗处理,并提取各窗口的音频帧特征;
将首个窗口的音频帧特征输入至卷积神经网络,得到所述首个窗口的特征处理结果;
依次将其余每个窗口作为目标窗口,执行如下步骤:
确定所述目标窗口相对于上一窗口的重复帧特征和非重复帧特征;
基于所述卷积神经网络确定所述非重复帧特征的特征处理结果,从所述上一窗口的特征处理结果中提取所述重复帧特征的特征处理结果,并基于所述非重复帧特征的特征处理结果和所述重复帧特征的特征处理结果,确定所述目标窗口的特征处理结果。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括至少一个卷积层,所述特征处理结果中包括所述卷积神经网络中每个卷积层的卷积计算结果。
3.根据权利要求2所述的方法,其特征在于,所述将首个窗口的音频帧特征输入至卷积神经网络,得到所述首个窗口的特征处理结果,包括:
将所述首个窗口的音频帧特征输入至所述卷积神经网络的首个卷积层,得到所述首个卷积层针对所述首个窗口的卷积计算结果;
对于从第二个卷积层起的每个卷积层,将上一卷积层针对所述首个窗口的卷积计算结果输入至该卷积层,得到该卷积层针对所述首个窗口的卷积计算结果。
4.根据权利要求2所述的方法,其特征在于,所述确定所述目标窗口相对于上一窗口的重复帧特征和非重复帧特征,包括:
基于预设的窗口长度、预设的窗口滑动步长以及所述卷积神经网络中的各卷积层中的卷积核大小,将各窗口在所述各卷积层的输入特征划分为第一部分、第二部分和第三部分;
将所述目标窗口在所述各卷积层的输入特征中的第二部分,作为所述目标窗口相对于上一窗口的重复帧特征;
将所述目标窗口在所述各卷积层的输入特征中的第一部分和第三部分,作为所述目标窗口相对于所述上一窗口的非重复帧特征。
5.根据权利要求4所述的方法,其特征在于,所述基于所述卷积神经网络确定所述非重复帧特征的特征处理结果,从所述上一窗口的特征处理结果中提取所述重复帧特征的特征处理结果,并基于所述非重复帧特征的特征处理结果和所述重复帧特征的特征处理结果,确定所述目标窗口的特征处理结果,包括:
对于所述卷积神经网络的每个卷积层,将所述目标窗口在该卷积层的输入特征中的第一部分和第三部分分别输入至该卷积层,分别得到第一卷积计算结果和第三卷积计算结果;从该卷积层针对所述上一窗口的卷积计算结果中,提取所述上一窗口在该卷积层的输入特征中的第二部分对应的卷积计算结果,作为第二卷积计算结果;将所述第一卷积计算结果、所述第二卷积计算结果和所述第三卷积计算结果进行汇总,得到该卷积层针对所述目标窗口的卷积计算结果。
6.根据权利要求5所述的方法,其特征在于,所述对于所述卷积神经网络的每个卷积层,将所述目标窗口在该卷积层的输入特征中的第一部分和第三部分分别输入至该卷积层,分别得到第一卷积计算结果和第三卷积计算结果,包括:
对于所述卷积神经网络的每个卷积层,基于该卷积层的第一补帧参数,对所述目标窗口在该卷积层的输入特征中的第一部分的左侧进行补帧,得到第一补音频帧特征;将所述第一补音频帧特征输入至该卷积层,得到第一卷积计算结果;
对于所述卷积神经网络的每个卷积层,基于该卷积层的第二补帧参数,对所述目标窗口在该卷积层的输入特征中的第三部分的右侧进行补帧,得到第二补音频帧特征;将所述第二补音频帧特征输入至该卷积层,得到第三卷积计算结果。
7.根据权利要求4所述的方法,其特征在于,首个卷积层的输入特征包括窗口的音频帧特征;其余各卷积层的输入特征包括上一卷积层输出的卷积计算结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111153302.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音翻译方法、装置和用于语音翻译的装置
- 下一篇:一种处理方法及电子设备