[发明专利]一种语音的密集分类方法及相关装置有效

申请号：	201910880593.8	申请日：	2019-09-18
公开（公告）号：	CN110600015B	公开（公告）日：	2020-12-15
发明（设计）人：	陈孝良;王超;冯大航;常乐	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/08	分类号：	G10L15/08;G10L15/02;G10L25/03;G10L25/27;G10L25/45
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	潘颖
地址：	100080 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音密集分类方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音的密集分类方法及相关装置，该方法包括：获取输入语音；提取所述输入语音中第一预设数量维度第一特征；将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。上述的分类方法中，将所述输入语音作为整体进行分析，不存在重复，提高了感受野，进而提高了分类能力。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音的密集分类方法及相关装置。

背景技术

在对语音进行分类过程中，首先将输入语音进行分帧，然后对每一帧进行分类，以基于神经网络进行分类为例，为了得到当前帧的类别，可以将当前帧周围的若干帧作为当前帧的上下文进行训练。例如对于当前帧使用前后25帧的上下文作为输入窗口，每次滑动输入窗口给神经网络训练，得到当前帧的分类结果。

发明人对现有的分类过程进行研究发现，所需要的存储空间随输入窗口的步长和大小以及输入语音的长度等急剧上升，此外，由于相邻帧所具有的上下文基本是重复的，会带来计算的冗余，并且上下文的大小限制了感受野的大小进而限制了分类能力。

发明内容

有鉴于此，本发明提供了一种语音的密集分类方法及相关装置，用以解决现有的分类过程中，所需要的存储空间是随输入窗口的步长和大小以及输入语音的长度等急剧上升的，此外，由于相邻帧所具有的上下文基本是重复的，会带来计算的冗余，并且上下文的大小限制了感受野的大小进而限制了分类能力的问题。具体方案如下：

一种语音的密集分类方法，包括：

获取输入语音；

提取所述输入语音中第一预设数量维度第一特征；

将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；

将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。