[发明专利]基于改进型胶囊网络的语音数据分类方法有效

申请号：	201811123791.1	申请日：	2018-09-26
公开（公告）号：	CN109410917B	公开（公告）日：	2021-11-16
发明（设计）人：	徐宁;倪亚南;刘小峰;潘安顺;刘妍妍	申请（专利权）人：	河海大学常州校区
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/08;G06N3/04
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	213022 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于改进型胶囊网络语音数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于改进型胶囊网络的语音数据分类方法，首先在训练阶段，构造胶囊网络的编码器，对初始语音音素数据进行编码得到初级胶囊；构造胶囊网络的动态路由结构，将初级胶囊中的信息传递给高级胶囊；以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率；然后构造胶囊网络的解码器，将真实音素符号对应的高级胶囊进行解码重构；基于总损失函数对胶囊网络的参数进行优化；在测试阶段，将初始语音音素数据输入胶囊网络的编码器中，判断待测试数据的所属类别。本发明实现对语音音素的时序信号所对应的音速符号的精准识别，解决按照理论知识直接提取的特征准确度低、语音数据分类效果差以及过拟合的技术问题。

技术领域

本发明属于分类处理及深度学习技术领域，具体涉及一种基于改进型胶囊网络的语音数据分类方法。

背景技术

语音数据是现代信息数据的重要处理内容，每一帧语音数据都可以用特征参数来描绘，比如共振峰有关参数，即一帧语音数据的共振峰频率(第一维)、带宽(第二维)、能量频谱倾斜(第三维)等，以上是基于研究人员经验积累、按照理论知识直接提取出来的多维特征。然而这样的工作计算量非常大，并且需要大量的尝试以及创新。近几年崛起的深度学习方法集特征提取和特征的分类于一体，具有非常强大的特征自组织以及特征抽象能力，能够帮助研究人员减轻在语音数据特征的设计上投入的时间和精力。卷积神经网络目前已经在图像的分类识别方面取得了巨大的成就，但是由于语音数据和图像数据存在一定的差异，卷积神经网络并不适合直接处理语音数据。

发明内容

本发明的目的在于，提出一种基于改进型胶囊网络的语音数据分类方法，实现对语音音素的时序信号所对应的音速符号的精准识别，解决现有技术中按照理论知识直接提取的语音特征准确度低、语音数据分类效果差以及过拟合的技术问题。

本发明采用如下技术方案，一种基于改进型胶囊网络的语音数据分类方法，具体包括：

训练阶段：

1)构造胶囊网络的编码器，具体为，

11)利用神经网络的前向传播算法对初始语音音素数据进行编码，得到初级胶囊；

12)构造胶囊网络的动态路由结构，将初级胶囊中的信息传递给高级胶囊；

13)以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率；

2)构造胶囊网络的解码器，将真实音素符号对应的高级胶囊进行解码重构；

3)基于预设的损失函数得到总损失，对胶囊网络的参数进行优化，最小化总损失；

测试阶段：

4)将待测试的初始语音音素数据输入胶囊网络的编码器中，根据所有高级胶囊长度的softmax激活值判断待测试的初始语音音素数据的所属类别。