[发明专利]基于改进型胶囊网络的语音数据分类方法有效
申请号: | 201811123791.1 | 申请日: | 2018-09-26 |
公开(公告)号: | CN109410917B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 徐宁;倪亚南;刘小峰;潘安顺;刘妍妍 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G06N3/04 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进型 胶囊 网络 语音 数据 分类 方法 | ||
1.基于改进型胶囊网络的语音数据分类方法,其特征在于,包括以下步骤:
训练阶段:
1)构造胶囊网络的编码器,具体为,
11)利用神经网络的前向传播算法对初始语音音素数据进行编码,得到初级胶囊;
12)构造胶囊网络的动态路由结构,将初级胶囊中的信息传递给高级胶囊,所述高级胶囊由初级胶囊经过多次动态路由迭代算法而产生;
13)以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率;
2)构造胶囊网络的解码器,将真实音素符号对应的高级胶囊进行解码重构;
3)基于预设的损失函数得到总损失,对胶囊网络的参数进行优化,最小化总损失;
测试阶段:
4)将待测试的初始语音音素数据输入胶囊网络的编码器中,根据所有高级胶囊长度的softmax激活值判断待测试的初始语音音素数据的所属类别。
2.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述初始语音音素数据是通过原始语音数据经过预处理得到,具体包括以下步骤:
A.对原始语音进行带通滤波平滑处理,去除毛刺噪声点;
B.对滤波后的语音信号进行分帧处理;
C.对分帧后的每一帧语音信号进行特征提取,选取w个特征作为每一帧的w维特征向量;
D.对每一帧的w维特征向量进行归一化处理得到初始语音音素数据,即将每一帧的w维特征向量按维度除以一个归一化因子,所述归一化因子是一个w维向量l_norm。
3.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述步骤11)中所述编码方法具体为全连接网络的编码、二维卷积网络的编码或者混合型编码,
利用所述混合型编码得到初级胶囊的具体步骤为:
111)初始语音音素数据经过一个全连接层连接到具有m1个单元的隐藏层h1,经过激活函数sigmoid作用得到隐藏层h1的输出数据z1;
112)将隐藏层h1的输出数据z1重塑为一个三维张量input1,即m2个b1*b1大小的特征图谱,通过卷积核大小为k1*k1的二维卷积层连接到具有m3个b2*b2大小的特征图谱的隐藏层h2,经过激活函数sigmoid作用得到隐藏层h2的输出z2;
113)将隐藏层h2的输出数据z2重塑成n1*pri_len大小的二维张量,代表n1个初级胶囊,张量矩阵的每一行代表一个初级胶囊pri_cap,每个初级胶囊的维度是pri_len;
114)将每个初级胶囊按照如下公式进行squash归一化处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811123791.1/1.html,转载请声明来源钻瓜专利网。