[发明专利]融入多尺度特征注意力的胶囊神经网络及文本分类方法有效
申请号: | 202010683462.3 | 申请日: | 2020-07-15 |
公开(公告)号: | CN111897957B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 琚生根;王超凡;周刚 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
地址: | 610065 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融入 尺度 特征 注意力 胶囊 神经网络 文本 分类 方法 | ||
1.一种融入多尺度特征注意力的胶囊神经网络,其特征在于,包括双向循环层,多尺度特征注意力层,部分连接胶囊层,类别胶囊层;其中,
双向循环层还包括有RNN编码器,用于接收目标文本的单词向量序列,并通过RNN编码器得到目标文本每个单词对应的前后上下文的特征表示,目标文本的所有单词对应的前后上下文的特征表示构成目标文本的全局特征表示;
多尺度特征注意力层,与所述双向循环层相连,用于将接收的目标文本全局特征表示经过卷积操作而得到多元语法特征,并对每个单词在不同尺度下的多元语法特征加权;
部分连接胶囊层,与多尺度特征注意力层相连,包括子胶囊单元与父胶囊单元,所述子胶囊单元接收经加权后的多元语法特征,并将信息通过路由传递到父胶囊单元,最终得到父胶囊的特征表示;
类别胶囊层与部分连接胶囊层相连,包括至少2个类别胶囊,每一个类别胶囊对应一个类别,用于表述目标文本属于某个类别的概率;
所述多尺度特征注意力层包括:卷积网络单元、卷积特征聚合单元、尺度特征加权单元;
所述卷积网络单元接收所述双向循环层发送的目标文本的全局特征表示,并通过多个卷积窗口得到目标文本的语法特征表示;
所述卷积网络单元通过以下方式得到语法特征表示:
H=[z1;z2...;zm];
i为目标文本的第i个单词,l为卷积窗口的大小,xi为第i个单词的词向量表示,为在l大小的卷积窗口下的第i个单词的语法特征表示,zl为目标文本的所有单词在l大小的卷积窗口下语法特征表示,H为目标文本的所有单词通过m个不同大小的卷积窗口得到的语法特征表示;
所述卷积特征聚合单元通过以下方式得到标量表示:
Fensem(·)表示将输入向量的各个分量求和,k为卷积核数量,为对第i个单词下施加卷积操作产生,为第i个单词在第j个卷积核下的语法特征表示,j为求和下标;
所述尺度特征加权单元通过以下方式得到加权表示:
ai=softmax(MLP(si));
其中,si为是第i个单词的聚合特征表示,为第i个单词在卷积窗口l下的标量表示,ai为第i个单词对应的权重表示,MLP为多层感知机,为第i个单词在l元语法特征下的注意力权重,为第i个单词在l元语法特征下的加权表示,L为不同卷积窗口大小的个数,Zatten为目标文本的加权表示;
所述卷积特征聚合单元与所述卷积网络单元相连,用于将目标文本的语法特征表示用卷积核生成对应的标量表示;
所述尺度特征加权单元与所述卷积特征聚合单元相连,用于接收目标文本的标量表示并生成各个尺度多语法特征的注意力权重得到目标文本的加权表示。
2.根据权利要求1所述的融入多尺度特征注意力的胶囊神经网络,其特征在于,所述路由传递到父胶囊单元的路由方法为:
通过预先设定的权重矩阵得到胶囊神经网络中的子胶囊层到下一层父胶囊层的预测向量;
对子胶囊层的信息进行路由迭代,计算动态路由算法的耦合系数;
在最后一次路由迭代时,比较耦合系数与预先设定的阈值;
如果耦合系数小于阈值,则丢弃该耦合系数,其他值重新加权保持和为1;
通过耦合系数和预测向量得到路由到父胶囊层的父胶囊表示,父胶囊层对路由得到的父胶囊表示进行缩放,得到最终父胶囊表示。
3.根据权利要求2所述的融入多尺度特征注意力的胶囊神经网络,其特征在于,所述计算动态路由算法的耦合系数的步骤,具体计算为:
其中,bij为初始耦合系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010683462.3/1.html,转载请声明来源钻瓜专利网。