[发明专利]一种基于胶囊网络的情感分类方法有效
申请号: | 202110588471.9 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113283234B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 吴洪越;董磊;陈世展;冯志勇;薛霄 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/216;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 胶囊 网络 情感 分类 方法 | ||
1.一种基于胶囊网络的情感分类方法,包括以下步骤:
步骤一,文本预处理
1)过滤带有特殊符号的内容;
2)过滤微博文本中的无效字符;
步骤二,建立融合权重的FuBERT模型,用于词向量表示
针对情感分类任务,选用12层的BERT Base模型,把输入序列通过BERT分别生成1-12层的嵌入表示,其中这些嵌入中:1-4层代表低层的短语级别的嵌入信息;5-8层代表中层句法级别的嵌入信息;9-12层代表高层的语义级别的嵌入信息;通过softmax训练权重的方式为12层BERT的每一层都赋予一个权重,用以保留各层对文本有用的信息,输出词向量;
步骤三,建立基于双向门控循环单元GRU的胶囊网络模型,用于提取特征
以步骤二中的词向量输出作为输入,用胶囊网络进行情感分类,该模型依次分为五层,分别为:N-gram卷积层、双向GRU层、主胶囊层、卷积胶囊层、全连接胶囊层:
N-gram卷积层:从FuBERT模型中获得的词向量表示首先通过这一层,用来提取和学习抽象特征;
双向GRU层:将N-gram卷积层的输出继续分析,捕获特定短语中的上下文,以学习文本中的长期依赖关系;
主胶囊层:由前两层生成的语义和上下文相关的特征通过主胶囊层的卷积操作将实例化的部分集中分割,利用向量而摒弃标量来保留属于每个特征的实例化参数,捕获文本中单词的局部排序以及相应的语义表示;
卷积胶囊层:为了减小参数量继续提取主胶囊层输出的特征;每个胶囊仅在空间上连接到下面层中的局部区域,然后按协议路由算法来学习子胶囊和父胶囊的关系;
全连接胶囊层:卷积胶囊层输出被拉伸成一个胶囊列表,并作为全连接胶囊层的输入,用于学习到局部以及全局的特征,全连接胶囊层由Y类胶囊组成,每个层对应于一个类别标签或类别,每个胶囊中实例化参数的长度表示输入样本属于该类标签的概率,而每组实例化参数的方向保留了特征属性的特征和方向,这些特征属性被视为输入样本的编码向量;
步骤四,最终分类;
数据经过全连接胶囊层之后,将输出作为输入送入softmax分类器进行最终的分类预测,以完成最终的文本分类任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110588471.9/1.html,转载请声明来源钻瓜专利网。