[发明专利]一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质在审
申请号: | 202111067682.4 | 申请日: | 2021-09-13 |
公开(公告)号: | CN113792143A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 杨雅婷;罗涵天;马博;董瑞;王磊;周喜 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 胶囊 网络 语言 情感 分类 方法 装置 设备 存储 介质 | ||
本发明公开了一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质,该方法包括:获取多种语言的源语言文本,得到不同文本的语料集合;分别将不同文本的语料集合输入产生词向量的Glove模型中,提取源语言的语义特征,得到多语言文本的向量表示;在待识别以及待训练的文本中,先通过语种识别工具识别语种,再使用对应语种的词向量进行初始化;将文本隐含的情感特征与原文本向量表示进行融合;将融合向量表示输入基于胶囊网络的情感分类模型中得到情感分类的结果。通过本发明所述的方法,提升了多语言的情感分类效果以及性能,能有效对多语言文本的情感进行分类,有效提升了多语言文本分类的准确率以及F1值。
技术领域
本发明为自然语言处理领域,涉及人工智能、深度学习和情感分析等技术领域。具体涉及一种基于胶囊网路的多语言情感分类方法、装置、设备及存储介质。
背景技术
情感分类是将一段文本对齐情感倾向进行分类,如正向情感或者负向情感。近些年来,随着互联网以及硬件技术的普及,自然语言处理以及深度学习发展,情感分类技术已成为自然语言处理(Natural Language Processing,NLP)领域研究的热点技术,研究情感分类技术对公民以及国家有着重要的意义,不仅可以帮助政府部门有效整治网络环境,使网民拥有一个干净的网络环境,还可以将此类技术应用于恶意检测,舆情分析等领域,应用于多语言情感分析可以帮助政府部门更好地监控网络环境。
发明内容
本发明目的在于,提供一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质,该方法为获取多种语言的源语言文本,得到不同文本的语料集合;分别将不同文本的语料集合输入产生词向量的Glove模型中,提取源语言的语义特征,得到多语言文本的向量表示;在待识别以及待训练的文本中,先通过语种识别工具识别语种,再使用对应语种的词向量进行初始化;将文本隐含的情感特征与原文本向量表示进行融合;将融合向量表示输入基于胶囊网络的情感分类模型中得到情感分类的结果。根据本发明的技术,提升了多语言的情感分类效果以及性能,能有效对多语言文本的情感进行分类,有效提升了多语言文本分类的准确率以及F1值。
本发明所述的一种基于胶囊网络的多语言情感分类方法,按下列步骤进行:
a、获取多种语言的源语言的文本,得到不同文本的语料集合;其中,所述源语言文本包括上下文、源情感词以及源情感词对应的若干属性;将上下文、源情感词以及对应的若干属性进行集合打包成文本语料集合;
b、将步骤a的文本的语料集合输入产生词向量的Glove模型中,提取源语言的语义特征,得到多语言文本的向量表示;其中,经词向量模型Glove充分训练后输出得到的词向量表示源语言的语义特征;
c、在待识别以及训练的文本中,先通过语种识别工具识别语种,再使用对应的语种进行词向量初始化,不同语种训练不同的词向量,将识别的语种进行对应的词嵌入初始化;
d、将文本隐含的情感特征与原文本向量表示进行融合,所述情感词作为添加到文本词向量的特征,表示了源语言文本情感倾向;将文本隐含的情感特征与原文本词向量表示通过拼接的方式进行融合,得到更新后的融合向量;融合向量表示情感特征与原文本词向量的融合表示,将所述融合表述输入基于胶囊网络的多语言情感分类模型中进行训练;;
e、将融合向量表示输入到基于胶囊网络的情感分类模型中得到情感分类的结果,其中基于胶囊网络的多语言情感分类模型包括注意力胶囊特征抽取模块和情感分类模块,情感分类模块中归一化层将全连接层的输出进行分类,能将一个n维的向量进行压缩,使得每一个元素的范围都处于0到1之间,并且保证每个元素的和为1,最后输出分类结果。
该装置由特征抽取模型,语种识别模块,情感特征融合模块、注意力胶囊特征抽取模块、情感分类模块组成,其中:
特征提取模块(710):用户获取文本的特征信息,将第一获取单元得到的源语言与上下文、源情感词以及源情感词对应的若干属性输入产生词向量的Glove模型中,从而提取源语言的语义特征,得到文本的向量表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111067682.4/2.html,转载请声明来源钻瓜专利网。