[发明专利]一种基于注意力机制的多标签文本分类方法及系统在审
申请号: | 202111267036.2 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113947161A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 郭绮雯;王勇 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 标签 文本 分类 方法 系统 | ||
1.一种基于注意力机制的多标签文本分类方法,其特征在于,包括以下步骤:
获取包含标签的文本训练集;
对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量;
根据文本训练集中标签的共存情况构建标签共存图,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵;
构建基于卷积神经网络和注意力机制的多标签文本分类模型;
利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作,结合标签结构矩阵,利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系,从而训练多标签文本分类模型;
利用训练好的多标签文本分类模型进行多标签文本分类测试。
2.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,获取包含标签的文本训练集之前还包括:获取待分类文本数据集,对数据集中的待分类文本进行预处理操作;包含标签的文本训练集从预处理后的待分类文本数据集中获得。
3.根据权利要求2所述的基于注意力机制的多标签文本分类方法,其特征在于,所述对数据集中的待分类文本进行的预处理操作包括:
使用正则表达式对待分类文本进行文本过滤,然后对文本过滤后的待分类文本进行分词,去除停用词,并进行词性还原。
4.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,使用Glove词向量对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量。
5.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,所述的标签共存图表示为:
G=(V,E)
其中,标签共存图G中的顶点、边均与邻接矩阵S相关,邻接矩阵S表示大小为k*k的矩阵,k表示标签的数量;V={v1,v2,...,vk}是图的顶点集,顶点个数与标签的数量相同;是图G的边集,邻接矩阵S的元素由标签的共存性确定,若第i个标签和第j个标签共同出现,均作为某一文本的标签时,则第i个标签和第j个标签之间连有一条边,邻接矩阵S中的元素满足:S[i][j]=1,否则,S[i][j]=0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111267036.2/1.html,转载请声明来源钻瓜专利网。