[发明专利]一种基于注意力机制的多标签文本分类方法及系统在审

申请号：	202111267036.2	申请日：	2021-10-28
公开（公告）号：	CN113947161A	公开（公告）日：	2022-01-18
发明（设计）人：	郭绮雯;王勇	申请（专利权）人：	广东工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/289;G06N3/04;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	禹小明
地址：	510090 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制标签文本分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力机制的多标签文本分类方法，其特征在于，包括以下步骤：

获取包含标签的文本训练集；

对文本训练集中的文本进行词向量化，将文本训练集中的文本转换成多维的文本特征向量；

根据文本训练集中标签的共存情况构建标签共存图，引入图嵌入算法优化标签共存图中标签之间的相似度，得到标签结构矩阵；

构建基于卷积神经网络和注意力机制的多标签文本分类模型；

利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作，结合标签结构矩阵，利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系，从而训练多标签文本分类模型；

利用训练好的多标签文本分类模型进行多标签文本分类测试。

2.根据权利要求1所述的基于注意力机制的多标签文本分类方法，其特征在于，获取包含标签的文本训练集之前还包括：获取待分类文本数据集，对数据集中的待分类文本进行预处理操作；包含标签的文本训练集从预处理后的待分类文本数据集中获得。

3.根据权利要求2所述的基于注意力机制的多标签文本分类方法，其特征在于，所述对数据集中的待分类文本进行的预处理操作包括：

使用正则表达式对待分类文本进行文本过滤，然后对文本过滤后的待分类文本进行分词，去除停用词，并进行词性还原。

4.根据权利要求1所述的基于注意力机制的多标签文本分类方法，其特征在于，使用Glove词向量对文本训练集中的文本进行词向量化，将文本训练集中的文本转换成多维的文本特征向量。

5.根据权利要求1所述的基于注意力机制的多标签文本分类方法，其特征在于，所述的标签共存图表示为：

G＝(V，E)

其中，标签共存图G中的顶点、边均与邻接矩阵S相关，邻接矩阵S表示大小为k*k的矩阵，k表示标签的数量；V＝{v₁，v₂，...，v_k}是图的顶点集，顶点个数与标签的数量相同；是图G的边集，邻接矩阵S的元素由标签的共存性确定，若第i个标签和第j个标签共同出现，均作为某一文本的标签时，则第i个标签和第j个标签之间连有一条边，邻接矩阵S中的元素满足：S[i][j]＝1，否则，S[i][j]＝0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111267036.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种服务器集群的时序管理方法、装置及电子设备
下一篇：一种地基土分层系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于注意力机制的多标签文本分类方法及系统在审

专利文献下载