[发明专利]一种基于类别嵌入的层次化文本分类计算方法有效

专利信息
申请号: 201910675336.0 申请日: 2019-07-25
公开(公告)号: CN110597983B 公开(公告)日: 2023-09-15
发明(设计)人: 马应龙;张鹏 申请(专利权)人: 华北电力大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 史双元
地址: 102206 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 类别 嵌入 层次 文本 分类 计算方法
【说明书】:

发明属于计算机文本分类技术领域,尤其涉及一种基于类别嵌入的层次化文本分类计算方法,包括:步骤1:采用图嵌入算法SDNE对文本类别层次树中每个节点进行编码得到类别嵌入向量;步骤2:采用对前向GRU与后向GRU的最后一个隐藏状态进行拼接的方式来对文本进行编码,得到文本向量;步骤3:将文本向量表示与类别嵌入向量进行拼接,得到新的文本表示;步骤4:采用多层感知器和SoftMax层基于文本表示对文本进行分类,输出分类结果。实验证明本发明大大的降低了子模型的数量,同时提高分类准确率。

技术领域

本发明属于计算机文本分类技术领域,尤其涉及一种基于类别嵌入的层次化文本分类计算方法。

背景技术

在信息时代的今天,互联网每天会新增海量的文本数据,如何高效的对这些文本进行自动分类,一直是人们的研究热点。文本分类技术对很多应用都有重要意义,如文档搜索,文档管理和信息检索。现存的文本分类算法主要采用有监督的机器学习算法,如决策树,朴素贝叶斯,支持向量机等,并且使用词袋模型或TD-IDF模型进行文本表示。最近,许多基于深度学习的文本分类算法被提出,相比其他算法,基于深度学习的算法在很多文本分类任务上取得了更高的准确率。

但是,随着文本数据的爆炸式增长,文本的类别数量也在迅速增加,这意味着在对文本进行分类时,要考虑更多可能的结果,使得文本分类任务更具有挑战性。一种解决这个问题的有效方法是在分类时引入类别的层次信息,即层次化分类。平面文本分类算法不考虑文本类别之间的关系,在处理文档时认为类别是互相独立的,实际上一个类别可能是另一个类别的子类,即一个文档如果属于类别ci,那么其必然属于ci的父类别,这种类别之间的层次结构是重要的信息。

在层次化分类问题中,类别之间并不是毫无关联的,而是具有一个层次化的结构,通常是树或有向无环图,其中子类别是父类别的子节点。层次化分类算法为样本在类别的层次结构中寻找一条路径,该路径上的各类别即是分类结果,与之相对的是平面算法忽视类别之间的结构信息,其常见的做法是直接在那些叶子节点代表的类别中选择一个作为分类结果。

发明内容

针对上述技术问题,本发明提出了一种基于类别嵌入的层次化文本分类计算方法,包括:

步骤1:采用图嵌入算法SDNE对文本类别层次树中每个节点进行编码得到类别嵌入向量;

步骤2:采用对前向GRU与后向GRU的最后一个隐藏状态进行拼接的方式来对文本进行编码,得到文本向量;

步骤3:将文本向量表示与类别嵌入向量进行拼接,得到新的文本表示;

步骤4:采用多层感知器和SoftMax层基于文本表示对文本进行分类,输出分类结果。

所述步骤1包括:将每个节点编码为一个低维稠密向量,采用深度自编码器,并改造损失函数,通过减小一条边上两个节点的向量表示的差异来保存图的局部结构特征。

所述类别嵌入向量保存了类别在层次体系中的结构信息,这些结构信息能反映类别在层次体系中的位置信息以及类别之间的关系。

所述步骤2包括:将文本表示与上一层的分类结果的类别嵌入一起用于本层的分类。

所述深度自编码器首先通过多次非线性变换将输入数据x编码到一个较低维度的表示空间,得到数据的低维度表示y,然后再次通过多次非线性变换进行解码,试图还原出输入数据,记解码得到的结果是通过尽可能的减少x和的差异来保证低维度的y中保存了足够多的原始数据信息。

所述GRU中使用门机制,包括更新门和重置门,更新门用于控制前一时刻的状态信息被保留到当前状态中的程度,更新门的值越大说明前一时刻的状态信息保留越多;重置门控制前一状态有多少信息被写入到当前的候选状态上,重置门越小,前一状态的信息被写入的越少。

本发明的有益效果:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910675336.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top