[发明专利]一种基于类别嵌入的层次化文本分类计算方法有效
申请号: | 201910675336.0 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110597983B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 马应龙;张鹏 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 史双元 |
地址: | 102206 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 类别 嵌入 层次 文本 分类 计算方法 | ||
1.一种基于类别嵌入的层次化文本分类计算方法,其特征在于,包括:
步骤1:采用图嵌入算法SDNE对文本类别层次树中每个节点进行编码得到类别嵌入向量;
步骤2:采用对前向GRU与后向GRU的最后一个隐藏状态进行拼接的方式来对文本进行编码,得到文本表示;
步骤3:将文本表示与类别嵌入向量进行拼接,得到新的文本表示;
步骤4:采用多层感知器和SoftMax层基于步骤3得到的新的文本表示对文本进行分类,输出分类结果;
所述步骤1包括:将每个节点编码为一个低维稠密向量,采用深度自编码器,并改造损失函数,通过减小一条边上两个节点的向量表示的差异来保存图的局部结构特征;
所述步骤2包括:将文本表示与上一层的分类结果的类别嵌入一起用于本层的分类。
2.根据权利要求1所述文本分类计算方法,其特征在于,所述类别嵌入向量保存了类别在层次体系中的结构信息,这些结构信息能反映类别在层次体系中的位置信息以及类别之间的关系。
3.根据权利要求1所述文本分类计算方法,其特征在于,所述深度自编码器首先通过多次非线性变换将输入数据x编码到一个较低维度的表示空间,得到数据的低维度表示y,然后再次通过多次非线性变换进行解码,试图还原出输入数据,记解码得到的结果是通过尽可能的减少x和的差异来保证低维度的y中保存了足够多的原始数据信息。
4.根据权利要求1~3任一所述文本分类计算方法,其特征在于,所述GRU中使用门机制,包括更新门和重置门,更新门用于控制前一时刻的状态信息被保留到当前状态中的程度,更新门的值越大说明前一时刻的状态信息保留越多;
重置门控制前一状态有多少信息被写入到当前的候选状态上,重置门越小,前一状态的信息被写入的越少。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910675336.0/1.html,转载请声明来源钻瓜专利网。