[发明专利]一种基于图核和卷积神经网络的文本分类方法有效

专利信息
申请号: 201810168847.9 申请日: 2018-02-28
公开(公告)号: CN108388651B 公开(公告)日: 2021-09-28
发明(设计)人: 郭平;张璐璐;辛欣 申请(专利权)人: 北京理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/901;G06F16/36;G06F40/289
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 唐华
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 卷积 神经网络 文本 分类 方法
【权利要求书】:

1.一种基于图核和卷积神经网络的文本分类方法,其特征在于:首先将文本预处理为图结构的表示方式,其中,图中的节点与文本中的词相对应,再基于图结构计算节点的权重,之后使用社区发现算法将图结构分解成多个子图,并使用图核技术将图映射到高维空间,得到图的张量表达,最后将该张量表达输入到卷积神经网络,对图特征进行深度挖掘,输出文本的类别;

包括以下步骤:

步骤一、通过文本分词、去除文本中的停用词、标点和数字,以及创建图将文本转化为图结构,具体为:

步骤1.1文本分词,把整篇的文章分割成词的序列;

步骤1.2去除文本中的停用词、标点和数字,将文档表示为保留词的先后次序关系的特征词序列;

步骤1.3创建图G,特征词作为图的节点N,采用滑动窗口遍历文本,若两个特征词在同一个滑动窗口中出现,则在两者之间建立一条边E,共现的次数记为边的权重W,若两个特征词不在同一个滑动窗口中出现,则不创建边;

步骤二、采用ND-IGF, node degree-inverse graph frequency, 计算节点的权重,具体为:

步骤2.1计算在步骤一求得的图G中,与节点n相连的节点在该图所有节点中的占比ND(n,g),通过如下公式(1)进行计算:

其中,g表示一个文本的图结构,n表示图中的节点,|Dn.g|表示在图g中与节点n相连的节点数量,|Ng|表示图g的节点总数;

步骤2.2计算节点n的类别区分能力,通过公式(2)使用逆向图频率IGF计算:

其中,|G|表示图的总数量,|{j:n∈Gj}|表示包含节点n的图的数量;IGF(n)指包含节点n的图越少,IGF(n)越大,则说明节点n具有好的类别区分能力;

步骤2.3综合考虑ND和IGF,评估一个节点对于图的重要程度ND-IGF(n,g):

ND-IGF(n,g)=ND(n,g)*IGF(n) (3)

若一个节点在某一类图的出现频率高,或在整个图集合的出现频率低,则可以产生出高权重的ND-IGF;因此,ND-IGF可以筛选出识别能力强的节点;

步骤三、使用社区划分算法把步骤一创建的图分割成若干子图;

步骤四、计算将步骤三中得到的若干子图转化为四维张量表示;

步骤五、构建卷积神经网络在训练集上进行训练,通过后向传播算法更新网络参数,得到文本的分类模型,通过该模型求得待分类文本的分类结果。

2.根据权利要求1所述的一种基于图核和卷积神经网络的文本分类方法,其特征在于:步骤三,具体为:

步骤3.1将图G中节点的度作为节点的聚类系数,对节点进行降序排序;

步骤3.2将聚类系数最大的节点vi初始化为社区A,将与节点vi相邻的节点组成邻域B,计算邻域B中各节点与社区A的相似度,从中选出与社区A相似度最高的节点vj,计算节点vj加入到社区A时的模块度增量ΔW(vj),若模块度增量ΔW(vj)0,则将vj加入到社区A,若模块度增量ΔW(vj)0,则不将vj加入到社区A;依次迭代所有节点,直到社区A中的节点不再变化,并将社区A中度最大的节点作为该社区的标志节点;

步骤3.3将社区A的补集作为新的图G,执行步骤3.2,直到所有的节点都有隶属的社区,子图集合记为M0

3.根据权利要求1所述的一种基于图核和卷积神经网络的文本分类方法,其特征在于:步骤四,具体包括如下子步骤:

步骤4.1使用weisfeiler-lehman算法对社区划分后得到的子图集合M0迭代h次,生成计算wl核所需要的扩充图集M;

步骤4.2从所有的社区中选定W个社区作为基准社区,每个图对应的所有子图Gi依次与选定的W个社区计算核值K,并得到图Gi的高维表达V。

4.根据权利要求1所述的一种基于图核和卷积神经网络的文本分类方法,其特征在于:步骤五,具体为:

步骤5.1定义神经网络的结构;

选用卷积神经网络,该网络由输入层、卷积层、池化层、全连接层、输出层组成;输入层的输入数据为步骤四求得的张量V,输出层的输出数据是文本的分类结果;

步骤5.2执行步骤5.1定义的卷积神经网络,并使用后向传播算法更新步骤5.1神经网络的网络参数;

步骤5.3多次迭代步骤5.2,直至损失小于某个阈值,得到分类模型,通过该模型求得待分类文本的分类结果;

其中,某个阈值是人为约定的常数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810168847.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top