[发明专利]一种科技文献大数据分类方法在审
申请号: | 201911066136.1 | 申请日: | 2019-11-04 |
公开(公告)号: | CN110807101A | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 张晓丹;梁冰;王莉;白海燕 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科技 文献 数据 分类 方法 | ||
本发明涉及一种科技文献大数据分类方法,属于大数据文本挖掘技术领域;该方法S1、构建拓扑关系图:该图由节点和边组成,节点为文献、句子和STKOS中的关键词;边为文献和句子,文献和关键词,句子和句子,句子和关键词及关键词和关键词之间的关系;S2、将拓扑关系图转化成拓扑关系矩阵;S3、使用训练数据及其构建的拓扑关系矩阵对分类模型进行训练;S4、文献分类:将批量的待分类文献输入到训练好的分类模型中,得到待分文献归属于不同类别的概率。对比现有技术,本发明所构建的拓扑关系图,句子考虑了语序的因素,关键词为专家标引过的术语,提升了分类准确率;采用的分类模型,无需重复训练且对每一卷积层的输入进行采样计算,提高了分类效率。
技术领域
本发明涉及一种科技文献大数据分类方法,特别涉及一种科技文献大数据深度学习分类方法,属于大数据文本挖掘技术领域。本发明提出了以文献、句子及关键词构建拓扑关系图,通过FASTGCN图神经网络模型实现文献分类的方法。该方法可以提高科技文献大数据分类的准确率和效率。
背景技术
科技文献大数据挖掘是目前数据挖掘领域研究的热点问题,如何对科技文献大数据实现准确高效地分类是这一领域研究的关键问题。深度学习是近年来新兴起来的大数据挖掘方法,在解决文献大数据分类方面取得了一定的进展。目前常用的文献大数据深度学习方法有:Word Embeddings、卷积神经网络CNN和LSTM等,这些方法虽然取得了一定的分类成果,但也有各自的局限。Word Embeddings方法虽然进行了优化和改进,但对于处理连续性的问题具有局限性,CNN方法只能解决输入数据符合正定性矩阵的问题,LSTM方法对短文本的分类问题更有效果。
图神经网络方法是近两年发展起来的一种新的解决图形分类的模型,是目前深度学习领域研究的热点之一,具有处理不规则矩阵的功能,弥补了CNN模型的局限。该模型对构建的拓扑关系图进行图卷积运算,获取特征从而实现分类。已在视觉发现、机器翻译等领域获得了很好的分类效果。
图神经网络的输入是拓扑关系图,所以拓扑关系图的不同会导致不同的分类结果。因此拓扑关系图的构建对于分类结果具有很大的影响。目前已有的图神经网络文本分类方法主要有基于文本构建的拓扑关系图、基于句子构建的拓扑关系图以及基于文本与抽取词的拓扑关系图,其中基于文本与抽取词构建的拓扑关系图的方法分类准确率高,但由于GCN是直推式的图神经网络模型,因此在分类时需要重新进行训练,无法保证具有实时性要求的分类任务,同时,该方法在构建拓扑关系图时没有考虑语序问题,因此对准确性有些影响。本发明主要针对这一模型存在的效率及准确率的问题提出了新的解决方法。
发明内容
本发明的目的是为解决科技文献大数据分类准确率及效率问题,提出了一种图神经网络的分类方法。
本发明是通过以下技术方案实现的。
一种科技文献大数据分类方法,包括以下步骤:
步骤1,构建拓扑关系图:
拓扑关系图由节点和边组成,节点分别为:文献、句子和关键词;其中,文献节点由文献的标题、文献关键词及摘要组成,句子节点为由文献摘要中提取的具有语序特征的句子,关键词节点为STKOS中的术语,其中STKOS为国家图书文献中心研发的超级词典;
作为优选,所述句子抽取算法采用LSTM方法。
边为节点之间的关系,分别是:文献和句子,文献和关键词,句子和句子,句子和关键词以及关键词和关键词;
作为优选,所述文献和句子之间的关系采用word2vec后的相似度描述;文献和关键词之间的关系采用TFIDF描述;句子和句子之间的关系采用句子word2vec后的相似度描述;句子和关键词之间的关系采用CHI描述;关键词和关键词之间的关系采用PMI描述。
步骤2,将拓扑关系图转化成拓扑矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911066136.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置