[发明专利]一种科技文献大数据分类方法在审

申请号：	201911066136.1	申请日：	2019-11-04
公开（公告）号：	CN110807101A	公开（公告）日：	2020-02-18
发明（设计）人：	张晓丹;梁冰;王莉;白海燕	申请（专利权）人：	中国科学技术信息研究所
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06N3/08
代理公司：	北京理工正阳知识产权代理事务所(普通合伙) 11639	代理人：	王民盛
地址：	100038***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种科技文献数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种科技文献大数据分类方法，其特征在于：包括以下步骤：

S1、构建拓扑关系图：拓扑关系图由节点和边组成，节点分别为：文献、句子和关键词；其中，文献节点由文献的标题、文献关键词及摘要组成，句子节点为由文献摘要中提取的具有语序特征的句子，关键词节点为STKOS中的术语，其中STKOS为国家图书文献中心研发的超级词典；边为节点之间的关系，分别是：文献和句子，文献和关键词，句子和句子，句子和关键词以及关键词和关键词；

S2、将拓扑关系图转化成拓扑关系矩阵；

S3、使用训练数据以及基于训练数据通过S1和S2构建的拓扑关系矩阵对分类模型进行训练得到训练好的分类模型；

S4、待分文献分类：将批量的待分类文献采用步骤1构建拓扑关系图，然后采用步骤2将拓扑关系图转化成矩阵，然后将矩阵和待分文献输入到通过步骤3训练好的分类模型中进行分类，得到待分文献归属于不同类别的概率，从中选取最大概率对应到类别作为文献分类。

2.根据权利要求1所述的方法，其特征在于：所述句子抽取算法采用LSTM方法。

3.根据权利要求1所述的方法，其特征在于：所述文献和句子之间的关系采用word2vec后的相似度描述；文献和关键词之间的关系采用TFIDF描述；句子和句子之间的关系采用word2vec后的相似度描述；句子和关键词之间的关系采用CHI描述；关键词和关键词之间的关系采用PMI描述。

4.根据权利要求1所述的方法，其特征在于：所述分类模型采用FASTGCN模型，卷积层为3层；激活函数选择RELU；分类函数选择SOFTMAX函数；误差函数选择交叉熵函数，通过将模型分类结果与输入带有标签的文献分类对比获得误差，采用梯度下降方法反传误差对模型参数进行训练，直到误差在预设阈值范围。

5.根据权利要求1-4任一所述的方法，其特征在于：为了提高效率，对各卷积层输入的数据先进行采样再输入。

6.根据权利要求5所述的方法，其特征在于：所述采样选用马尔科夫算法进行采样。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所，未经中国科学技术信息研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911066136.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种信息处理方法、平台、系统及计算机存储介质
下一篇：一种耐寒氯丁橡胶及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种科技文献大数据分类方法在审

专利文献下载