[发明专利]基于深度学习的科技文献作者名消歧方法及web端消歧装置有效
申请号: | 202011536139.X | 申请日: | 2020-12-22 |
公开(公告)号: | CN112597305B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 王双双;苏颖;龙春 | 申请(专利权)人: | 上海师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/30;G06F40/284;G06N3/0442;G06N3/0464;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵志远 |
地址: | 200234 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 科技 文献 作者 名消歧 方法 web 端消歧 装置 | ||
1.一种基于深度学习的科技文献作者名消歧方法,其特征在于,所述的消歧方法包括:
步骤1:获取待消歧科技文献人名的论文数据集;
步骤2:获取数据特征;
步骤3:使用四层卷积网络提取全局特征向量,同时使用图卷积网络提取局部特征向量;
步骤4:使用LSTM神经网络实现估计聚类簇数k;
步骤5:通过层次聚类实现科技文献作者名自动消歧;
所述的步骤2具体为:
抽取论文间的关系网络;
使用word2vec中的skip-gram算法来对文本特征进行表示学习;
采用IDF逆文档频率来对文本语义特征进行线性加权;
所述的步骤3中四层卷积网络的损失函数为三重态损失函数;
所述的步骤3中图卷积网络提取局部特征向量的具体方法为:
步骤3-1:在论文异质网络中选择一个节点作为初始节点;
步骤3-2:基于所述节点之间的关联关系,由所述初始节点游走至第二节点,获得元路径;
步骤3-3:基于所述元路径的类型,逐步迭代至预设的节点数量,获得长路径;
步骤3-4:利用GCN图卷积网络算法实现对异质网络关联数据的特征学习,获局部特征向量;
所述的步骤4和步骤5具体为:
步骤4-1:将四层卷积网络提取的全局特征向量与使用图卷积网络提取的局部特征向量进行融合,获得融合特征矩阵;
步骤4-2:使用循环神经网络LSTM获取聚类簇数k;
步骤4-3:使用层次聚类法对融合特征矩阵进行聚类;
进行层次聚类时以步骤4-2获取的聚类簇数k作为层次聚类的簇数;
步骤4-4:进行若干次层次聚类,直至聚类结果稳定;
步骤4-5:对聚类结果进行解析即可获得作者名的消歧结果。
2.根据权利要求1所述的一种基于深度学习的科技文献作者名消歧方法,其特征在于,所述的论文间的关系网络包括:
以论文为节点,节点之间通过论文的共同信息构建关联关系,所述共同信息包括共同作者或/和存在共词的待消歧人名所属机构;
其中,节点之间通过共同作者构建的关联关系为第一关联关系,所述第一关联关系的关联度和共同作者的数目呈正向变化;节点之间通过存在共词的待消歧人名所属机构构建的关联关系为第二关联关系,所述第二关联关系的关联度和所属机构的共词数目呈正向变化。
3.根据权利要求1所述的一种基于深度学习的科技文献作者名消歧方法,其特征在于,所述的IDF逆文档频率的计算方法为:
4.根据权利要求1所述的一种基于深度学习的科技文献作者名消歧方法,其特征在于,所述的步骤4-3具体为:
设定每一个人名特征向量的聚类簇数量为k,每个对象看作一类,计算每两个对象之间的最小聚类,根据最小距离合并新类。
5.一种使用如权利要求1中所述消歧方法的web端消歧装置,其特征在于,所述的web端消歧装置包括:
论文数据获取层(1),用于获取待消歧人名的论文数据集,并对数据集进行预处理;
信息传输层(2),用于通过前后端交互技术进行信息传输;
消歧逻辑层(3),内嵌科技文献作者名消歧方法,用于对获取的论文数据集进行消歧;
数据存储层(4),用于基于所述特征融合矩阵进行聚类,以获取聚类论文集和离群论文集;
所述的论文数据获取层(1)与信息传输层(2)相连;所述的消歧逻辑层(3)和数据存储层(4)分别与信息传输层(2)相连;所述的消歧逻辑层(3)与数据存储层(4)相连。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学,未经上海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011536139.X/1.html,转载请声明来源钻瓜专利网。