[发明专利]一种基于H-GCN的学术空间构建方法在审
申请号: | 202110027826.7 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112800749A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 赵子鸣;耿子衿;李本继;张江;陈清华 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gcn 学术 空间 构建 方法 | ||
本发明公开了一种基于H‑GCN的学术空间构建方法,不仅能综合考虑文章所在引文网络的结构信息以及文章内容上的相似性,而且能利用双曲空间的性质而自然体现出知识的层级结构。首先,基于文章间的引用关系构建科学引文网络,得到网络的邻接矩阵;其次,对文章的文本内容进行分词、数据清洗,并基于文本嵌入技术得到文章向量;最后,在双曲空间中训练一个图卷积神经网络,得到每篇文章的高维向量表示,并投影到庞加莱圆盘上进行展示。该方法应用前景广阔,基于学术空间及文章向量,我们可以在全新的框架下,定量化研究科学重要性评价、科研合作推荐、科研兴趣转移、科学成功路径、知识发现与传播等重要科学问题,在科学学领域具有重要意义。
技术领域
本发明为一种基于H-GCN的学术空间构建方法,涉及深度学习、图表示学习、自然语言处理与科学学领域。
背景技术
科学研究,是人类为理解我们所生活的宇宙而不断积累知识的过程。伴随着人类文明的进步,更优越的经济条件、更多的研究学者、更丰富的学术期刊大大加快了科学领域的产出迭代速度。随着科学自身的发展,科学学已经成为一个重要的研究领域。科学学所关注的对象是科学发展本身,旨在了解、量化和预测科学研究及其结果,是当前学者研究的前沿和热点领域之一。
科学学,以科学领域的相关主体为基本研究对象,包括科研人员及其团体、科研成果及其载体,旨在量化科学研究的客观规律,探求科学研究的内在机制,预测科学研究的影响与发展,以期找到科学研究的一般范式。从复杂系统的角度看,科学学是一个由科学家、科学机构、文献作品、科学思想等构成的自组织、自生长的复杂社会系统,呈现出错综复杂的相互关系,并具有动态演变的特征。
近年来,越来越多的科学家用复杂网络的研究方法来研究科学学问题。科学学领域的复杂网络主要包括科学引文网络和科学家合作网络,以及新兴的共引网络、文献耦合网络、创新型学科网络等。然而,这些传统的复杂网络在构建的过程只关注了科研实体之间的客观关系,忽视了科研实体内在属性的差异。但这种内在属性的差异是重要的,它是推动科学复杂系统发展与演化(科研兴趣的转移)的原动力,需要采取必要的手段将这些蕴含大量具有价值的信息考虑进去。
发明内容
本发明提出了一种利用双曲图卷积神经网络方法(H-GCN)构建科学学复杂网络(学术空间)的方法,将深度学习、双曲几何与复杂网络分析方法进行有机结合并应用于科学学领域。我们构建的学术空间不仅能综合考虑文章所在引文网络的结构信息以及文章内容上的相关性,而且能利用双曲空间的性质而自然体现出知识的层级结构。该学术空间可以定量化研究科研实体间的关系,加强人们对科学复杂系统发展与演化过程的理解,揭示优秀学者的学术生涯发展模式与规律,对学者的未来发展进行预测与指导。
所述H-GCN,即双曲图卷积神经网络方法,即将卷积神经网络(CNN)方法应用于处理双曲空间下的图结构数据,旨在有效汇聚邻居节点信息,得到融合网络结构信息与节点信息的高维向量表示,在计算机视觉、自然语言处理、推荐系统等领域应用广泛。所述图(Graph),是指数学领域中用顶点和连边建立相应关系的拓扑图。
本发明为一种基于H-GCN的学术空间构建方法,包括以下步骤:
(1)基于文章间的引用关系构建科学引文网络,得到网络的邻接矩阵。
(2)对文章的文本内容进行分词、数据清洗,并基于word2vec、LDA、BERT等文本嵌入技术得到文章向量。
所述word2vec,是一个用于处理文本的双层神经网络,它的输入是文本语料,输出是一组该语料中词语的特征向量。word2vec并不是深度神经网络,但可以将文本转换为深度神经网络能够理解的数值形式。
所述LDA(Latent Dirichlet Allocation),是一个三层贝叶斯概率模型,包含词、主题和文档三层结构。作为一种非监督机器学习技术,LDA可以将文档集中每篇文档的主题以概率分布向量(即文章向量)的形式给出,从而达到识别大规模文档集或语料库中潜藏的主题信息的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110027826.7/2.html,转载请声明来源钻瓜专利网。