[发明专利]基于文献共引聚类的研究前沿可视分析方法有效
申请号: | 201810050342.2 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108509481B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 张加万;代文静;王萌;郭青云 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F17/22 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于文献共引聚类的研究前沿可视分析方法:建立所研究领域的文献数据库,对所下载的论文数据进行编码;抽取文献数据库中引用次数靠前的施引文献作为核心高被引施引文献,引用次数靠前的外部参考文献作为高被引外部参考文献,将高被引外部参考文献添加到核心高被引施引文献中共同作为核心高被引的施引文献;生成核心高被引施引文献的直引矩阵和共引矩阵;将共引矩阵中为零的数值通过直引矩阵中对应位置的数值变换来赋值;基于共引矩阵,生成共引网络并从网络中找到稠密的子图;对前沿话题进行术语抽取;对共引网络的聚类结果进行可视分析设计。 | ||
搜索关键词: | 矩阵 可视 文献数据库 聚类 参考 外部 抽取 引用 聚类结果 数值变换 分析 网络 下载 研究 稠密 话题 | ||
【主权项】:
1.一种基于文献共引聚类的研究前沿可视分析方法,包括以下步骤:步骤一、建立所研究领域的文献数据库,对所下载的论文数据进行编码,这些论文称为施引文献,其中包含论文的基本信息:论文题目,摘要,关键字,作者,被引数量,参考文献;步骤二、从施引文献的基本信息中,抽取参考文献并进行编码,同时建立施引文献和参考文献的引用关系数据表,参考文献包含内部参考文献IR,外部参考文献ER,其中,内部参考文献代表该参考文献在文献数据库中,否则为外部参考文献;步骤三、抽取文献数据库中引用次数靠前的施引文献作为核心高被引施引文献,引用次数靠前的外部参考文献作为高被引外部参考文献,将高被引外部参考文献添加到核心高被引施引文献中共同作为核心高被引的施引文献;根据上一步骤构成的引用关系数据表生成核心高被引的施引文献的直引矩阵,直引矩阵描述了核心高被引的施引文献之间的直接引用关系,如果一篇施引文献引用了另一篇施引文献,则在直引矩阵中对应位置标注为1,共引矩阵使用共同引用的方式描述两篇施引文献的相似度,称为共引相似度,共引矩阵可以由直引矩阵直接转化而成,共引矩阵中第i个节点和第j个节点的元素即共引相似度为:
ci,cj表示节点i和j的引用次数;步骤四、遍历共引矩阵,将共引矩阵中为零的数值通过直引矩阵中对应位置的数值变换来赋值,其变换公式为:
其中t_value为0.7;步骤五、基于共引矩阵,生成共引网络并从网络中找到稠密的子图,根据节点间相互距离和权重应用拓扑聚类方法将网络划分成簇,从而找到在每个簇中具有高密度链接的紧密结合的部分;步骤六、将上一步骤中划分为簇的网络数据转化为json格式,并在力导向图force‑directed Graph中展示和发掘,其中:每个节点代表一篇论文;不同的颜色表征着不同的话题领域;节点大小由中介中心度来指示节点的重要性,最大节点尺寸标记中介中心度大于0.5,中间节点尺寸表示中介中心度在0.3和0.5之间,普通节点表示中介中心度小于0.3;步骤七、对前沿话题进行术语抽取,选择文献数据库中施引文献的关键词作为特征词,对每个簇的关键字进行术语频率统计,计算其相似性,将这些关键字按单数/复数,拼写错误,缩略词或包含关系进行合并,并对关键字进行手工清洗以确保其准确性;确定阈值,选取符合阈值的关键字进行可视化展示和分析;步骤八、对共引网络的聚类结果进行可视分析设计,增加可视导航和过滤操作,用以观察两个簇之间的关系并帮助探索共引网络结构,提供时间演变共引网络结构视图,分析簇群的可统计属性并进行展示,包括单个簇的节点总数,总引用次数和平均出版年份。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810050342.2/,转载请声明来源钻瓜专利网。