[发明专利]一种科研文献话题发现和演化跟踪的方法在审
申请号: | 201610913510.7 | 申请日: | 2016-10-20 |
公开(公告)号: | CN106570088A | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 周厚奎;于慧敏 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种科研文献话题发现和演化跟踪的方法,该方法首先下载某一学科的科研文献,整理所得文献元数据,文献元数据进行数据预处理得到文献元数据集;然后利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布,之后将提取的话题在时间轴上进行划分,形成不同时间段上的子话题;最后计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。本发明综合利用了文献的文本和引用信息来发现话题,获得的话题质量更高、更符合实际。本发明可以实现发现重要的科研话题和跟踪这些话题随时间的演化情况,有助于科技人员迅速把握科研话题和话题的演化脉络。 | ||
搜索关键词: | 一种 科研 文献 话题 发现 演化 跟踪 方法 | ||
【主权项】:
一种科研文献话题发现和演化跟踪的方法,其特征在于,包括以下步骤:A1,下载某学科领域的科研文献,整理所得文献元数据。A2,对A1中下载的文献数据进行预处理形成文献数据集S。A3,对A2整理形成的文献数据集S,利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布。A4,利用属于某一个主题的所有文档的时间信息,将提取的主题在时间轴上进行划分,形成不同时间段上的子主题。A5,利用话题之间的相关性度量方法计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。上述步骤A3具体包括以下子步骤:A31.根据文献数据集S的文献之间的引用关系建立文献引用矩阵[M]m*m,其中m为具有引用关系的文献的数量。将矩阵M按列归一化,运用非负矩阵分解的方法将矩阵M分解为两个非负矩阵[B]m*z和[H]z*m,其中m是分解以后B矩阵的行和H矩阵的列的数量,即M=B*H。A32.对矩阵B和H分别按列归一化得到矩阵C和M。其中,矩阵C的每个元素ci,j表示每个话题(聚类)i中包含引用文档j的概率,矩阵M的每个元素mi,j表示每个引用文档i属于某一个话题(聚类)j的概率。A33.对A32步骤中生成的每个话题ci,j,利用组成该话题的文献的内容建立基于“词袋”模型的LDA概率话题模型。该LDA概率话题模型将话题考虑为词的集合,其具体的生成过程为:根据文献话题分布Ddoc_topic(;d)~θd来生成话题zd,n,再根据话题词的分布来生成文献的词,利用吉布斯采样来生成模型参数即话题词的分布和文献话题的分布θj,k,其中有θd~Dir(α)和其中α、β是Dirichlet分布的参数,所得话题模型的参数和θj,k组成话题上述步骤A4中的话题在时间轴上的分割,主要是利用属于某一个话题的文档的时间信息,将话题在不同的时间段上进行分割,形成该时间段上的子话题其中K是话题的数量,P是时间段的数量。具体的时间划分方案如下:根据划分的时间段数P、文档的起始时间t0、终止时间ts来确定每一个时间段的时间间隔的大小为(ts‑t0)/P。上述步骤A5中的话题演化分析具体包括:A51.对任意相邻的两个时间间隔上的两个话题zi和zj利用每个话题的词的分布和每个话题的核心论文的分布来计算两个话题的关系;A52.对相邻时间段上的任意的两个话题按照A51所示步骤求解相关性度量,为度量值大于一定门限值的两个话题建立有向边,边的方向按照话题之间的时间关系来确定,以此来构建话题之间的演化关系图。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610913510.7/,转载请声明来源钻瓜专利网。