[发明专利]多信息融合的科研文献主题发现和跟踪方法及其系统有效

专利信息
申请号: 201610304040.4 申请日: 2016-05-09
公开(公告)号: CN105956130B 公开(公告)日: 2019-04-09
发明(设计)人: 周厚奎;王陈燕 申请(专利权)人: 浙江农林大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/36
代理公司: 暂无信息 代理人: 暂无信息
地址: 311300 浙江省杭州市临*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种多信息融合的科研主题发现和跟踪方法及其系统,其方法包括步骤:S1,指定学科的科研文献下载,文献元数据的整理;S2,文献元数据的预处理形成文献数据集;S3,建立综合利用文本和引用信息的多源信息融合的科研文献概率主题模型,发现主题词的分布和主题核心文献的分布;S4,以获取的主题核心文献分布和主题词分布为基础,结合文献的时间信息,利用主题跟踪计算公式,跟踪科研主题的变化情况。本发明的实施例所提供的科研主题发现和跟踪方法和系统,可以实现揭示挖掘预设科研领域的科研主题,科研人员的研究兴趣随时间变化的规律,有助于把握科研主题的演化脉络。
搜索关键词: 信息 融合 科研 文献 主题 发现 跟踪 方法 及其 系统
【主权项】:
1.一种多信息融合的科研主题发现和跟踪方法,其特征在于,包括以下步骤:S1,指定学科的科研文献下载,文献元数据的整理;S2,文献元数据的预处理形成文献数据集;S3,建立综合利用文本和引用信息的多源信息融合的科研文献概率主题模型,发现主题词的分布和主题核心文献的分布;S4,以获取的主题核心文献分布和主题词分布为基础,结合文献的时间信息,利用主题跟踪计算公式,跟踪科研主题的变化情况;上述步骤S3具体包括:S31,根据数据集的文献引用关系建立文献引用概率主题模型R1,该概率主题模型R1的特征在于,根据文献主题分布Ddoc_topic(;d)~θd和主题文献分布利用吉布斯采样来生成主题,得到每个主题的核心文献的分布其中有θd~Dir(α)和S32,对S31步骤中生成的主题按照属于该主题的文献的概率从高到低进行排序,取每个主题中概率排在前五分之一的文献组成新的主题S33,对S32步骤中生成的每个主题利用组成该主题的文献的内容建立基于“词袋”模型的概率主题模型R2,该概率主题模型R2的特征在于,根据文献主题分布Ddoc_topic(;d)~θ′d来生成主题z′d,n,再根据主题词的分布来生成文献的词,利用吉布斯采样算法公式来生成模型参数即主题词的分布和文献主题的分布θ′m,k′,其中有θ′d~Dir(α)和用所得主题模型的参数和θ′m,k′组成主题上述步骤S4具体包括:S41、将属于主题的文献按照文献所属的时间t,以年y为单位离散到对应的时间窗口td;S42、按照以下公式计算主题zk′在时间窗口td的主题强度p(zk′|td):其中λ和μ为加权系数,Dt和Nt分别为时间窗口td内所包含的总文献数和总单词数,θ′d,k′表示td时间内的文档d的第k′个主题的概率分布;S43、以年为单位的时间为横坐标,每年时间上计算得到的主题强度p(zk′|td)为纵坐标,绘制出主题随时间变化的曲线。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江农林大学,未经浙江农林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610304040.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top