[发明专利]科技情报分析中结合时滞计算的学科主题演化推理方法有效
申请号: | 201911081064.8 | 申请日: | 2019-11-07 |
公开(公告)号: | CN111046167B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 陆伟;杨金庆;魏雨晗;吴乐艳 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/383;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 科技情报 分析 结合 计算 学科 主题 演化 推理 方法 | ||
本发明公开了一种科技情报分析中结合时滞计算的学科主题演化推理方法,首先获取多源数据,形成多源科技文献数据集;从多源数据融合的角度,利用LDA模型对分布广泛、种类繁多的学科文本抽取学科主题;采用匈牙利算法实现相似矩阵二分图匹配,寻求最优匹配组合,以匹配结果构建假设,拟合线性方程,进而计算多源科技文献时滞程度;结合学科主题相似度与时滞程度融合多源数据的学科主题,构建学科主题演化过程,跟踪学科主题演化情况。本发明能够通过计算的多源数据时滞程度融合不同来源数据的主题,改善单一数据源主题演化的缺陷,增强主题演化趋势的准确性。
技术领域
本发明属于计算机技术领域,涉及一种科技情报分析方法,具体涉及一种科技情报分析中融合多源数据时滞计算的学科主题演化推理方法。
背景技术
学科主题演化是指以主题为表征的学科主题在时间维度的演化变换过程,体现一个学科的主题的分裂、聚合、延续的演化机理。学科主题的生命周期也将在学科主题演化过程中呈现。学科主题演化是探测学科新兴主题、研究热点、研究前沿的基础,是降低科研人员科技情报分析强度的重要手段。研究者通过计算多源数据的时滞程度对多源数据进行融合,并对某一领域的科研主题的演化过程进行可视化分析,探究领域学科发展的机理,有助于把握学科发展趋势。
现有的学科主题演化推理方法,主要是分析多源科技文献间发展趋势的相关性,融合相同时间跨度内的多源数据,再汇聚、识别学科新兴主题。因此多源科技文献融合仍处于前期阶段。当前的一些融合策略仅将相同时间跨度内的科技文献与特定分析目标相融合,忽略了科技文献间存在时滞性。于是,需要一种能够分析计算不同种类科技文献之间时滞程度的演化学科主题方法。
发明内容
为了解决上述技术问题,本发明提供了一种科技情报分析中融合多源数据时滞计算的学科主题演化推理方法,融合多种数据源进行抽取学科主题,生成学科主题演化过程,并通过计算主题相似度及多源数据时滞程度来融合不同来源数据的主题。能从多来源融合学科主题,提升了主题演化的准确性,完善了单一来源的缺陷。
本发明所采用的技术方案是:一种科技情报分析中结合时滞计算的学科主题演化推理方法,其特征在于,包括以下步骤:
步骤1:输入来源多样的学科数据文档;
步骤2:将上述文档以年为单位分别抽取主题;
步骤3:以年为单位计算上述从来源多样的学科数据文档中抽取的主题间相似度;
步骤4:通过中位数确定阈值,生成相似矩阵,寻求相似矩阵二分图最优匹配组合,构建线性方程模型并拟合计算时滞程度;
步骤5:根据步骤4计算的时滞程度,并结合步骤3计算的相似度融合多源数据的学科主题;融合主要立足于时滞计算结果,选择合理的学科主题融合时间点,将学科主题知识关联强度超过阈值的视为同一主题消除重复,统一表示。融入时滞计算的多源科技文献融合策略包括两种方式:其一,从学科主题知识单元层面,根据学科主题知识关联强度设定关联强度阈值,以此对不同数据源的学科主题进行融合。其二,以时滞程度为归类标准,直接汇聚不同年份多源科技文献数据集,然后识别学科主题。
步骤6:从时间维度,将融合多源数据的学科主题进行演化推理,获得演化趋势。
本发明融合多种数据源进行抽取学科主题,计算多源数据间的时滞差异,生成学科主题演化过程,提高主题演化的可靠程度,有助于探究领域学科发展的机理,把握学科发展趋势。
附图说明
图1为本发明实施例流程图;
图2为本发明具体实施过程示意图;
图3为本发明时滞计算推演图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911081064.8/2.html,转载请声明来源钻瓜专利网。