[发明专利]基于聚类图谱的技术文本挖掘方法和系统在审
申请号: | 202110917999.6 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113849656A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 焦建玲;陈楚曦;白羽;杨冉冉 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/35 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图谱 技术 文本 挖掘 方法 系统 | ||
本发明提供一种基于聚类图谱的技术文本挖掘方法和系统,涉及文本处理技术领域。本发明基于文献耦合方法构建技术聚类图谱,然后基于聚类图谱识别出技术的研究前沿;然后对前沿技术进行专利及引用信息的收集,进一步建立专利引用网络,通过动态前向引用全路径模型获取技术的关键发展路径图。动态前向引用全路径模型能有效提升关键发展路径图的识别精确度,充分挖掘其复杂引文网络中包含的信息,更重要的是实现了对位于关键发展路径图会聚位置的突破性技术的实时监测和预测。
技术领域
本发明涉及文本处理技术领域,具体涉及一种基于聚类图谱的技术文本挖掘方法和系统。
背景技术
聚类图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
以绿色技术为例,通过基于聚类图谱挖掘出绿色技术中的研究前沿是科研人员和决策者共同关心的焦点。已有学者尝试利用知识可视化图谱方法对绿色技术研究前沿进行探测,然而现有技术在探测研究前沿随时间演化情况后,未有进一步的对重点、要点前沿技术进行关键发展路径图挖掘与突破性技术监测,导致不能准确的挖掘出绿色技术中的关键发展路径图。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于聚类图谱的技术文本挖掘方法和系统,解决了现有技术不能准确的挖掘出技术中的关键发展路径图的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种基于聚类图谱的技术文本挖掘方法,包括:
S1、获取技术文献耦合数据;
S2、基于所述技术文献耦合数据构建技术文献聚类图谱;
S3、基于所述聚类图谱识别出技术的研究前沿,所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的技术内容;
S4、获取所述研究前沿的引用信息,构建引用网络,基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。
优选的,所述S2包括:
S201、对所述文献耦合数据进行预处理;
S202、基于预处理后的文献耦合数据建立绿色技术的文献引用耦合矩阵;
S203、使用谱系聚类方法对文献引用耦合矩阵进行聚类分析,得到技术文献的聚类图谱。
优选的,所述S201包括:
基于所述文献耦合数据建立引文索引;去除引文索引中耦合强度未达到预设阈值的文献耦合数据。
优选的,所述S4包括:
S401、获取所述研究前沿的引用信息,构建引用网络;
S402、将所述引用网络表示为有向矩阵;
S403、计算所述有向矩阵中每个有向边的权重;
S404、基于每个有向边的权重确定引用网络中的所有关键发展路径图。
优选的,所述S402包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110917999.6/2.html,转载请声明来源钻瓜专利网。