[发明专利]基于聚类图谱的技术文本挖掘方法和系统在审
申请号: | 202110917999.6 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113849656A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 焦建玲;陈楚曦;白羽;杨冉冉 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/35 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图谱 技术 文本 挖掘 方法 系统 | ||
1.一种基于聚类图谱的技术文本挖掘方法,其特征在于,包括:
S1、获取技术文献耦合数据;
S2、基于所述技术文献耦合数据构建技术文献聚类图谱;
S3、基于所述聚类图谱识别出技术的研究前沿,所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的技术内容;
S4、获取所述研究前沿的引用信息,构建引用网络,基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。
2.如权利要求1所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S2包括:
S201、对所述文献耦合数据进行预处理;
S202、基于预处理后的文献耦合数据建立绿色技术的文献引用耦合矩阵;
S203、使用谱系聚类方法对文献引用耦合矩阵进行聚类分析,得到技术文献的聚类图谱。
3.如权利要求2所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S201包括:
基于所述文献耦合数据建立引文索引;去除引文索引中耦合强度未达到预设阈值的文献耦合数据。
4.如权利要求1~3任一所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S4包括:
S401、获取所述研究前沿的引用信息,构建引用网络;
S402、将所述引用网络表示为有向矩阵;
S403、计算所述有向矩阵中每个有向边的权重;
S404、基于每个有向边的权重确定引用网络中的所有关键发展路径图。
5.如权利要求4所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S402包括:
根据引用网络中n个引用文献的引用关系,建立n×n有向矩阵P,有向矩阵P中的节点代表文献;pij是方阵P的元素,是一个代表一个定向关系的“0-1”变量;当pij的值等于1时,表示文献j引用文献i,即从节点i到节点j有一个有向边;当pij的值等于0时,表示两个文献之间没有引用。
6.如权利要求4所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S403包括:
在有向矩阵中,引用文献v的文献的数量为文献v的出度,表示为d+(v),d+(v)大于等于0;文献v引用的文献数量为入度,用d-(v)表示;eij表示文献i指向节点j的有向边,其权重见公式(2):
W(eij)=[d+(i)+1]*[d+(j)+1] (2)
其中,d+(i)表示节点i的出度;d+(j)节点j的出度。
7.如权利要求4所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S404包括:
假设从起点s到终点t有n条路径,每条路径的权重为该路径上所有边的权重之和,记为正向引用路径权重FCPW,从点s到点t的n条路径的权重的集合表示为FCPWs,其中最大权重表示为MFCPW,见公式(3):
MFCPW(p)=max{W(epci)+MFCPW(ci)}(i=1,2…m) (3)
其中:MFCPW(p)表示从文献p到其所有终端的路径的最大权重;ci(i=1,2…m)表示引用文献p的文献,即引用网络中节点p的子节点;同样,MFCPW(ci)是从文献ci开始的路径的最大权重的集合;W(epci)是从节点p到节点ci的有向边的权重;
采用R软件动态编程公式(3),计算从引用网络中每个起点开始的所有路径的MFCPW,并将相应路径上的所有节点以路径演进图形式记录下来,进行分析并绘制技术关键发展路径图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110917999.6/1.html,转载请声明来源钻瓜专利网。