[发明专利]基于二分网络图层次聚类的团队研究方向挖掘方法有效

专利信息
申请号: 201610595145.X 申请日: 2016-07-25
公开(公告)号: CN106227835B 公开(公告)日: 2018-01-19
发明(设计)人: 黄芳;彭孟亚;蔡颖;龙军 申请(专利权)人: 中南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 长沙市融智专利事务所43114 代理人: 杨萍
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 二分 网络图 层次 团队 研究 方向 挖掘 方法
【权利要求书】:

1.一种基于二分网络图层次聚类的团队研究方向挖掘方法,其特征在于,包括以下步骤:

步骤1:建立基于作者关键词二分网络的作者研究兴趣表示模型;

步骤2:对作者研究兴趣表示模型进行图聚类:

将对各个关键词的关注程度差异小的作者归于同一个作者群组;得到作者群组集合;

步骤3:整体层次聚类,得到各个作者群组的研究兴趣:

将作者群组集合中只包含一个作者的群组,合并到研究兴趣相似的其它作者群组中,使得每个作者群组中包含的作者个数大于2,计算并更新各个作者群组的研究兴趣,即团队研究方向;

所述步骤1中作者研究兴趣表示模型表示为G=G(V,E);

其中V为作者节点和关键词节点所组成的集合,即V={VA∪VK},其中VA为作者集合VA={A1,A2,…,An,…,AN},VK为关键词集合VK=K={k1,k2,…,kj,…,kM},N和M分别为团队中的作者总数和团队中所有作者的学术论文集中的关键词总数;E为作者节点和关键词节点之间的连边所构成的集合,即E={e(An,kj)|An∈VA,kj∈K,wnj>0};如果作者An的学术论文中关键词列表中包含关键词集中的某个关键词kj,则权重wnj>0,在作者An和关键词kj之间存在连边e(An,kj),否则wnj=0,在作者An和关键词kj之间不存在连边;

所述步骤2包括以下步骤:

2.1)初始化作者群组集合Groups={G0},G0为一个包含团队中所有作者的作者群组;

2.2)对于定义作者群组Gi对关键词kj的关注集为:

其中,A为作者群组Gi中的作者;

2.3)通过公式(2)计算作者群组Gi对每一个关键词kj(kj∈K)的关注情况focusij

focusij=|Focuskj(Gi)||Gi|---(2)]]>

其中,表示作者群组Gi中关注关键词kj的作者数量,|Gi|表示作者群组Gi中包含的作者总数;如果关注度focusij≥α,则称作者群组Gi“强关注”于关键词kj,否则称作者群组Gi“弱关注”于关键词kj;其中α>0,为关注强度阈值;

2.4)通过公式(3)计算各个作者群组Gi在每一个关键词kj(kj∈K)上的模糊度fuzzyij

fuzzyij=δkj(Gi)=|Focuskj(Gi)|iffocusij<α||Gi|-|Focuskj(Gi)||iffocusij≥α---(3)]]>

2.5)根据fuzzyij计算各个作者群组Gi对关键词集K的模糊度fuzzyi

fuzzyi=Σj=1|K|fuzzyij---(4)]]>

其中|K|为关键词集K中的关键词总数,即M;

2.6)计算该Groups的总体模糊度Fuzzy:

Fuzzy=ΣGi∈Groupsfuzzyi---(5)]]>

2.7)找到fuzzyij的最大值,将其对应的关键词kj作为锁定词kj′

找到fuzzyi的最大值,将其对应的作者群组Gi作为待分裂的群组Gi′

将待分裂群组分裂为两个新的作者群组Gi1和Gi2,更新作者群组集合Groups;

Gi1={An∈Gi′|wnj′>0}

Gi2=Gi-Gi1

2.8)重复执行步骤2.2)~2.7),直至作者群组集合Groups中的作者群组个数等于k,其中k为聚类结果中的类别数;

2.9)比较每个阶段步骤2.6)中得到的聚类结果Groups的总体模糊度Fuzzy,将Fuzzy最小值对应的Groups作为最终的聚类结果,记为summaryGroups。

2.根据权利要求1所述的基于二分网络图层次聚类的团队研究方向挖掘方法,其特征在于,所述步骤3包括以下步骤:

3.1)将步骤2中得到的聚类结果summaryGroups中的作者群组分为非离散作者群组和离散作者群组;离散作者群组是指只包含一个作者的作者群组;将非离散作者群组作为初始簇;

3.2)计算每一个非离散作者群组Gi在关键词集合K上的类研究兴趣向量GMIi作为各个初始簇的中心;

GMIi=(GWi1,GWi2,…,GWij,…,GWiM)(6)

其中,GWij(j=1,2,…,M)表示Gi对关键词kj的关注情况,定量描述为:

GWij=ΣAn∈Giwnj|Gi|---(7)]]>

3.3)遍历离散作者群组中的各个作者An,计算其与各个初始簇的中心的欧式距离;计算方法为:

设作者An的研究兴趣向量为vn=(wn1,wn2,…,wnj,…,wnM)

dni=Σk=1M(GWij-wnj)2;]]>

3.4)比较An与各个初始簇的中心的欧式距离,选择欧式距离最小值对应的非离散作者群组,将An分配至该非离散作者群组,即将只包含作者An的离散作者群组与该非离散作者群组合并,形成一个新的作者群组;

3.5)迭代进行上述步骤3.1)~3.4),直到产生的作者群组不再发生改变;

3.6)计算并更新各个作者群组的类研究兴趣向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610595145.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top