[发明专利]基于网络表示学习训练的学术团队构建方法在审
申请号: | 201910930765.8 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110717043A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 李微;陈瑞 | 申请(专利权)人: | 三螺旋大数据科技(昆山)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215300 江苏省苏州市昆山*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 团队 网络表示 聚类 读取 主题相似度 概率分布 基于机器 科研数据 向量聚类 学习训练 主题模型 向量 预设 数据库 输出 学习 社区 网络 | ||
本发明公开了一种基于网络表示学习训练的学术团队构建方法,其包括以下步骤,步骤一:读取数据库中学者及其科研数据;步骤二:使用作者主题模型训练得到作者主题概率分布;步骤三:构建初始学术网络;步骤四:基于网络表示学习方法训练得到学者向量;步骤五:基于机器学习聚类方法将学者向量聚类;步骤六:满足预设阈值的簇作为学术团队输出。本发明的团队构建效率快,构建的团队主题相似度高,可以根据需要,通过改变聚类个数,从而划分粒度不同的社区。
【技术领域】
本发明属于社会网络分析技术领域,特别是涉及一种基于网络表示学习训练的学术团队构建方法。
【背景技术】
随着科学研究的发展,科研学者之间的广泛合作构成了一个复杂的学术网络,学术团队的规模也在扩大,团队成员的关系复杂,深入认识和挖掘学术团队的构成情况,有利于产学研合作中帮助企业快速了解高校学者群体信息,也可以帮助科研管理部门识别科技人才和科研团队,促进学科发展。
利用社区发现技术可以完成学术团队划分任务,现有的方法大多都是基于网络拓扑结构信息,主要包括基于聚类的方法、基于模块化的方法、谱聚类和随机分块模型等方法;现有技术中专利申请号为201810851399.2 也公开了一种基于学术网络的团队构建方法,这些方法虽然能够进行社区划分,但在学术网络中,节点对应的学者包含着大量文本信息,例如学者的研究方向、论文数据等,仅仅基于网络拓扑结构的划分方法忽略了文本信息,难以保证学者社区的主题内聚性,并且现有社区发现方法无法对划分后的社区规模进行控制,基于模块度优化的划分方法也容易产生未被有效分割、规模非常大的社区。
因此,有必要提供一种新的基于网络表示学习训练的学术团队构建方法来解决上述技术问题。
【发明内容】
本发明的主要目的在于提供一种基于网络表示学习训练的学术团队构建方法,其团队构建效率快,构建的团队主题相似度高,可以根据需要,通过改变聚类个数,从而划分粒度不同的社区。
本发明通过如下技术方案实现上述目的:一种基于网络表示学习训练的学术团队构建方法,其包括以下步骤,
步骤一:读取数据库中学者及其科研数据;
步骤二:使用作者主题模型训练得到作者主题概率分布;
步骤三:构建初始学术网络;
步骤四:基于网络表示学习方法训练得到学者向量;
步骤五:基于机器学习聚类方法将学者向量聚类;
步骤六:满足预设阈值的簇作为学术团队输出。
与现有技术相比,本发明一种基于网络表示学习训练的学术团队构建方法的有益效果在于:在社区发现过程中,不仅考虑了学术网络的物理拓扑结构信息,通过作者主题模型训练获得作者主题概率分布,将学者包含的文本数据融入其中,从而得到了主题内聚性更高的学术团队;另外在基于机器学习聚类方法对学者向量进行聚类时,可以改变聚类个数,从而灵活控制学术团队的数量规模。
【附图说明】
图1为本发明实施例的流程示意图;
图2为本发明实施例的算法过程示意图;
图3为本发明实施例中AT模型的示意图;
图4为本发明实施例利用AT模型生成的作者主题与主题词概率分布的示意图;
图5为本发明实施例中作者主题概率分布的流程示意图;
图6为本发明实施例中学术网络示意图。
【具体实施方式】
实施例:
请参照图1,本实施例为基于网络表示学习训练的学术团队构建方法,其包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三螺旋大数据科技(昆山)有限公司,未经三螺旋大数据科技(昆山)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910930765.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种构建文档-关键词异构网络模型方法
- 下一篇:一种研报正文的文本分类方法