[发明专利]一种面向时间序列的热点聚类方法在审
申请号: | 202010100128.0 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111259156A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 胡春明;彭铁虎;郝瑞东 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 时间 序列 热点 方法 | ||
本发明通过机器学习领域的方法,实现了一种面向时间序列的热点聚类方法,通过使用DBSCAN算法对剩余的关键词进行聚类的论文聚类步骤、综合考虑共现词对的位置信息、词性、TF_IDF值以及共现词的互信息的主题词生成步骤、根据给定热点词的面向时间序列统计输出步骤三个步骤,实现了对输入一个给定学科领域的大量论文后,对关键词进行生成和聚类,形成领域内的热点标签,并最终实现根据关键词实现根据领域内的热点进行发展趋势折线图的输出,以指导对学科发展趋势的预测。
技术领域
本发明涉及机器学习领域,尤其涉及一种面向时间序列的热点聚类方法。
背景技术
随着信息时代的快速发展以及互联网热潮的再一次兴起,每日在网络上中传送的数据量已经达到了ZB级别,数据就是知识、就是经验、就是规律,如何高效地利用这些数据创造出更大的价值成为了当今研究者们不懈奋斗的一个重要目标。而随着近些年人工智能井喷式地爆发,各种机器学习算法、深度学习算法成为了与大数据时代最好的搭配,“大数据+机器学习算法”帮助我们完成了以前只能幻想的目标。
热点聚类指的是从学科包含的成果信息出发,研究其基于时间序列的热点轨迹。成果信息包括:论文、专利、项目等。每个学科的研究热点方向会随着时间的发展产生巨大变化,以计算机学科为例:计算机是一个专业方向非常丰富的学科,包括云计算、计算机视觉、自然语言处理、信息安全、计算机网络等等。如果我们想要了解这些研究方向的发展趋势,每一年比较火热的研究方向,可以主要通过聚类的方式解决。聚类,即将将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,聚类分析起源于分类学,但是聚类不等于分类,分类指的是已有固定数目的分类,把待分类对象根据条件划分到这些已有类别中;而聚类与分类的不同在于,聚类所要求划分的类是未知的。以下将对现有的聚类技术进行总结,并分析基于现有技术仍不能解决的问题。
现有的机器学习方法中,无监督的方法由于不需要训练过程、不需要预先对文档进行手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行聚类的重要手段,当前绝大部分的聚类算法也属于无监督的机器学习算法。主要的算法有以下几种:
1、基于距离划分思想的K-means算法、CLARANS算法等。
2、基于层次聚类思想的BIRCH算法、CURE算法等。
3、基于密度划分思想的DBSCAN算法、OPTICS算法等。
4、基于网格的STING算法、CLIQUE算法等。
5、基于图的CLICK算法、OPOSSUM算法等。
以及同步聚类、近邻传播聚类等等。
现有的聚类方法非常丰富,但均仅停留在将静态数据进行分类的步骤。而一些迫切需要的现实问题,通过以上列举的算法并不能帮助我们完成这一目的。比如想将某一个学科下的论文进行研究热点的划分,并按照时间序列进行趋势分析时会存在两个问题:第一、现有分类算法只能将成果信息进行聚类划分,但是每个类别的主题词不能确定。第二、以上的聚类算法都忽略了时间这个特征,不能帮助我们从时间维度去分析热点的发展趋势。
发明内容
为了解决目前推荐系统的一些弊端,我们提出一种面向时间序列的热点聚类方法,其包括三个步骤:
步骤一:输入一学科论文进行聚类,其具体方法为:输入文件,将包括所述学科论文的关键词信息的文件导入模型,所述关键词为:标题、摘要、论文关键词、发表年份;取出所述关键词进行词频统计,将词频小于某一阈值的词删除,剩余的词进行词向量计算;使用DBSCAN算法对剩余的关键词进行聚类;将论文按照其关键词所在类别进行分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010100128.0/2.html,转载请声明来源钻瓜专利网。