[发明专利]一种面向时间序列的热点聚类方法在审
申请号: | 202010100128.0 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111259156A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 胡春明;彭铁虎;郝瑞东 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 时间 序列 热点 方法 | ||
1.一种面向时间序列的热点聚类方法,其特征在于:
步骤一:输入一学科论文进行聚类,其具体方法为:输入文件,将包括所述学科论文的关键词信息的文件导入模型,所述关键词为:标题、摘要、论文关键词、发表年份;取出所述关键词进行词频统计,将词频小于某一阈值的词删除,剩余的词进行词向量计算;使用DBSCAN算法对剩余的关键词进行聚类;将论文按照其关键词所在类别进行分类;
步骤二:对聚类结果进行关键词生成和抽取,其具体方法为:对步骤一中得到的每个类综合考虑共现词对的位置信息、词性、TF_IDF值以及共现词的互信息,具体的:首先对论文的题目、摘要做分词处理,以论文关键词为分词的词典;进行考虑词性的TF-IDF值计算,计算分词后统计名词、动词、形容词、副词所占的百分比,计算词的TF-IDF值的时候采用考虑词的词性的方法计算;之后进行词与词之间互信息的计算;将在同类文章中抽取词汇权重最大的共现词作为该类文章的主题词,并将主题词作为标签添加在每篇论文的文件上,作为该篇论文的热点;
步骤三:对步骤二结果进行面向时间序列统计并输出结论,其具体方法为:根据每个论文文件的热点标签,对于每个热点类,取出其所有论文,根据论文的时间特征,按照以年为时间单位进行论文数量统计;最后将该学科下每个热点类的时间趋势用折线图的方式进行输出,得到每个研究热点的发展趋势图。
2.根据权利要求1所述的一种面向时间序列的热点聚类方法,其特征在于:所述对聚类结果进行关键词生成和抽取步骤中,所述考虑词性的TF-IDF值计算过程中名词、动词、形容词、副词所占的百分比的设定的具体方法为:在传统的TF-IDF值上乘以系数k,其中k是该词所属的词性所占的比重,其中,名词k=0.5;形容词k=0.4;动词k=0.1;副词k=0。
3.根据权利要求2所述的一种面向时间序列的热点聚类方法,其特征在于:所述考虑词性的TF-IDF值计算过程的改进的TF-IDF计算公式为:
NewTFIDF=k*TFIDF
所述TFIDF的计算公式为:
TF-IDF=TFi,j*IDFi
所述TFi,j计算公式中,ni,j表示词j在文章i中出现的次数,分母表示词j在所有文章中出现的次数,所述IDFi计算公式中,分子|D|表示语料库中文件总数,分母表示含有词ti的文件数目。
4.根据权利要求3所述的一种面向时间序列的热点聚类方法,其特征在于:所述词与词之间互信息的计算步骤为:
采用P(w1,w2)表示共现词对(w1,w2)在一篇论文信息中出现的概率,即w1,w2共同出现的次数/论文总数,其计算公式如下:
其中|D|表示语料库中文件总数;
同时考虑共现词对位置信息,对论文题目、摘要和论文关键词三个部分设定位置信息量值,如果共现词对出现在题目,论文关键词或者摘要的第一句和最后一句的位置,位置信息量值设定为0.9;如果共现词对中的一个词出现在上述位置,位置信息量值设为0.5;如果共现词对的两个词均没有出现与上述位置,位置信息量设为0.1,那么共现词对位置信息可以表示为
最终综合考虑共现词的互信息、位置信息、考虑词性的TF-IDF得到共现词的权重:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010100128.0/1.html,转载请声明来源钻瓜专利网。