[发明专利]一种面向时间序列的热点聚类方法在审

专利信息
申请号: 202010100128.0 申请日: 2020-02-18
公开(公告)号: CN111259156A 公开(公告)日: 2020-06-09
发明(设计)人: 胡春明;彭铁虎;郝瑞东 申请(专利权)人: 北京航空航天大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 时间 序列 热点 方法
【权利要求书】:

1.一种面向时间序列的热点聚类方法,其特征在于:

步骤一:输入一学科论文进行聚类,其具体方法为:输入文件,将包括所述学科论文的关键词信息的文件导入模型,所述关键词为:标题、摘要、论文关键词、发表年份;取出所述关键词进行词频统计,将词频小于某一阈值的词删除,剩余的词进行词向量计算;使用DBSCAN算法对剩余的关键词进行聚类;将论文按照其关键词所在类别进行分类;

步骤二:对聚类结果进行关键词生成和抽取,其具体方法为:对步骤一中得到的每个类综合考虑共现词对的位置信息、词性、TF_IDF值以及共现词的互信息,具体的:首先对论文的题目、摘要做分词处理,以论文关键词为分词的词典;进行考虑词性的TF-IDF值计算,计算分词后统计名词、动词、形容词、副词所占的百分比,计算词的TF-IDF值的时候采用考虑词的词性的方法计算;之后进行词与词之间互信息的计算;将在同类文章中抽取词汇权重最大的共现词作为该类文章的主题词,并将主题词作为标签添加在每篇论文的文件上,作为该篇论文的热点;

步骤三:对步骤二结果进行面向时间序列统计并输出结论,其具体方法为:根据每个论文文件的热点标签,对于每个热点类,取出其所有论文,根据论文的时间特征,按照以年为时间单位进行论文数量统计;最后将该学科下每个热点类的时间趋势用折线图的方式进行输出,得到每个研究热点的发展趋势图。

2.根据权利要求1所述的一种面向时间序列的热点聚类方法,其特征在于:所述对聚类结果进行关键词生成和抽取步骤中,所述考虑词性的TF-IDF值计算过程中名词、动词、形容词、副词所占的百分比的设定的具体方法为:在传统的TF-IDF值上乘以系数k,其中k是该词所属的词性所占的比重,其中,名词k=0.5;形容词k=0.4;动词k=0.1;副词k=0。

3.根据权利要求2所述的一种面向时间序列的热点聚类方法,其特征在于:所述考虑词性的TF-IDF值计算过程的改进的TF-IDF计算公式为:

NewTFIDF=k*TFIDF

所述TFIDF的计算公式为:

TF-IDF=TFi,j*IDFi

所述TFi,j计算公式中,ni,j表示词j在文章i中出现的次数,分母表示词j在所有文章中出现的次数,所述IDFi计算公式中,分子|D|表示语料库中文件总数,分母表示含有词ti的文件数目。

4.根据权利要求3所述的一种面向时间序列的热点聚类方法,其特征在于:所述词与词之间互信息的计算步骤为:

采用P(w1,w2)表示共现词对(w1,w2)在一篇论文信息中出现的概率,即w1,w2共同出现的次数/论文总数,其计算公式如下:

其中|D|表示语料库中文件总数;

同时考虑共现词对位置信息,对论文题目、摘要和论文关键词三个部分设定位置信息量值,如果共现词对出现在题目,论文关键词或者摘要的第一句和最后一句的位置,位置信息量值设定为0.9;如果共现词对中的一个词出现在上述位置,位置信息量值设为0.5;如果共现词对的两个词均没有出现与上述位置,位置信息量设为0.1,那么共现词对位置信息可以表示为

最终综合考虑共现词的互信息、位置信息、考虑词性的TF-IDF得到共现词的权重:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010100128.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top