[发明专利]一种热点事件分类方法及装置有效
申请号: | 201510645347.6 | 申请日: | 2015-10-08 |
公开(公告)号: | CN105335476B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 牛凯;黄家坤 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点 事件 分类 方法 装置 | ||
本发明实施例提供了一种热点事件分类的方法及装置,该方法中采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件,根据每个中心点对应的热点事件对待分类的热点事件进行分类。由于本发明实施例中通过接收待分类的热点事件,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离,将所述待分类的热点事件划分到距离的最小值对应的聚类中,实现了热点事件的分类。
技术领域
本发明涉及数据挖掘的计算机应用技术领域,特别涉及一种热点事件分类方法及装置。
背景技术
互联网在最近十多年经历了一个飞速发展的时期,并成为超越报纸、广播和电视三大传统媒体的新媒体。互联网的开放性使其成为人们获取信息的重要渠道,然而互联网每天都会产生海量的信息数据,如何从这些海量数据中提取有用的关键信息已经成为近年来研究的热点。
网络由于其开放性、实时性和便捷性而成为新媒体的核心。然而,网络用户量庞大,每天会产生数以亿计的数据,其中充斥着广告、炒作等虚假信息,从这些数据中发现热点事件,并将热点事件分类,既能方便人们获取重要信息,同时也能帮助政府进行舆论监控和突发事件检测。
而现有技术中,缺少一种热点事件分类的方法。
发明内容
本发明实施例的目的是提供一种热点事件分类方法及装置,实现对热点事件的分类。
为达到上述目的,本发明实施例公开了一种热点事件分类方法,包括:
接收待分类的热点事件;
确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离;
将所述待分类的热点事件划分到该距离的最小值对应的聚类中,其中根据以下方法,确定每个聚类的中心点对应的热点事件:采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
可选的,所述确定该聚类的中心点对应的热点事件之后,所述方法还包括:
针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
其中,ΔB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设定时间长度内的当前时间点n时,在网络中未传播到的用户的个数,ε为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
G(t)根据以下公式确定:
其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点;
f(τ)根据以下公式确定:
f(τ)=β*τ-1.5
其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510645347.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库的操作方法及装置
- 下一篇:内容获取方法及装置