[发明专利]一种基于社区划分的舆情热点实时获取方法与获取装置在审
申请号: | 201510684023.3 | 申请日: | 2015-10-20 |
公开(公告)号: | CN105184654A | 公开(公告)日: | 2015-12-23 |
发明(设计)人: | 刘昕;李忠伟;王奕文;王丰 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社区 划分 舆情 热点 实时 获取 方法 装置 | ||
技术领域
本发明涉及一种舆情热点关键词获取方法,特别涉及一种基于社区划分的舆情热点实时获取方法与获取装置。
背景技术
随着社交网络规模的不断扩张,社交网络数据积累形成了社交大数据,在此环境下社会舆情研究成为当前政府、企业和科研机构的一个研究热点。
大数据环境下如何对海量社交网络数据进行快速分析,实现舆情监控和跟踪,进而为管理者提供决策支持是当前研究的热点和难点。当前社会舆情分析主要集中于对大量网络数据的收集、存储,并结合文本挖掘技术从大量低价值密度的数据中获取舆情热点信息。社交网络中的社交大数据因其数据量大、变化快、形式多样、价值密度低以及缺乏真实性等特点增加了舆情热点的发现难度。如何浓缩海量数据提取有价值的信息,进而通过发现关联数据的内在联系实现舆情信息增值,是大数据环境下舆情热点发现的重大挑战。
网络舆情热点发现包括对新热点的发现和特定热点的关注,如目标话题的识别与跟踪,通常应用聚类算法进行社交网络数据的汇总与统计,并自动跟踪热点事件,发现热点发展的轨迹。该技术根据文本聚类的算法从大量Web网页中发现网络舆情热点。现有的研究技术主要有Single-pass聚类算法、K-means、KNN最邻近法、支持向量机(SVM)算法和SOM神经网络聚类算法。
Single-Pass是流式数据聚类的经典方法,作为动态聚类方法,具有较高的效率,但该方法具有输入次序依赖特性,即对于同一聚类对象按不同的次序输入,会出现不同的聚类结果。K-means算法是一种基于硬划分的无监督聚类算法。该算法具有良好的可伸缩性,也具有很高的效率,但其分类结果受事先给定的分类簇数K、噪声和孤立点的影响较大。KNN算法是一种基于类比学习的非参数分类技术。该方法在统计模式识别中有很好的效果,但是当训练样本过多时计算速度会减缓。支持向量机(SVM)是一种在同一时间内多热点事件识别的方法,在处理小样本时有出色的学习能力和推广能力。但SVM算法在算法的实现方面存在训练速度慢、算法相对复杂的问题。SOM神经网络聚类算法是一种通过模拟人脑对信号的处理特点而发展起来的一种人工神经网络。SOM聚类的难点是如何设置输出层的节点个数,过多或过少都会对聚类的质量和网络收敛的效率产生影响。SOM神经网络不能够准确的识别不同类别的事件,有可能将不同热点事件混淆。
传统的Single-pass和K-means算法被广泛的用于当前大数据聚类分析中,但是这些分析基本都建立在对用户发布和交互的社交内容的处理上,难以大规模减少冗余信息的处理开销,未对网页信息的发布者进行归类处理,不能通过分类后的发布者实现舆情热点发现与跟踪。
发明内容
为了解决现有技术的问题,本发明提供了一种基于社区划分的舆情热点实时获取方法,本发明的基于社区划分的舆情热点实时获取方法,其通过构建用户相似性关系图,实现相似性社区划分,发现相似性用户代表,减少对大量冗余信息的处理开销,抵抗数据爆炸,实时响应舆情安全事件,提高舆情安全事件的响应速度。
本发明所采用的技术方案如下:
一种基于社区划分的舆情热点实时获取方法,包括以下步骤:
A、根据用户的兴趣,定义用户关键词向量和用户之间的相似性;
B、以社交网络用户作为节点,若用户之间存在相似性则节点之间存在一条边,根据用户关键词向量计算用户之间的相似性距离,作为边的权重,建立用户相似关系图;
C、将用户相似关系图中每个节点都看作一个单独社区,根据设定的相似性阈值,将达到相似性阈值的节点聚合为一个社区,实现相似性社区划分,将具有相似观点的用户划分到一个社区;
D、从每个相似性社区中选取n个相似性较低的节点,获取其实时关键词,对所有获取的实时关键词进行统计,得到实时热点关键词,根据关键词属性组合热点关键词形成舆情热点。
步骤A中,所述的用户之间的相似性是指:根据系统定义TOP1000关键词,若两个用户之间存在相同关键词,则认为用户之间存在相似性,所述的用户关键词向量是由该用户网页中存在的TOP1000的关键词形成;
步骤B中,所述的相似性距离计算方式如下:
相似关系图中边的权重是用户之间相同关键词的个数,两个节点关键词向量进行与运算,结果即为两个节点之间的相似性距离,即:Hij=count(ViANDVj),其中Hij为两个节点之间的相似性距离,count函数为求向量中1的个数;
若相似性距离越大则表示节点之间相似程度越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510684023.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硅橡胶印模材注射筒防放反装置
- 下一篇:一种新型髓腔扩大器