[发明专利]基于最大频繁项集挖掘的微博炒作群体发现方法有效
申请号: | 201410188004.7 | 申请日: | 2014-05-07 |
公开(公告)号: | CN103927398A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 刘琰;张进;罗军勇;罗向阳;董雨辰;陈静;常斌 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 郑州天阳专利事务所(普通合伙) 41113 | 代理人: | 聂孟民 |
地址: | 450052 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于最大频繁项集挖掘的微博炒作群体发现方法,有效解决微博炒作群体的发现,防止虚假恶意炒作的问题,方法是,以炒作微博的相关性为线索,基于爬虫技术或微博公共开放平台获取参与炒作微博传播的账户集合;以单个微博为事务,参与微博传播的账户为项,构建炒作微博事务数据库;对待检测微博组所对应的事务数据库中的每个事务,找出所有事务中包含的最大频繁项集,计算每个最大频繁项集间的重叠率,将规模小的项集归并到大项集中,减少交集次数,事务间取交集时,用二分查找法判断事务中是否包含某项目,提高挖掘最大频繁项集的效率,发现微博炒作群体,本发明方法简单,能准确发现恶意微博炒作群体,防止给社会造成的不良影响。 | ||
搜索关键词: | 基于 最大 频繁 挖掘 炒作 群体 发现 方法 | ||
【主权项】:
一种基于最大频繁项集挖掘的微博炒作群体发现方法,其特征在于,包括如下步骤:(1)炒作微博样本搜集:以炒作微博的相关性为线索,基于爬虫技术或微博公共开放平台获取参与炒作微博传播的账户集合;(2)事务数据库构建:以单个微博为事务,参与微博传播的账户为项,构建炒作微博事务数据库;(3)最大频繁项集挖掘:对待检测微博组所对应的事务数据库中的每个事务,利用迭代交集法找出所有事务中包含的最大频繁项集,得到若干最大频繁项集集合;由于炒作微博事务库中每个事务包含的项目大都数以万计,直接在原始事务数据库中挖掘最大频繁项集将会影响算法执行的效率,利用二分查找法,快速剔除事务中的非频繁项目,找出最大频繁项集的候选集合,缩减事务数据库规模;(4)最大频繁项集归并:对每个最大频繁项集,计算项集间的重叠率,对最大频繁项集进行合并,尽量将规模较小的项集归并到较大项集中,并保证归并后项集中的账户依然具有一定的关联性;通过缩减事务数据库规模,减少交集次数,事务间取交集时,采用二分查找法判断事务中是否包含某项目,以提高挖掘最大频繁项集的效率,从而发现微博炒作群体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410188004.7/,转载请声明来源钻瓜专利网。