[发明专利]大规模社会网络中的离群点检测方法有效
申请号: | 201210200045.4 | 申请日: | 2012-06-14 |
公开(公告)号: | CN102799616A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 纪腾飞;杨冬青;高军;王腾蛟;唐世渭 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 社会 网络 中的 离群 检测 方法 | ||
所属技术领域
本发明属于社会网络中信息科学技术领域,涉及社会网络所涵盖数据中的异常信息挖掘,尤其涉及一种大规模社会网络中的离群点检测方法。
背景技术
社会网络是由一些个人或组织以及它们之间的联系所构成的集合,这种联系可能是同事、朋友、亲属等各种关系。近年来,这种新兴的、实用的交互模式在网络活动中随处可见,如国外的MySpace、Facebook,以及国内的人人网等。事实上,除了这些狭义的社交网络,社会网络还包括合著关系网、电力网格和经济关系等网络实例。
信息科学中,社会网络可以由图结构来定义,其中图的节点代表社会网络中的实体,比如SNS中的用户、合著关系网中的文献等,它包含着大量内容信息;而图的边代表节点之间的联系,如交互关系、好友关系等,它承载了大量的结构信息。因此,不同于常规数据集,社会网络同时包含着内容和结构两方面信息。由于社会网络同时包含结构与内容两方面信息这一特性,社会网络中通常存在着内容信息和结构信息不一致的节点,这些存在于社会网络中的异常点即为本发明所需检测的离群点。这些离群点表现为社会网络划分社区后的社区离群点,这些离群点可能隐含了人们事先未知且具有潜在价值的信息或者知识。在某些情况下,这些小概率的离群点事件很可能比经常发生的事件更有研究价值。比如金融社会网络中的社区离群点可能意味着金融诈骗事件,气象社会网络中的社区离群点可能意味着气象灾难,经济关系社会网络中的社区离群点可能代表着黑马企业家的出现,合著关系网中的社区离群点可能代表着新兴交叉学科的出现。
因此本发明所述的社会网络中的离群点与单纯只包含内容信息的网络中的离群点不同,因此,检测方法也不同。如专利CN 100535955C所示的已有方法,只适用于只包含内容信息的常规数据集,无法适用于社会网络。
目前,对社会网络中社区离群点的检测,主要基于统计学的方法,该方法的不足之处是需要事先知道数据的分布,这在实际应用中是非常困难的,而且大部分现实数据也往往不符合任何一种理想状态的数学分布。此外,这种基于统计的社区离群点检测方法,同时考虑社会网络结构和内容两方面信息(请参见文献Jing Gao,Feng Liang,Wei Fan,Chi Wang,Yizhou Sun,and Jiawei Han:On Community Outliers and their Efficient Detection in Information Networks.Proceedings of the ACM SIGKDD international conference on Knowledge discovery and data mining.2010),很难在保证较高准确率的同时具有快速地处理能力,而社会网络所需处理的信息量又极其庞大,它可能包括上亿个节点和边(以Facebook为例,其包含着多于108个节点以及1011条边),这就限制了它的应用。
发明内容
本发明的目的在于提供一种大规模社会网络中的离群点检测方法,在检测准确性及检测效率上优于现有的基于统计的社会网络离群点检测方法。
本发明的大规模社会网络中的离群点检测方法,其步骤包括:
1、提取待测社会网络数据;
2、根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区CS;
3、计算各节点的社区离群度因子COF;
4、提取社区离群度因子COF最大的n个节点,作为该社会网络的离群点,其中n≥1。
本发明根据每个节点数据t与社区C的相似性Similarity(C,t)进行聚类,将相似性大于设定阈值的节点聚为同一社区节点,所述每个节点数据t与社区C的相似性
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210200045.4/2.html,转载请声明来源钻瓜专利网。