[发明专利]一种增量并行式动态图的结构异常检测方法在审
申请号: | 201710042441.1 | 申请日: | 2017-01-20 |
公开(公告)号: | CN106919650A | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 兰雨晴;韩涛 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇智英财专利代理事务所(普通合伙)11301 | 代理人: | 郑玉洁 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 增量 并行 动态 结构 异常 检测 方法 | ||
技术领域
本发明涉及计算机数据处理领域,具体涉及一种增量并行式动态图的结构异常检测方法。
背景技术
图的异常结构检测可以发现金融欺诈行为、网络入侵和可疑的社交行为。
很多应用领域中数据之间的复杂关系均可以通过图直观地表现出来,例如互联网、社交网络和生物领域。这些真实应用中的图数据通常是大规模的,并且随着时间推进数据量不断增加。例如,在社交媒体(博客、微博和微信)和信息共享平台(YouTube和Flicker)中,用户之间持续的社交行为会产生大量的、持续的、相互交互的数据,而这些交互可以自然地使用动态图来表示——结点表示人、物体或其他实体,边表示实体之间的联系。
传统的算法很难有效对上述大规模动态图进行有效地分析和挖掘。首先,由于图的规模庞大,导致图在计算上的时间过长;其次,我们往往不能获取图的全部数据,而只能获取数据的一部分。例如社交网络图,我们通常只能通过爬虫抓取获得部分数据。另外,即使有的图规模略小一些,但是计算某些图的重要的度量值需要的处理时间非常长(例如生物细胞科学的实验)。因此,需要采用并行处理的技术提高图的处理能力。
目前大部分的研究聚焦在基于图的数据关系结构分析。目前图挖掘方法针对特定的数据集处理一类特定的图,或者把一种具体的图算法应用到不同的领域。但是,这些算法都不能很好地解决图挖掘的扩展性问题,尤其是大规模动态图的异常检测问题。例如Facebook拥有8亿用户,用户每分钟发表50万条评论,超过29万条状态更新。这样的包含上亿结点、每分钟产生几十万边的图的分析和异常检测问题都没有得到很好的解决。异常行为通常模仿正常的行为模式,所以越接近于正常模式的异常,越难以分辨。因此我们把与正常模式相似的近似模式称为异常模式。例如在金融领域检测洗钱行为时,洗钱行为通过模仿正常的金融交易行为逃避检测,行为模式越像正常的模式,它们越不容易被察觉,越容易蒙混过关。在基于图的表示中,异常模式通常在正常模式上进行修改,例如添加边和结点、删除边和结点或修改结点属性信息。目前基于图的异常检测称为GBAD(Graph Based Anomaly Detection),使用一种基于最小描述长度的压缩方法来寻找正常模式,然后分析与正常模式相近的模式,并计算其异常值,最后判断这些相近的模式是否为异常模式。虽然这个方法在很多领域被广泛应用,但是算法的可扩展性问题,尤其是处理百万级结点的图的算法效率问题没有得到很好地解决。大规模图随着时间不断演化,这也加剧了分析的困难——正常模式随着时间或者事件触发也会发生变化。也有的算法把GBAD并行化,但是它解决的是大规模增量图(即图的边和结点随时间不断增加)的处理,没有考虑到大规模动态图(图的边和结点随时间不仅增加而且现有的边和结点不断删除)的分析处理。
作为早期的图异常检测的研究,Cook和Nobel在图上把异常定义为结构的异常。例如在基于正常模式的图压缩之后,余下的结构被认为是异常的。Akoglu在最近的研究中也处理了大规模图的异常检测问题,但是他们的目标是检测异常的结点。以上的两个研究都认为图是静态的。
一种解决大规模图的方法是把图看做边的数据流,每次处理图的一个或者多个边。以前的工作在异常检测领域提出一些不同的方法来处理图的边数据流。其中一种被称为“semi-streaming model”的方法,可以处理不能把所有边存储到内存的大规模图。例如,Feigenbaum等人的工作提出了semi-streaming常量近似算法,来处理无权重和带权重图的匹配问题,同时也扩展应用到二分图。通过考虑semi-streaming模型中经典的图问题,他们证明了近似方法解决这些问题的有效性。其它的研究则把此方法扩展,来解决不同的图问题,例如有向图的最短路径问题、使用中间的临时流来解决特定问题等。总之,这些方法分析可用的内存和访问整个图所需访问硬盘的次数之间的关系,并根据实际情况进行取舍。
其他方法对大规模图进行聚类,使用从图数据流中创建哈希压缩微簇的技术。在处理大规模存储在硬盘上的图的问题时,将压缩的微簇设计成基于散列的压缩,把边映射到更小的空间。还有一些研究尝试挖掘动态图的频繁闭合子图。一种方法称为AdaGraphMiner,它仅仅维护当前的频繁闭合子图,使用具有理论保证的估算技术。实验验证了此方法在癌症的化学分子结构图的边数据流的有效性。另外,最近有些研究人员尝试处理大规模网络的稀疏问题,通过动态切分网络处理大规模数据集。有的方法使用reservoirsampling技术压缩数据流,得到图的结构概要。这类异常检测识别不寻常的桥接边,或连接两个极少同时出现的子图的边。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710042441.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种词条权重计算的方法及装置
- 下一篇:外部网站视频的搜索排序方法及装置