[发明专利]基于G函数和改进KD树的犯罪大数据点模式分析方法在审
申请号: | 201910204662.3 | 申请日: | 2019-03-18 |
公开(公告)号: | CN109977149A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 何雨情;杨立涛;白璐斌;黄舒哲 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62;G06Q50/26 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行计算 模式分析 犯罪 点事件 改进 邻近 空间分布模式 并行处理 计算效率 计算资源 数据处理 分簇 分块 构建 分析 | ||
1.一种基于G函数和改进KD树的犯罪大数据点模式分析方法,其特征在于,包括以下步骤:
步骤1:数据预处理;
输入所有待处理的犯罪事件点坐标,通过聚类算法将点分为若干个点簇,设定阈值用来判断点簇是否过大,如果是则继续进行聚类分簇,直到每个点簇中点的个数适当;然后对每个点簇采用并行计算策略建立KD树;
步骤2:搜索最邻近点;
对于每个计算点查询其所在的簇,并确定该簇所在的KD树;之后在KD树中搜索得到所有点最邻近的点,并计算出最邻近距离dmin,直到所有输入的点都计算完毕,得到所有点的最邻近距离;
步骤3:计算G函数;
将得到的所有点最邻近距离按照大小排序,计算最邻近距离的变程R和组距D,其中R=max(dmin)-min(dmin),根据组距上限值累积计数点的数量,并计算累积频率G(d);
步骤4:进行显著性检验并得到分析结果;
若计算结果满足显著性检验指标,输出G(d)关于距离d的曲线图,判断点数据的空间分布模式;随着距离d的变化,犯罪事件统计频率发生变化,如果点事件在空间中趋向聚集分布,G函数值会在较短的距离内快速上升;如果点模式中事件趋向分散分布的,那么G函数值增加得就比较缓慢。
2.根据权利要求1所述的基于G函数和改进KD树的犯罪大数据点模式分析方法,其特征在于:步骤1中所述建立KD树,首先计算每一个簇中所有数据的每一维方差,然后选取方差最大的那一维中所有数据的中位数作为分割超面,即根结点,最后确定左子树右子树,递归进行,直到叶子结点。
3.根据权利要求1所述的基于G函数和改进KD树的犯罪大数据点模式分析方法,其特征在于:步骤2中,采用多线程并行搜索在KD树中搜索最邻近点。
4.根据权利要求1所述的基于G函数和改进KD树的犯罪大数据点模式分析方法,其特征在于:步骤3中,使用所有最邻近点事件的距离构造出一个最邻近距离的累积频率G(d);
式中,si是研究区域中的一个点事件;n是点事件的数量;d是距离;#(dmin(si)≤d)表示距离小于d的最邻近点的计数。
5.根据权利要求1-4任意一项所述的基于G函数和改进KD树的犯罪大数据点模式分析方法,其特征在于:步骤4中,使用蒙特卡洛随机模拟的方法,若随机模拟分布函数大于上界U(d)的概率和小于下界L(d)的概率符合则计算结果满足显著性检验指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910204662.3/1.html,转载请声明来源钻瓜专利网。