[发明专利]基于DBSCAN聚类算法的核查重点人员、房屋漏登记的方法在审

专利信息
申请号: 201910374115.X 申请日: 2019-05-07
公开(公告)号: CN110097126A 公开(公告)日: 2019-08-06
发明(设计)人: 许正;朱哲辰;黄泷;闫子为;高子康 申请(专利权)人: 江苏优聚思信息技术有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06Q50/26
代理公司: 苏州唯亚智冠知识产权代理有限公司 32289 代理人: 陈晓瑜
地址: 215000 江苏省苏州市工*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 房屋 聚类算法 核查 房屋数据 聚类结果 归类 样本 预处理 数值型变量 密度聚类 特征权重 点固定 精准度 离散化 数据集 自适应 算法 填充 人口 标准化 标签 警务 采集 筛选 民警 分析
【权利要求书】:

1.基于DBSCAN聚类算法的核查重点人员、房屋漏登记的方法,其特征在于包括以下步骤:

步骤一,对民警采集的人口、房屋数据集进行预处理,包括缺失值填充、类别型变量离散化、数值型变量标准化;

步骤二,将已被标签“重点人员、房屋”的数据划分为已知“重点人员、房屋”和未知“重点人员、房屋”,并将已知“重点人员、房屋”数据样本固定为密度聚类的核心点,并分离非核心点;

步骤三,设定邻域参数(ε,MinPts),这里ε描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为ε的邻域中样本个数的阈值,采用DBSCAN聚类算法,在“重点人员、房屋”数据集上对非核心点的样本进行归类,对聚类结果进行分析,

所述步骤三中,通过DBSCAN算法,使用欧氏距离来度量样本之间的相似度,距离越小,样本越相似,设n个样本被划为K个聚类,每个聚类中的样本个数分别为:n1,n2,…,nk,则所有K个聚类在第j维特征上的类内距离之和dp为,

xij为第i个样本的第j维特征数值,mkj为聚类k在第j维特征上的均值,所有

K个聚类在第j维特征上的类间距离之和dq为,

mj为数据集在第j维特征上的均值,之后,计算特征j对聚类的贡献度cj

最后,第j维特征的特征权重wj为,

m表示样本特征的维数,

从而得到加权的欧氏距离公式,从而获得样本之间的相似度d(m,n),

步骤四,将所有标签“重点人员、房屋”的数据进行核心点固定,通过自适应特征权重的DBSCAN聚类算法,在人口、房屋数据集上对非核心点的样本进行归类,获取聚类结果,

所述步骤四中,对于核心点固定的处理过程为,采用Scikit-learn机器学习框架,根据给定的邻域参数找出所有的核心点;

所述步骤四中,对特征权重进行优化,先将已被标签“重点人员、房屋”的数据划分为已知“重点人员、房屋”和未知“重点人员、房屋”,根据核心点固定步骤,将已知“重点人员、房屋”数据样本固定为密度聚类的核心点,设定合适的邻域参数,然后基于DBSCAN聚类算法,在“重点人员、房屋”数据集上对非核心点的样本进行归类,对于归类的结果计算各属性对聚类的贡献度,更新特征权重;

步骤五,对步骤四中聚类结果进行统计与判断,最终生成疑似漏登记“重点人员、房屋”核查表。

2.根据权利要求1所述的基于DBSCAN聚类算法的核查重点人员、房屋漏登记的方法,其特征在于:步骤一中,所述数据预处理步骤为对公安人口、房屋数据库中的人口、房屋相关数据特征进行预处理,包括对人口、房屋相关数据特征中的类别型特征进行独热编码,对数值型特征变量进行无量纲化处理,所述缺失值填充为,对类别型特征用众数填充,对数值型特征变量用平均数填充。

3.根据权利要求1所述的基于DBSCAN聚类算法的核查重点人员、房屋漏登记的方法,其特征在于:所述类别型特征包括性别、婚姻状况,所述数值型特征变量包括年龄、地址经纬度。

4.根据权利要求1所述的基于DBSCAN聚类算法的核查重点人员、房屋漏登记的方法,其特征在于:步骤一所述类别型变量离散化的处理为:假设有N种定性值,则将这一特征扩展为N种特征,当原始特征值为第i种定性值时,第i个扩展特征赋值为1,其他扩展特征赋值为0,所述数值型变量标准化的处理需要计算每一维特征的均值和标准差(S),计算公式为,

5.根据权利要求1所述的基于DBSCAN聚类算法的核查重点人员、房屋漏登记的方法,其特征在于:步骤二所述固定为密度聚类的核心点的过程为,在计算距离过程中给“重点人员、房屋”数据样本赋予权重,越大的正值代表该样本容易成为核心点,越小的负值会阻碍样本成为核心点。

6.根据权利要求1所述的基于DBSCAN聚类算法的核查重点人员、房屋漏登记的方法,其特征在于:所述步骤五中,对聚类结果中设每一个类中包含已被标签“重点人员、房屋”的数量N,判断N是否大于等于预先设定的阈值T,如果判断结果为N≥T,则该类中未被标签的人员、房屋存在高可能性疑似漏登记“重点人员、房屋”,最终生成疑似漏登记“重点人员、房屋”核查表;否则,该类中存在低可能性疑似漏登记“重点人员、房屋”,需要进行人工判断。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏优聚思信息技术有限公司,未经江苏优聚思信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910374115.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top