[发明专利]一种基于公安数据获取多维人员关系亲密度的方法及系统在审
申请号: | 201710054364.1 | 申请日: | 2017-01-24 |
公开(公告)号: | CN106844673A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 任爱敏;田峰;王贤然;郑冰;曹传卓 | 申请(专利权)人: | 山东亿海兰特通信科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/26 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 孟峣 |
地址: | 250001 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 公安 数据 获取 多维 人员 关系 亲密 方法 系统 | ||
技术领域
本发明涉及计算机应用技术领域,具体地说是一种实用性强、基于公安数据获取多维人员关系亲密度的方法及系统。
背景技术
随着计算机和信息技术的迅猛发展和普及应用,在公安行业各应用系统中数据储备越来越丰富,各类人员行为数据存在很大的价值,其中人员关系挖掘势在必行。
在人员关系挖掘方面比较流行的技术是基于关系网络的相关挖掘,无论是使用传统关系型数据库还是使用新兴的大数据图计算方式都避免不了计算人员关系亲密度,在亲密度的基础上得出一系列关系分析结果。
目前基于公安数据的人员关系亲密度计算采用的是行为次数界定法,依据行为次数定义关系亲密度(例如:两个人共同住宿15次,则二人住宿行为的亲密度为15;共同上网次数20次,则二人上网行为亲密度为20)。
但是在公安数据多维人员关系亲密度界定问题中,存在两大难点:
1、公安数据多维度,多种人员行为数据之间关系复杂,传统的基于关系行为次数的关系亲密度计算方法,很难在多种关系亲密度合并时找到合理的权重;
2、公安数据时间跨度很大,在对人员历史行为数据计算关系亲密度时,忽略了关系亲密度的时间衰退问题。
而且在基于公安数据的人员关系亲密度行为次数界定法中,虽然能够简单直观的反映在某种行为关系中的亲密度,但却无法有效合理计算多维组合关系的亲疏程度(例如:甲和乙的上网行为亲密度为20,甲和丙的住宿行为亲密度为20,无法判断甲与乙、丙谁更亲密)。
人员关系是随着时间的推移而衰减的,但是在亲密度行为次数界定法中并未考虑到,这样在准确度方面存在不足。
基于此,本发明提出一种基于公安数据获取多维人员关系亲密度的方法及系统,在亲密度行为次数界定发的基础上进行改进,使之能够适用于多维关系亲密度计算,并兼顾亲密度时间衰减问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于公安数据获取多维人员关系亲密度的方法及系统。
一种基于公安数据获取多维人员关系亲密度的方法,其实现过程为:
首先获取关系人的数据,计算相互之间的单一关系亲密度,即通过单一行为表示关系的亲疏程度;
然后使用加权平均算法对多种单一关系亲密度计算得出多维组合关系亲密度,即通过多种行为表示关系的亲疏程度;
对于关系人,如果一段时间内没有发现行为关系,则关系亲密度根据时间的推移逐渐衰退直至消失,最后得到以线性、指数或半衰期方式进行衰退的关系度衰退函数,基于该衰退函数,重新计算关系人之间的关系亲密度,从而准确获取关系人之间的关系。
获取的关系人数据是从公安系统数据中获取的,该数据获取基于Zookeeper集群、Hadoop集群、Spark集群架构实现:底层采用Spark on Yarn的架构模式,使用HDFS作为存储,Spark作为计算框架,数据抽取工具使用Flume、Sqoop;然后将包括宾馆住宿、网吧上网、常住人口、暂住人口、嫌疑人手机联系人的公安内部数据抽取到Hadoop的HDFS中,抽取过程中进行初步清洗,处理空值、非法数据,从而得到关系人的数据信息。
所述关系亲密度通过行为关系来衡量,该行为关系包括同住、伴住、同上网、同事、同行、同族,其中,
同住:关系人同时住在同一家宾馆的同一房间;
伴住:关系人同时住在同一家宾馆的两个房间,同时开房、同时退房,即时间差在N分钟以内,该N为小于等于10;
同上网:关系人同时在同一家网吧上网,同时上网、同时下网,即即时间差在N分钟以内,该N为小于等于10;
同事:关系人有在同一时间段、同一企业或单位就职的经历;
同行:关系人同时从一地去另一地,路线相同且同时到达;
同族:关系人的户籍信息属于同一宗族。
计算单一关系亲密度通过以下公式实现:
在该公式中,p1、p2代表两个关系人,ri代表规则;
表示p1和p2在规则ri下的关系度;
表示p1和p2在规则ri下的行为次数;
α为本次计算单一关系亲密度时所针对行为次数占总体行为次数的百分比,当无法获取总体行为次数时,该α取值为1;
a为的收缩量,其取值为0-1,用于控制行为次数对关系度的增长速度;
b为的偏移量,控制行为次数对关系度的偏移量,当行为次数时,才开始计算关系度,其取值为1到100之间的整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东亿海兰特通信科技有限公司,未经山东亿海兰特通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710054364.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型鲜奶运输液罐结构
- 下一篇:一种新型粉体生产的罐体人孔
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置