[发明专利]一种案件大数据网络身份关联与人物画像方法在审
申请号: | 202210951172.1 | 申请日: | 2022-08-09 |
公开(公告)号: | CN115374371A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 张有为;姚文清;赵清波;薛兵;葛方丽;程骞 | 申请(专利权)人: | 郑州信大先进技术研究院 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/36;G06F40/289;G06F16/33;G06F40/242;G06K9/62;G06Q50/00 |
代理公司: | 郑州德勤知识产权代理有限公司 41128 | 代理人: | 黄红梅 |
地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 案件 数据 网络 身份 关联 人物 画像 方法 | ||
本发明提供一种案件大数据网络身份关联与人物画像方法,所述方法包括:步骤1,获取案件数据;步骤2,对获取的数据进行清洗;步骤3,采用重叠社团发现技术识别重要目标;步骤4,用户博文向量化;步骤5,用户个人信息向量化;步骤6,源用户和候选用户的博文相似度计算。本发明能够对涉案数据进行很好的处理;本发明中采用基于重叠社团发现的重要目标识别技术,利用局部聚类结构的引导来检测重叠社团,将复杂的重叠聚类问题降低为一个更简单、更易于处理的非重叠分区问题;本发明利用向量表示、行为关联等方法,构建基于多维特征的网络用户身份关联模型,挖掘跨社交平台用户关联关系和还原用户社交关系网络。
技术领域
本发明涉及大数据领域,具体的说,涉及了一种案件大数据网络身份关联与人物画像方法。
背景技术
网络身份关联与人物关系画像能够辅助相关部门更快速、更有效地识别人员自身信息及其与其他人员之间的关系,为风险预警等工作提供丰富的数据支持。然而,目前的处理方法在人员的网络身份关联过程中存在人员身份关联琐碎、人物关系抽取效率不高的问题。
在现实世界的网络中缺乏清晰的宏观社团结构,即很难观察到具有明确聚类属性的社团,采用常用算法很难检测到。其原因是现实网络中的簇相互重叠,并且有许多边缘跨越簇边界。因此,真实世界的网络图在宏观层面上并没有显示出清晰的集群结构。但是,虽然社团检测问题在宏观上很难,但在微观上却较为简单。因为即使一个节点是许多社团的一部分,如果我们限制一个节点和它的一个邻居,这两个节点之间只会具有一个或有限个存在交互的社团。
另外,由于网络活动中用户数据的多源异构性,所以基于不同数据类型进行研究的思路区别很大,当前主要的研究路线有:基于用户属性的身份关联,即对不同平台所共有用户属性数据进行相似度计算,然后采用分类法或者赋权法的方式判断两个用户是否属于同一自然人;基于用户关系的身份关联,一种是有先验节点的方法,另一种是无先验节点的方法;基于用户生成内容的身份关联,在自然语言处理研究领域中有许多相关研究。但在跨社交网络的用户身份关联任务中,文本对象多为不规范短文本,且用户原创内容较少,仅通过文本内容进行关联难度较大,所以在数据条件支撑的情况下,通过结合用户生成内容附带的时间、空间等信息进行身份关联。
当前用户身份关联的技术研究是通过数据挖掘或者机器学习的方法对用户进行划分与聚类,从而进行身份的关联。主要的研究思路分为基于用户的注册信息的虚拟身份关联技术、基于用户所发文本的内容的虚拟身份关联技术和基于用户在社交网络平台中用户的社交关系的虚拟身份关联技术,但是这些技术仍然存在查全率不高、准确度不高,或者是效率低等问题。
发明内容
本发明的目的是针对现有技术的不足,提供一种案件大数据网络身份关联与人物画像方法。
为了实现上述目的,本发明所采用的技术方案是:
本发明提供一种案件大数据网络身份关联与人物画像方法,所述方法包括:
步骤1,获取案件数据;
步骤2,对获取的数据进行清洗;
步骤3,采用重叠社团发现技术识别重要目标;
步骤4,用户博文向量化;
步骤5,用户个人信息向量化;
步骤6,源用户和候选用户的博文相似度计算。
基于上述,步骤1中的案件数据包括:用户ID,用户昵称,IP地址,上级和真实姓名。
基于上述,步骤2中数据的清洗包括:
步骤2-1,若数据中存在空白的内容,则将该条数据删除;若数据中存在多个属性项完全重复的记录,则只保留一条记录并将其余删除;
步骤2-2,进行中文字段匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州信大先进技术研究院,未经郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210951172.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置