[发明专利]一种案件大数据网络身份关联与人物画像方法在审
申请号: | 202210951172.1 | 申请日: | 2022-08-09 |
公开(公告)号: | CN115374371A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 张有为;姚文清;赵清波;薛兵;葛方丽;程骞 | 申请(专利权)人: | 郑州信大先进技术研究院 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/36;G06F40/289;G06F16/33;G06F40/242;G06K9/62;G06Q50/00 |
代理公司: | 郑州德勤知识产权代理有限公司 41128 | 代理人: | 黄红梅 |
地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 案件 数据 网络 身份 关联 人物 画像 方法 | ||
1.一种案件大数据网络身份关联与人物画像方法,其特征在于,所述方法包括:
步骤1,获取案件数据;
步骤2,对获取的数据进行清洗;
步骤3,采用重叠社团发现技术识别重要目标;
步骤4,用户博文向量化;
步骤5,用户个人信息向量化;
步骤6,源用户和候选用户的博文相似度计算。
2.根据权利要求1所述的案件大数据网络身份关联与人物画像方法,其特征在于,步骤1中的案件数据包括:用户ID,用户昵称,IP地址,上级和真实姓名。
3.根据权利要求2所述的案件大数据网络身份关联与人物画像方法,其特征在于,步骤2中数据的清洗包括:
步骤2-1,若数据中存在空白的内容,则将该条数据删除;若数据中存在多个属性项完全重复的记录,则只保留一条记录并将其余删除;
步骤2-2,进行中文字段匹配;
首先,利用知识库对明显等价的特殊字段进行初步匹配;然后,利用中文自动分词技术,对经过初步匹配后的字符序列进行分词处理,形成含有分词标记的字符序列;
步骤2-3,进行基于编辑距离的相似度计算;
编辑距离(m+1)×(n+1)阶矩阵Dij的计算公式如下:
式中,Dij=D(s1...si,t1...ti),0≤i≤m,0≤j≤n,Dij表示从{s1...si},到{t1...ti}的编辑距离,s指代源字符串,t指代目标字符串;
步骤2-4,基于改进N-Gram算法的数据清洗;
使用动态大小的滑动窗口进行字段匹配,设定窗口大小的初值N0,后续窗口的大小随执行过程计算得出;
窗口大小计算方法:记当前正在处理的窗口为N1,r1和rl分别表示窗口内的第一条和最后一条记录,则二者之间的距离dt满足:
此时窗口N1内各记录之间的平均距离为dt(r1,rl)/N1;
下一步窗口的大小N2为:为窗口最小阈值。
4.根据权利要求3所述的案件大数据网络身份关联与人物画像方法,其特征在于,步骤3中采用重叠社团发现技术识别重要目标的方法:
定义要处理的图G=(V,E)由有限个结点V和节点之间的边组成,且满足:对于任意(u,v)∈E,u≠v;(u,v)∈E,当且仅当(v,u)∈E,最终检测到的聚类为S’,则由G产生S’的具体步骤如下:
步骤3-1:对于图G中的每个结点u,使用局部聚类算法划分出结点u的ego-net:
其中,tu=np(Al,G[Nu]),np表示集合的数目;
步骤3-2:创建副本集合V’;
V中的每个结点u对应V’中的tu个副本,分别表示为ui,i=1,2,…,tu;
步骤3-3:增加副本之间的边;
如果(u,v)∈E,且那么在E’中增加一条边(ui,vj);
步骤3-4:在G′=(V′,E′)上利用全局聚类算法Ag进行聚类,获取V′的分区S″;
步骤3-5:对于V’的划分中的每个集合C′∈S″,关联一个由V的对应节点组成的簇即输出S′={C(C′)|C′∈S″}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州信大先进技术研究院,未经郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210951172.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置