[发明专利]基于布控数据挖掘实现特征提取的方法无效
申请号: | 201310518001.0 | 申请日: | 2013-10-28 |
公开(公告)号: | CN103544289A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 吴松洋;周治平;王旭鹏;张熙哲;熊雄;刘占斌 | 申请(专利权)人: | 公安部第三研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 200031*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 布控 数据 挖掘 实现 特征 提取 方法 | ||
技术领域
本发明涉及计算机领域,尤其涉及计算机数据分析领域,具体是指一种基于布控数据挖掘实现特征提取的方法。
背景技术
目前即时聊天工具已经成为人们生活中不可或缺的一部分,即时聊天工具已经成为人们远程沟通交流的主要手段。即时通信工具的历史记录里内含的各种数据,可以使用数据挖掘的方法进行特征提取。通过对特征提取的数据进行关联分析,可以挖掘出相关人物之间的特征关系。现有技术中针对即时聊天内容的分析主要还是以人工查看为主,不仅耗时费力而且还很容易遗漏重要相关信息,没有成熟的技术方法来解决这个问题。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种能够实现有效识别多个即时通讯帐号是否属于一个人、关联分析聊天记录数据、在海量数据中进行特征提取的基于布控数据挖掘实现特征提取的方法。
为了实现上述目的,本发明的基于布控数据挖掘实现特征提取的方法具有如下构成:
该基于布控数据挖掘实现特征提取的方法,其主要特点是,所述的布控数据包括即时通讯帐号以及各个即时通讯帐号的IP地址、在线时间、密码数据和行为数据,所述的方法包括以下步骤:
(1)获取即时通讯工具中的布控数据;
(2)对具有同一IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系;
(3)对各个即时通讯帐号的密码数据进行分析得到帐号之间的密码关系;
(4)对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系;
(5)根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值。
较佳地,所述的对具有同一IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤:
(21)从所述的布控数据中过滤出具有相同IP地址的不同即时通讯帐号;
(22)对同一IP地址具有的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系。
更佳地,所述的对同一IP地址具有的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤:
(221)对同一IP地址具有的任两个即时通讯帐号的登录时间和退出时间区间的重合度分析得到支持度,所述的支持度为两个即时通讯帐号都发生过登录状态在给定天数内的数据集的频繁程度值;
(222)对同一IP地址具有的任两个即时通讯帐号的登录时间和退出时间区间的重合度分析得到重合可信度,所述的重合可信度为两个帐号同时登录的频繁程度值;
(223)根据同一IP地址的不同即时通讯账号的支持度和重合可信度分析得出帐号之间的时间关系。
更佳地,所述的根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值,包括以下步骤:
(51)对具有相同IP地址的不同即时通讯帐号之间的时间关系、密码关系和行为关系进行分析得出各个即时通讯帐号之间的同人关系值;
(52)对具有不同IP地址的各个即时通讯帐号之间的IP地址、密码关系和行为关系进行分析得出各个即时通讯帐号之间的同人关系值。
较佳地,所述的各个即时通讯帐号的行为数据包括各个即时通讯帐号的好友数据和聊天记录数据,所述的对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系,包括以下步骤:
(41)对各个即时通讯帐号的好友数据进行分析得出帐号之间的好友关系;
(42)对各个即时通讯帐号的聊天记录数据进行分析得出帐号之间的收发内容相似度;
(43)对各个即时通讯帐号之间的好友关系和收发内容相似度进行分析得出帐号之间的行为关系。
更佳地,所述的对各个即时通讯帐号的聊天记录数据进行分析得出帐号之间的收发内容相似度,包括以下步骤:
(421)对各个即时通讯帐号的聊天记录数据进行文本挖掘并提取关键词;
(422)对各个即时通讯帐号的聊天记录数据中关键词之间的相关度进行分析得出帐号之间的收发内容相似度。
采用了该发明中的基于布控数据挖掘实现特征提取的方法,可以实现通过即时通信通讯软件的登录信息和登录轨迹来判断登录的多个虚拟账户是否属于同一人员,提出STFFS(同人,时间,朋友,频率,序列)数据挖掘的人物特征提取方法,快速的在海量数据中进行特征提取,方法应用简便,具有更广泛的应用范围。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于公安部第三研究所,未经公安部第三研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310518001.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包含碳氟化合物电解质添加剂的锂离子电化学电池
- 下一篇:发光装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置