[发明专利]一种基于社群特征分析的电子邮件取证分析方法有效
申请号: | 201210248207.1 | 申请日: | 2012-07-18 |
公开(公告)号: | CN102842078A | 公开(公告)日: | 2012-12-26 |
发明(设计)人: | 孙国梓;薛磊;杨一涛;朱小龙;王瑞 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06Q10/10 | 分类号: | G06Q10/10;G06F17/30;H04L12/58 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社群 特征 分析 电子邮件 取证 方法 | ||
技术领域
本发明属于信息安全与计算机应用技术领域,提出了一种基于社群网络分析和文本分析的方法,通过对海量邮件的收发地址信息中隐含的社群结构进行挖掘,并通过邮件和附件内容对社群的可疑度进行分析。
背景技术
随着社会经济和信息技术的发展,通过高科技手段进行犯罪的事件和纠纷日渐增多,针对利用计算机进行犯罪的司法取证技术已成为一个重要而又紧迫的问题。计算机取证分析的目的是找到可靠有说服力的电子证据或犯罪调查的线索,因此,计算机取证是涉及计算机、网络、通讯和司法学等诸多领域的综合性交叉学科,受到了越来越多的关注。尤其是随着信息网络的高速发展,电子邮件作为一种方便快捷的交流方式,已经与人们的日常工作和生活息息相关。电子邮件作为当前人们最重要的通讯工具之一,电子邮件蕴含着丰富的个人信息,也蕴含着大量与外界的通信信息,作为取证分析的数据源可以提供大量嫌疑人的社交信息和活动信息,能为调查取证提供有力的线索。
邮件数据中蕴含着大量重要并且有价值的信息,人们在利用邮件通讯的同时,把社会关系也隐含在了电子邮件中,邮件不但记录了人们之间的关系,而且提供了通讯频率、通讯时间、社交范围、通信内容等特征,利用这些特征可以构建有权的邮件通联关系网络;通过对邮件记录内容进行文本分析和挖掘,可以按照不同类型的社会关系进行分类;通过对邮件时间、签名等信息可以提取用户的工作时间和工作单位以及其它敏感信息。
目前,对邮件的分析取证主要是针对单个用户的收发邮件的内容进行分析,而没有对多用户的海量邮件间的关联关系和通信内容进行综合挖掘分析,提取潜在的犯罪证据和犯罪线索,供办案人员参考。
发明内容
技术问题:本发明的目的是实现一种基于电子邮件地址间社群特征分析的Email取证分析方案,特别针对来源于不同用户的计算机或邮件服务器中的Email数据内敏感信息的分析提取。
技术方案:本发明是设计了一种在海量Email文件数据解析的基础上,对邮件的各个属性和内容进行挖掘分析,提取可能的犯罪组织关系的方案。该方案主要由Email文件分析提取、通联关系网络构建、社群提取分析等步骤完成。
1)Email文件分析提取,主要针对Pst、Dbx、Box和Eml格式的邮件存储文档,从中提取已收发邮件的收发账户的邮件地址、主题、发送时间、邮件内容和附件信息,并将得到的邮件信息存入到邮件信息数据库中;
对存在附件的邮件,要对邮件的附件进行解析,如果附件为压缩文件,首先要对附件解压缩后再进行分析;主要对一些常见文档进行分析,包括PDF、DOC、XLS、PPT、TXT,将这些文档进行格式转换,统一存储为文本格式;
再对Email文件提取分析的过程中会根据邮件地址的黑、白名单和基于主题字段的关键字匹配,对一些广告垃圾邮件和订阅邮件进行过滤,只提取具有取证价值的邮件地址和邮件;
2)通联关系网络构建,根据提取出的邮件的通信地址关系,构建邮件通联关系网络,利用图G=(V,E)代表邮件通联关系网络,其中V是通联关系中所有出现的邮件地址的集合,即V={vi|vi为出现过的邮件地址};E为有向边的集合,即E={<vi,vj>|vi成功发送邮件给vi,i≠j},接下来,计算每一条边的权重,邮件通信次数的高低则体现了邮件地址之间关系的紧密程度,同时,邮件中收件人和抄送人的数量也会影响到收件地址与发件地址之间的紧密程度;因此综合考虑通信次数和收件地址个数两个因素来定义邮件地址vi和邮件地址vj之间的权重为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210248207.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理