[发明专利]基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统及方法在审
申请号: | 201710159967.8 | 申请日: | 2017-03-17 |
公开(公告)号: | CN106951510A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 刘延华;郭文忠;陈国龙 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bide 算法 最长 公共 序列 数据 同一 鉴定 系统 方法 | ||
技术领域
本发明涉及数据分析领域,特别是涉及一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统及方法。
背景技术
2012年我国新修订的刑事诉讼法将数字证据增列为一种新的法定证据,由此数字证据在犯罪调查中扮演了越来越重要的角色。但依据目前司法相关规定,计算机犯罪调查获取的源数据不能直接作为数字证据被采用,必须要先通过证据认定,确认与案件相关的数据才能够成为法定的证据。同时,现有的很多计算机及网络应用服务多以匿名服务方式运行,由此所产生的大量用户数据没有包含特定的用户身份识别信息,这些匿名数据都需要通过同一鉴定来确认应用数据的身份同一性,即匿名数据是否与案件、涉案人员或涉案实体具备同一性或相关性,为数字证据的认定提供科学依据。可见,数字证据的鉴定是数字取证中的关键技术,具备重要的实际应用意义。
在数字取证领域中,匿名数据的身份归属鉴定即称为证据的同一鉴定,也称为同一取证,具体指利用一定的技术方法来判定两份证据数据是否来自于同一犯罪嫌疑人或同一系统。由于具备司法认定资格的司法人员对于计算机技术、网络技术等技术基础可能存在一定的不足,因而同一鉴定成为数字证据认定的重要依据和前提技术支撑。
基于用户身份的数据同一鉴定通常使用用户行为模式的比对来实现,即具备同一性的证据数据所包含的用户行为特征信息与特定犯罪嫌疑人的用户行为特征信息是相同的或相吻合的。
用户行为模式可分为序列行为模式和非序列行为模式两种。序列行为模式指的是用户行为模式中的特征属性项具有先后次序性,不能任意更换它们的先后顺序;非序列行为模式则指表征用户行为模式的特征属性项具有集合特性,特征属性项之间没有固定的次序性要求。用户的序列行为模式包括Web浏览模式、系统操作模式等,而用户的非序列行为模式则包括文本书写模式、商品购买模式、社交模式等
目前,在Email的作者身份鉴定方面,通常采用Email内容的主题特征模式和文本书写特征模式来研究匿名通信文本的归属问题,已在垃圾邮件判定等应用研究中获得了一定效果。采用SVM模型分析Email的书写风格和结构特点,并进一步深入研究了Email作者的归属问题,发现当训练集减小、作者数目增加或Email文本长度减小时,基于SVM的分类精度会出现明显的下降,且当特征词增加到一定数目后,SVM算法的性能也会变差,表明SVM方法不太适用于短文本的身份识别。为此,利用频繁模式挖掘算法设计Email等文本的作者识别方法,由获得的频繁项集来生成用户书写特征模式,并采用频繁项挖掘算法的支持度来计算相似性得分,实现书写模式的比对,实验表明对于Email等文本的身份鉴定具有较好可用性。同时,融合书写特征和内容特征等多个属性,提出一种基于聚类的CEAI模型,该模型在Enron邮件数据集的作者鉴定中获得了一定的成功。
综上可见,用户频繁行为模式在非序列型数据的身份同一鉴定方面获得了良好计算效果。基于此,借鉴以上研究思路,研究基于BIDE频繁闭序列模式挖掘算法和基于最长公共子序列的数据同一鉴定方法,探索用户频繁行为模式在序列型数据同一鉴定中的可行性,以验证用户频繁行为模式在数字证据同一鉴定中的普适性。
发明内容
有鉴于此,本发明的目的是提供一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统及方法,该方法能通过同一鉴定确认匿名数据的身份同一性,在一定程度上提高挖掘犯罪网络中可疑对象的准确性。
本发明采用以下方案实现:一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定系统,该系统包括用户行为模式的数据挖掘模块、基于BIDE算法的频繁序列行为模式挖掘模块、数字证据的同一鉴定模块、基于最长公共子序列的模式相似度计算模块;其中,所述用户行为模式的数据挖掘模块,用以利用数据挖掘技术建立用户频繁行为模式库;所述基于BIDE算法的频繁序列行为模式挖掘模块,用以利用BIDE频繁闭序列挖掘算法来进行用户频繁行为模式的挖掘,获得与完整频繁序列模式信息等同的精简频繁闭合序列模式,为数据鉴定提供用户频繁序列行为模式库;所述数字证据的同一鉴定模块,用以采用同一鉴定的技术方法判定两份证据数据是否来自于同一犯罪嫌疑人或同一系统;所述基于最长公共子序列的模式相似度计算模块,用于计算两个行为模式中所有两两频繁序列之间的LCS,并结合LCS的长度和对应频繁序列的支持度来计算两个频繁序列行为模式的综合相似度。
本发明还采用以下方法实现:一种基于BIDE算法与最长公共子序列的序列型数据同一鉴定方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710159967.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自体骨粉碎收集装置
- 下一篇:一种文本聚类方法及装置