[发明专利]一种基于多属性的误发邮件检测方法在审
申请号: | 201510154872.8 | 申请日: | 2015-04-02 |
公开(公告)号: | CN104794176A | 公开(公告)日: | 2015-07-22 |
发明(设计)人: | 蒲以国;陈小军;时金桥;郭莉;柳厅文;文新;徐睿 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/10 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余功勋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 属性 邮件 检测 方法 | ||
技术领域
本发明属于隐私保护领域,涉及一种基于多属性的误发邮件检测方法。
背景技术
电子邮件是是Internet应用最广泛的服务之一,具有快速方便、价格低廉、用途广泛等特点。由于电子邮件作用巨大,稍有不慎就可能造成敏感数据泄露,给数据安全带来了严重威胁。目前电子邮件泄露造成的安全事故屡屡发生,在互联网上大行其道的内部邮件泄密消息不绝于耳,其中由用户失误或内部攻击者造成的泄密更为严重。Info watch的调研报告显示电子邮件泄露在无意识的泄露事件中和有意识泄露事件中分别占9.9%和4.4%。大部分的无意识邮件泄密是由用户误发邮件造成的,如用户Alice本来打算向john@corpa.com发一封敏感邮件,却由于疏忽发给了joan@corpb.com,导致信息泄露或造成恶劣影响。2011年,曼城CEO Cook将一封发给曼城足球总监Marwood的邮件误发给曼城队后卫Nedum Onuoha身患癌症的母亲Dr Anthonia Onuoha。邮件中对Dr Anthonia Onuoha进行了“嘲讽和侮辱”,Cook因此被推到了舆论风暴中心,直接导致他辞职。此类事件发生次数还很多,造成的影响也更加严重。因此必须在源头监控敏感邮件的流通,防止误发事件发生。
误发邮件实际上与用户的意图相悖的,表现在用户的通信行为出现了异常,即与以前的行为存在较大偏差,而正常用户行为的偏差常在一定范围内波动。因此可以将误发邮件检测看成一种分类问题:行为差异较小的正常邮件和行为差异较大的误发邮件。已有的检测方法多关注单个用户行为,建立单用户模型以检测误发邮件,且提取属性不全面,准确率不高。
发明内容
针对上述现有技术不足,本发明将误发邮件检测看成一个二值分类问题,从内容特征、社会关系和通信行为等多种属性对用户的通信行为偏差建立通用检测模型,当用户通信行为偏差超过正常的范围时,则很可能是一封误发邮件。
为了准确地检测误发邮件,本发明提出了一种基于多属性的误发邮件检测方法,包括以下步骤:
1)从标记的多个邮件中提取内容特征属性、社会关系属性及通信行为属性;
2)根据所述内容特征属性、社会关系属性及通信行为属性建立基于SVM分类模型;
3)提取一封新邮件的内容属性、社会关系属性及通信行为属性,并用所述基于SVM分类模型进行检测,判断所述新邮件是否为误发邮件。
进一步地,提取所述内容特征属性包括,在邮件集合E中,查找与邮件集合E中的邮件e最相似的K个邮件组成集合Esub={e1,e2,…,eK},并计算每个收件人的得分ti作为其文本特征;若收件人ri曾经发送或接收过ej,则ri获得值为sim(ei,e)的得分;其中sim(ej,e)为ej和e的相似度,采用BM25算法计算得到;ti的值越小,则新邮件为误发邮件的可能性越大。
进一步地,所述sim(ej,e)的计算公式为:其中qi为ej中的关键词,f(qi,e)为关键词qi在邮件e中的频率,|e|是e中的词的数量,avgdl是所有邮件平均词数量,k1和b是参数,取值为k1∈[1.2,2.0],b=0.75,n为ej中的词数量,IDF(qi)是关键词qi的倒排文档频率权重。
进一步地,所述IDF(qi)的计算公式为:其中N为集合中邮件总数,n(qi)是包含关键词qi的邮件数量。
进一步地,所述ti的计算公式为:其中,isRec(ej,ui)为指示函数,如果邮件ej是ui接收或发送的邮件,返回1,否则返回0。所有内容特征属性进行归一化处理,即ui的文本特征为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510154872.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文件定位方法及装置
- 下一篇:一种数据处理方法和装置