[发明专利]一种基于人工免疫与行为特征的垃圾邮件识别方法及装置有效
申请号: | 200810044484.4 | 申请日: | 2008-05-30 |
公开(公告)号: | CN101594312A | 公开(公告)日: | 2009-12-02 |
发明(设计)人: | 何兴高;钟婷;程红蓉;陈佳;曾志华;文思群 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L9/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工免疫 行为 特征 垃圾邮件 识别 方法 装置 | ||
技术领域
本发明涉及互联网技术,具体涉及一种邮件行为特征库生成方法、垃圾邮件判断方法、 垃圾邮件特征库更新方法。
背景技术
近年来,随着互连网的发展,垃圾邮件问题越来越引起人们的重视。垃圾邮件无时无刻 的困扰着互连网用户,浪费网络资源,甚至可能引起其他更加严重的社会问题。随着技术的 发展,垃圾邮件过滤技术也得到了越来越多的关注和发展。
大部分防垃圾邮件产品都还在采用IP过滤,关键字过滤,基于贝叶斯统计算法的智能内 容过滤以及RBL过滤等方法进行垃圾邮件的区分。但是它们误报率高,处理性能很低,语言 依赖性强。因为这些技术,没有跳出内容匹配过滤的技术局限,它们需要将邮件完整接收下 来后,对邮件按照指定语言进行分词处理,并与一个有着数以百万计的词库进行逐一匹配, 从而估计该邮件是否为垃圾邮件。
对比垃圾邮件和正常邮件,二者最根本的区别在于各自的目的不同。为了达到其非法目 的,不法分子在使用电子邮件的过程中就会表现出与正常使用行为不同的特征,并在网络上 留下相应的痕迹。基于这一点,采用基于垃圾邮件行为识别的原理和方法,可提高邮件过滤 速度,同时避免了内容过滤技术不可避免的误报率问题,使得垃圾邮件过滤更加高效和准确。
近年来,智能型的垃圾邮件检测技术和传统方法相比体现出了更强的学习能力和调整特 性。在智能型的邮件处理方法中,机器学习和人工神经网络的方法已得到了深入的研究。目 前主要的垃圾邮件检测方法有:朴素贝叶斯(Naive Bayes)、支持向量机(SVM)、人工神经网 络(ANN)、基于免疫的垃圾邮件过滤方法等。
将人工免疫模型应用于垃圾邮件处理,主要利用免疫中自己/非己的检测原理和检测器的 概念。提取n个垃圾邮件行为特征,每个特征作为一个染色体,每一封邮件都可转化为一个 有n位染色体的基因细胞。先用已知类别垃圾邮件训练出一个抗体(antibody)集,即是抗 体库,每一封未识别邮件为抗原(antigen)。然后计算该抗原和抗体库中每一个抗体的相似 度(affinity),如果得出的最大的相似度大于预先设定的某一阈值,那么认为抗体识别出了 该抗原并将其归类为垃圾邮件。且随着被识别抗原的不同相似度,对抗体库进行克隆变异更 新,即保证抗体集的高识别性能,又使之更能适应新垃圾邮件的更新趋势。
发明内容
本发明实施例的目的是提供一种邮件行为特征库生成方法及装置、垃圾邮件判断方法、 装置及系统、垃圾邮件特征库更新方法及装置,使用本发明提供的实施例,可以对垃圾邮件 信息类型进行判断,从而过滤垃圾邮件信息。
首先,为了解决现有技术存在的问题,本发明的实施方式提出一种邮件行为特征库生成 方法,该方法的步骤包括:
读取分类已知邮件信息的内容;
将所述邮件信息内容使用特定行为特征提取算法得到抗体集;
采用所述的抗体集使用特定分析算法进行概率分析得到最终抗体库;
将所述抗体库使用特定分析算法进行分数计算得到最终分数集。
相应地,本发明的实施方式提出了一种邮件行为特征库生成装置,该装置包括:
邮件信息读取单元,用于读取分类已知邮件的信息内容;
特征提取单元,用于从所述邮件内容中提取符合特定条件的行为特征;
抗体库生成单元,用于将所述行为特征进行概率分析得到最终的抗体集;
特征分数生成单元,用于将所述特征概率进行计算得到最终的分数集。
其次,本发明的实施方式还提供了一种垃圾邮件判断方法,该方法的步骤包括:
读取分类未知邮件信息的内容;
对所述邮件信息内容进行格式解析;
将解析后的邮件信息内容使用特定行为特征提取算法得到抗原;
读取所述的特定邮件信息行为特征提取算法及概率算法得到的抗体库和分数集;
对所述抗原使用特定识别算法进行计算;
根据计算结果对所述邮件进行判断。
相应地,本发明的实施方式提出了一种垃圾邮件判断装置,该装置包括:
邮件信息读取单元,用于读取分类未知邮件信息内容;
信息内容解析单元,用于解析分类未知邮件信息内容;
特征提取单元,用于从所述邮件内容中提取符合特定条件的行为特征;
抗体库与分数集读取单元,用于读取抗体库与对应分数集内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810044484.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通风法防冻雨输电导线
- 下一篇:含有酰化氨基苯基磺酰脲类的除草用组合物