[发明专利]一种基于人工免疫与行为特征的垃圾邮件识别方法及装置有效
申请号: | 200810044484.4 | 申请日: | 2008-05-30 |
公开(公告)号: | CN101594312A | 公开(公告)日: | 2009-12-02 |
发明(设计)人: | 何兴高;钟婷;程红蓉;陈佳;曾志华;文思群 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L9/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工免疫 行为 特征 垃圾邮件 识别 方法 装置 | ||
1.一种邮件行为特征库生成方法,其特征在于,首先对包括邮件头和邮件体的垃圾内容可能出现的行为特征进行特征提取,如:邮件头中容易伪造的字段、DNS解析的字段、邮件书写不规范的字段、路由信息中伪造的字段;邮件体中带有的“www”或“http://”、以及“”等字段,具有某特征记为1,反之记为0,据此得到写了0或1的定长数组的垃圾邮件抗体集和正常邮件抗体集;采用所述的抗体集使用免疫原理中的耐受原则和反向选择算法进行概率分析得到最终抗体库;对所述抗体库进行分数计算,当垃圾邮件集与正常邮件集数量相等时,累加每一项特征在垃圾邮件集中出现的次数,同时累加每一项特征在正常邮件集中出现的次数,求出两次数相减的绝对值,为了体现出每种特征在区分垃圾邮件和正常邮件中起到的作用大小,将每一个特征所求到的值保存成一个分数集。
2.一种垃圾邮件判断方法,其特征在于,读取并解析未知分类邮件内容,采用权利要求1所述的特征库生成方法从邮件内容中提取行为特征;采用免疫原理中的耐受原则和反向选择算法方法,使用垃圾邮件抗体集和正常邮件抗体集,通过分析计算生成有效的识别垃圾邮件的抗体库;读入垃圾邮件抗体集和正常邮件抗体集,当垃圾邮件集与正常邮件集数量相等时,累加每一项特征在垃圾邮件集中出现的次数,同时累加每一项特征在正常邮件集中出现的次数,求出两次数相减的绝对值,将每一个特征所求到的值保存成一个分数集;以所述行为特征、抗体库和分数集作为输入,将读入抗体库中的抗体集形成数个抗体的形式,并将所述分数集按照对应特征匹配;比较抗体数组与抗原数组之间,每一位的数组是否相似,计算抗体和抗原每一位特征的相似度,且累加该相似的特征的分数,最后可以得到该邮件的总相似度和总分数;判断总相似度和总分数是否大于规定的阈值,则判断该信息为垃圾信息,反之为非垃圾信息;这里的阈值为用户自定义,可以根据不断的实验结果得出。
3.垃圾邮件特征库更新方法,其特征在于,读取已被识别为垃圾邮件的抗原信息和识别该抗原的抗体的信息;判断识别出所述垃圾邮件时抗体的相似度是否等于最大相似度,如果等于,则不需要进入后续模块操作;如果不相等,则进入克隆变异模块;然后采用所述的抗体使用预置克隆变异算法,将抗体复制成若干个,其复制的多少与相似度成反比,即相似度越高复制数越少,对每个被复制体进行变异,即数组a其中某一位从0变为1、或从1变为0;为了模拟出生物免疫的随机性和全面性,变异的位是随机决定的;将所述抗原和新的抗体进行识别计算,计算每一位特征的相似度,且累加该相似的特征的分数,最后可以得到该邮件的总相似度和总分数,如果有相似度大于原抗体识别时的相似度,则新抗 体替换原抗体,实现抗体的更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810044484.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通风法防冻雨输电导线
- 下一篇:含有酰化氨基苯基磺酰脲类的除草用组合物