首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种垃圾邮件的特征选择方法及其检测方法有效

申请号：	201410228073.6	申请日：	2014-05-27
公开（公告）号：	CN104050556B	公开（公告）日：	2017-06-16
发明（设计）人：	孙广路;何勇军;刘广明	申请（专利权）人：	哈尔滨理工大学
主分类号：	G06F17/00	分类号：	G06F17/00;G06Q10/10
代理公司：	北京路浩知识产权代理有限公司11002	代理人：	李迪
地址：	150080 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种垃圾邮件特征选择方法及其检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种垃圾邮件的特征选择方法，其特征在于，包括：

基于字节的N-grams方法进行邮件的特征提取；

根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集；

根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集；

通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集；

所述基于字节的N-grams方法进行邮件的特征提取具体包括：

将邮件按照字节流进行预设长度的字节切分得到所述邮件的hash字典；

将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集；

所述将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集具体为：

所述hash字典中的特征在所述预设样本中出现则所述hash字典对应位置的特征值设为1，若未出现，则所述hash字典对应位置的特征值设为0，得到一个稀疏的二值特征数据集；

所述根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集具体包括：

计算提取的特征与预设邮件类别的相对密度，具体如下：

其中，F为特征集，F_i为特征集中的第i个特征，C为预设邮件类别集，C_l为类别集中的第l个类别，为类别C_l所含样本数，L为类别总数，M为特征总数，表示第i个特征数值为1时相对于类别C_l的相对密度，且

根据所述相对密度判断所述提取的特征与预设邮件类别的相关度；

根据所述相关度进行特征排序生成初始特征子集。

2.如权利要求1所述的方法，其特征在于，所述根据相对密度判断所述提取的特征与预设邮件类别的相关度具体包括：

根据所述相对密度进行相关度计算，公式如下：

其中，W(F_i)_diff的范围为[0,1]，表示第i个特征数值为1时相对于类别C₁的相对密度，表示第i个特征数值为1时相对于类别C₀的相对密度，且当W(F_i)_diff＝0时，表示特征F_i与类别最不相关，当W(F_i)_diff＝1，表示特征F_i与类别最相关；

将W(F_i)_diff作为评价准则，对所述W(F_i)_diff与预设阈值ω进行比较，判断所述特征F_i与预设邮件类别的相关度。

3.如权利要求1所述的方法，其特征在于，所述根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集具体包括：

初始化特征子集，对于所述初始特征子集中的特征F_i依据相关系数从所述初始特征子集中选取和所述F_i最相关的K个特征，所述相关系数的计算公式如下：

其中，f_i和c_i分别是特征F_i和类别C_i的分量，n为样本的个数，和是特征F_i和类别C_i均值，计算公式如下：

将这K个特征组成集合M_i，并将所述M_i作为特征F_i的近似马尔科夫毯计算所述特征F_i的分值δ_G(F_i|M_i)，计算公式如下：

其中，D_KL表示相对熵，是衡量变量之间相似度的指标，计算公式如下：

根据所述分值δ_G(F_i|M_i)删除所述初始特征子集中的冗余特征得到候选特征子集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学，未经哈尔滨理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410228073.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种移动互联数字化加油站的加油方法
下一篇：基于云计算的库存与配送管理系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top