[发明专利]基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法无效
申请号: | 200510135603.3 | 申请日: | 2005-12-31 |
公开(公告)号: | CN1790405A | 公开(公告)日: | 2006-06-21 |
发明(设计)人: | 钱德沛 | 申请(专利权)人: | 钱德沛 |
主分类号: | G06Q10/00 | 分类号: | G06Q10/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 目前,基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题。将文本分类等机器学习的相关方法应用于垃圾邮件的搜索和判定是进行大量垃圾邮件处理的有效方法。贝叶斯分类方法在垃圾邮件处理上表现出了很高的准确度,并且表现出了可持续更新学习的优良特性,因此基于贝叶斯分类的垃圾邮件过滤方法受到了广泛的关注。当前贝叶斯分类算法中采用的特征选择方法有基于文档频数选择和基于互信息选择。这两种特征选择方法都不能有效地衡量低频词对分类的贡献。本发明提出了一个新的特征选择参量——似然比对数,它专门针对垃圾邮件分类应用,综合了低频词在邮件中出现和不出现的两种情况下对分类的影响,使得贝叶斯分类过程能够利用特征选择过程的计算结果,并通过实验证明了这种方法提高了分类结果的召回率和分类性能。 | ||
搜索关键词: | 基于 贝叶斯 分类 中文 垃圾邮件 内容 鉴别 算法 | ||
【主权项】:
1、一种基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法,该算法主要是将贝叶斯分类算法原理运用到中文垃圾邮件过滤上。同时在贝叶斯基础上,提出了一个新的特征选择参量——似然比对数,它专门针对垃圾邮件分类应用,综合了低频词在邮件中出现和不出现的两种情况下对分类的影响,使得贝叶斯分类过程能够利用特征选择过程的计算结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于钱德沛,未经钱德沛许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200510135603.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理