[发明专利]一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法在审
申请号: | 201710257123.7 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107086952A | 公开(公告)日: | 2017-08-22 |
发明(设计)人: | 崔玉文;石乐义;刘晓彤;陈鸿龙;郭宏斌;孙慧;薛智宇;李剑蓝 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法,所述方法包括建立中文邮件训练文本集;根据停用词词库对中文邮件训练文本集进行TF‑IDF中文分词,并更新停用词词库;通过TF‑IDF中文分词算法对中文邮件训练文本集进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;把TF‑IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器执行邮件分类;分类结果反馈到日志库。本发明在中文垃圾邮件过滤中误报率低,执行效率高。 | ||
搜索关键词: | 一种 基于 tf idf 中文 分词 贝叶斯 垃圾邮件 过滤 方法 | ||
【主权项】:
一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法其特征在于,主要包括以下步骤:(1)收集中文邮件训练样本集,包括垃圾邮件及合法邮件,建立中文邮件训练文本集;(2)根据停用词词库对中文邮件训练文本集进行TF‑IDF中文分词,并更新停用词词库;(3)通过TF‑IDF中文分词算法对中文邮件训练文本集中的垃圾邮件和合法邮件进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;(4)把TF‑IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器;(5)贝叶斯分类器根据输入的中文邮件内容中的特征词及特征词权值判断邮件是否为垃圾邮件,并把结果反馈到日志库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710257123.7/,转载请声明来源钻瓜专利网。