[发明专利]一种邮件分类识别方法在审
申请号: | 201410547075.1 | 申请日: | 2014-10-14 |
公开(公告)号: | CN104361015A | 公开(公告)日: | 2015-02-18 |
发明(设计)人: | 罗阳;陈虹宇;王峻岭 | 申请(专利权)人: | 四川神琥科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 邮件 分类 识别 方法 | ||
技术领域时
本发明涉及一种邮件的分类识别方法,适用于网络内容监管、垃圾邮件过滤等领域。
背景技术
随着互联网应用的发展,电子邮件得到广泛的应用,已成为Internet上最基本的服务之一,用户可以通过电子邮件与远程用户进行经济、方便和快捷的信息交流。然而,就在电子邮件逐渐成为一种不可缺少的重要信息交流工具的同时,也正在成为一种商业广告手段。用户在收到有用信息的同时,还必须花费大量时间和精力多各种各样的邮件进行分类识别,以过滤“垃圾”邮件,而现有的邮件分类识别方法或采用较单一的分类识别方法而导致结果不准确,或使用过于复杂的识别方式而提高了时间成本。因此,如何提高邮件分类识别的准确率以及效率是目前研究的热点问题。
目前常用的分类方法有很多种,有基于概率的方法,如贝叶斯方法,其原理是通过概率计算,由待分类的数据对象的属性值求出最可能的分类目标值,即计算各个类别在给定这组属性值时的条件概率,并把输出条件概率值最大的类标号作为目标值。其缺点是前提条件不容易满足;基于实例的方法,如KNN方法,其基本原理是基于实例之间的距离,对每个实例来说,如果靠近它的实例都是某个类别,那么该实例也可能是这个类别。该方法的缺点是分类效率较低;基于统计学习的方法,如SVM等。SVM分类器是目前最好的文本分类器之一。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数。另外SVM训练速度极大地受到训练集规模的影响,计算开销比较大。
虽然这些方法各自有各自的优势,但各自有不同的缺点,分类准确率最高在80%左右,还不能够满足实际使用的要求。
投票算法,其核心思想是:k(k为大于1的整数)个专家判断的有效组合应该优于某个专家个人的判断。投票算法主要有两种:Bagging算法和Boosting算法。
支持向量机作为一种分类工具已经被广泛的应用于各个领域。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。
当前的历史信息通过支持向量和与它们关联的权重来表示。因此,在每一次增量更新中,描述类边界信息的支持向量以及新到来的数据被作为新的数据集对支持向量机进行更新。
对支持向量机进行增量更新的技术包括误差驱动方法ED(Error-driven technique),固定分割方法FP(Fixed-partitiontechnique),超间隔方法EM(Exceeding-margin technique),超间隔+误差方法EM+E(Exceeding-margin+error technique)等。
发明内容
本发明的主要目的在于提供一种邮件的分类识别方法,利用多种方式对邮件进行多层次的分类识别,采用决策中心的投票方式得到准确分类结果;对已构建的分类器进行增量更新,以提高分类器的自适应能力;并用最终分类结果更新预设表情和/或语音特征数据库,提高分类属性的识别效率,可以解决现有技术中邮件的分类识别方法对邮件的区分度以及效率较低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种邮件分类识别方法,包括以下步骤:
步骤1,获取用户收发邮件时的表情和/或语音特征数据;并按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性,所述分类属性包括:正常邮件、垃圾邮件和无法确认;
如果所获得的分类属性为正常邮件或垃圾邮件,则结束分类,否则执行步骤2。
进一步地,在步骤2之后还包括以下步骤:
步骤3,将每个分类器的分类结果发送至决策中心,在决策中心采用投票算法对所述多个分类器得到的分类结果进行投票,得到最终分类结果;
步骤4,对所述多个分类器进行增量更新,并用最终分类结果更新预设表情和/或语音特征数据库。
进一步地,在步骤1后,且步骤2前包括:
对邮件进行分词、特征向量提取、权重计算预处理;
其中,所述特征向量提取包括:邮件头特征向量提取、附件特征向量提取、以及正文特征向量提取;并且
提取的特征向量以数据库字段的方式存入特征向量数据库。
进一步地,所述分类器可采用基于决策树的学习算法构建。
进一步地,对所述多个分类器进行增量更新包括:
每收发一封邮件,获取该邮件的特征向量;
判断所述特征向量是否位于已构建分类器的分类间隔内;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川神琥科技有限公司,未经四川神琥科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410547075.1/2.html,转载请声明来源钻瓜专利网。