[发明专利]一种垃圾内容识别方法及装置有效

申请号：	201210144007.1	申请日：	2012-05-10
公开（公告）号：	CN103389995B	公开（公告）日：	2016-11-23
发明（设计）人：	王帅	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	英属开曼群岛大开曼***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种垃圾内容识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种垃圾内容识别方法，其特征在于，所述方法包括：

接收待识别样本数据；

根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别，在所述待识别样本数据被分类为垃圾内容类别时，表示该待识别样本数据属于垃圾内容，在所述待识别样本数据被分类为非垃圾内容类别时，表示该待识别样本数据属于非垃圾内容；

其中，所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的，所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。

2.如权利要求1所述的方法，其特征在于，根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别，具体包括：

根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型；

利用训练后的特征模型确定待识别样本数据的类别。

3.如权利要求2所述的方法，其特征在于，通过以下方法确定训练后的特征模型：

从样本集中确定训练样本子集，训练样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别；

确定训练样本子集中设定数量的样本数据，针对所述设定数量的样本数据中的每个样本数据，利用该样本数据对特征模型进行训练，在利用所述设定数量的样本数据中的每个样本数据对特征模型进行训练后，得到训练后的特征模型。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

从样本集中确定测试样本子集，测试样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别，测试样本子集与训练样本子集没有交集；

则，得到训练后特征模型之后，利用训练后特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别之前，所述方法还包括：

利用训练后的特征模型将所述测试样本子集中的样本数据分类为垃圾内容类别和非垃圾内容类别；

在所述测试样本子集中每个样本数据被分成的类别与该样本数据被标识成的类别相同的个数不小于设定值时，利用训练后的特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别，否则，重新确定训练样本子集中设定数量的样本数据，继续对特征模型进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210144007.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载