[发明专利]一种垃圾内容识别方法及装置有效

申请号：	201210144007.1	申请日：	2012-05-10
公开（公告）号：	CN103389995B	公开（公告）日：	2016-11-23
发明（设计）人：	王帅	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	英属开曼群岛大开曼***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请实施例提供一种垃圾内容识别方法及装置，包括：在接收到待识别样本数据时，相对于现有技术中利用基于朴素贝叶斯分类器进行分类，本申请实施例对朴素贝叶斯分类器进行改进，结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子，使得朴素贝叶斯中条件独立变得更加柔和，可以更好地实现类别分类，从而提高垃圾内容的识别精度，且由于引入了第一信任因子和第二信任因子，使得分类时中引入的特征数量较少，使得利用较短的时间即可以实现垃圾内容的识别。
搜索关键词：	一种垃圾内容识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种垃圾内容识别方法，其特征在于，所述方法包括：接收待识别样本数据；根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别，在所述待识别样本数据被分类为垃圾内容类别时，表示该待识别样本数据属于垃圾内容，在所述待识别样本数据被分类为非垃圾内容类别时，表示该待识别样本数据属于非垃圾内容；其中，所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的，所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的；根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别，具体包括：根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型；利用训练后的特征模型确定待识别样本数据的类别；其中，所述特征模型通过以下公式表示：

<mrow><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>|</mo><mi>χ</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>-</mo><mi>P</mi><mrow><mo>(</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>|</mo><mi>χ</mi><mo>)</mo></mrow></mrow></mfrac><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>)</mo></mrow><msubsup><mi>Π</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mi>P</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>|</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>)</mo></mrow><mi>θ</mi><mrow><mo>(</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>P</mi><mrow><mo>(</mo><mi>h</mi><mi>a</mi><mi>m</mi><mo>)</mo></mrow><msubsup><mi>Π</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mi>P</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>|</mo><mi>h</mi><mi>a</mi><mi>m</mi><mo>)</mo></mrow><mi>θ</mi><mrow><mo>(</mo><mi>h</mi><mi>a</mi><mi>m</mi><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>

其中，χ＝{X₁,X₂,...X_n}，表示特征X_i，i＝1,2……n的集合；P(spam|χ)表示特征集合χ发生的条件下，样本数据为垃圾内容类别的条件概率；P(spam)表示出现标识为垃圾内容类别的样本数据的概率；P(ham)表示出现标识为非垃圾内容类别的样本数据的概率；P(X_i|spam)表示标识为垃圾内容类别的样本数据中特征X_i出现的条件概率；P(X_i|ham)表示标识为非垃圾内容类别的样本数据中特征X_i出现的条件概率；θ(spam,X_i)表示标识为垃圾内容类别的样本数据中特征X_i出现的条件概率的第一信任因子；θ(ham,X_i)表示标识为非垃圾内容类别的样本数据中特征X_i出现的条件概率的第二信任因子。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210144007.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种垃圾内容识别方法及装置有效

专利文献下载