[发明专利]一种垃圾内容识别方法及装置有效

专利信息
申请号: 201210144007.1 申请日: 2012-05-10
公开(公告)号: CN103389995B 公开(公告)日: 2016-11-23
发明(设计)人: 王帅 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 英属开曼群岛大开曼*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请实施例提供一种垃圾内容识别方法及装置,包括:在接收到待识别样本数据时,相对于现有技术中利用基于朴素贝叶斯分类器进行分类,本申请实施例对朴素贝叶斯分类器进行改进,结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子,使得朴素贝叶斯中条件独立变得更加柔和,可以更好地实现类别分类,从而提高垃圾内容的识别精度,且由于引入了第一信任因子和第二信任因子,使得分类时中引入的特征数量较少,使得利用较短的时间即可以实现垃圾内容的识别。
搜索关键词: 一种 垃圾 内容 识别 方法 装置
【主权项】:
一种垃圾内容识别方法,其特征在于,所述方法包括:接收待识别样本数据;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容;其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,具体包括:根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型;利用训练后的特征模型确定待识别样本数据的类别;其中,所述特征模型通过以下公式表示:<mrow><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>|</mo><mi>&chi;</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>-</mo><mi>P</mi><mrow><mo>(</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>|</mo><mi>&chi;</mi><mo>)</mo></mrow></mrow></mfrac><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>)</mo></mrow><msubsup><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mi>P</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>|</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>)</mo></mrow><mi>&theta;</mi><mrow><mo>(</mo><mi>s</mi><mi>p</mi><mi>a</mi><mi>m</mi><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>P</mi><mrow><mo>(</mo><mi>h</mi><mi>a</mi><mi>m</mi><mo>)</mo></mrow><msubsup><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mi>P</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>|</mo><mi>h</mi><mi>a</mi><mi>m</mi><mo>)</mo></mrow><mi>&theta;</mi><mrow><mo>(</mo><mi>h</mi><mi>a</mi><mi>m</mi><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>其中,χ={X1,X2,...Xn},表示特征Xi,i=1,2……n的集合;P(spam|χ)表示特征集合χ发生的条件下,样本数据为垃圾内容类别的条件概率;P(spam)表示出现标识为垃圾内容类别的样本数据的概率;P(ham)表示出现标识为非垃圾内容类别的样本数据的概率;P(Xi|spam)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率;P(Xi|ham)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率;θ(spam,Xi)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子;θ(ham,Xi)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210144007.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top