[发明专利]一种垃圾内容识别方法及装置有效
申请号: | 201210144007.1 | 申请日: | 2012-05-10 |
公开(公告)号: | CN103389995B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 王帅 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例提供一种垃圾内容识别方法及装置,包括:在接收到待识别样本数据时,相对于现有技术中利用基于朴素贝叶斯分类器进行分类,本申请实施例对朴素贝叶斯分类器进行改进,结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子,使得朴素贝叶斯中条件独立变得更加柔和,可以更好地实现类别分类,从而提高垃圾内容的识别精度,且由于引入了第一信任因子和第二信任因子,使得分类时中引入的特征数量较少,使得利用较短的时间即可以实现垃圾内容的识别。 | ||
搜索关键词: | 一种 垃圾 内容 识别 方法 装置 | ||
【主权项】:
一种垃圾内容识别方法,其特征在于,所述方法包括:接收待识别样本数据;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容;其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,具体包括:根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型;利用训练后的特征模型确定待识别样本数据的类别;其中,所述特征模型通过以下公式表示:![]()
其中,χ={X1,X2,...Xn},表示特征Xi,i=1,2……n的集合;P(spam|χ)表示特征集合χ发生的条件下,样本数据为垃圾内容类别的条件概率;P(spam)表示出现标识为垃圾内容类别的样本数据的概率;P(ham)表示出现标识为非垃圾内容类别的样本数据的概率;P(Xi|spam)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率;P(Xi|ham)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率;θ(spam,Xi)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子;θ(ham,Xi)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210144007.1/,转载请声明来源钻瓜专利网。
- 上一篇:玄归膏剂及制备方法
- 下一篇:移动设备获取网络信息的方法及系统
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法