[发明专利]一种基于贝叶斯算法的内容过滤方法无效
申请号: | 201010516057.9 | 申请日: | 2010-10-22 |
公开(公告)号: | CN101996241A | 公开(公告)日: | 2011-03-30 |
发明(设计)人: | 黄杰;蒲文静;王平;霍贵超 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;H04W24/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 算法 内容 过滤 方法 | ||
1.一种基于贝叶斯算法的内容过滤方法,其特征在于该过滤方法针对第三代移动通信核心网中文本信息进行内容过滤,其使用基于双重阈值的贝叶斯算法来进行文本分类,设C1为正常信息,C2为垃圾信息,分类器将测算代表数据样本的特征向量X属于每个类别Ci的概率,进行测算的贝叶斯公式为:
P(Ci|X)=P(X|Ci)P(Ci)/P(X) 1≤i≤2,
其中后验概率P(Ci|X)的最大值被称为最大后验概率,对每个类错误!未找到引用源。,只需计算错误!未找到引用源。,未知样本特征向量X将被指派到其错误!未找到引用源。的风险值最低的Ci类,
基于贝叶斯算法的内容过滤方法具体流程如下:
1)每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量;
2)计算概率p(xk|Ci),其由训练样本估计,采用经过平滑处理后的词频计算式,计算的公式为p(xt|Ci)=(1+ft)/(n+fi),其中ft为特征词xt在Ci类文本中出现的次数,fi为Ci类所有文本的特征词总数,n为向量维数;
3)对p(xk|Ci)进行风险计算,先验概率的风险系数设定如下:
条件1:某个词语出现在垃圾信息中的概率大于出现在正常信息中的频率,
a)将其判定为正常词语时所带来的损失设定为1;
b)将其判定为垃圾词语所带来的损失设为b,其中b<1;
条件2:若词条出现在正常信息中的概率大于出现在垃圾信息中的概率,
a)将其判定为垃圾词语所带来损失设定为d,可知d>1,
b)将其判定为正常词语带来的损失值小于1,在此仍设为b,其中b<1,
将词语分量xk判定为垃圾词条要满足的条件为:
p(xt|C1)/p(xt|C2)<φ,其中φ=(1-b)/(d-b),
由b<1、d>1,得到φ<1,当针对某个词条的先验概率之比满足上式的时候,才将该词条归为垃圾词条,即完成了对p(xk|Ci)的风险计算;
4)计算类的先验概率P(Ci),计算的公式为P(Ci)=si/s,其中si是类Ci错误!未找到引用源。中的训练样本数,而s是训练样本总数;
5)计算P(X|Ci),为了降低运算错误!未找到引用源。的开销,假定特征词之间相互条件独立,即属性间不存在依赖关系,计算的公式为
6)进行了如上假设和处理后,对每个类错误!未找到引用源。,计算P(X|Ci)P(Ci),并对其进行风险计算,后验概率的风险系数设定如下:
条件1:信息被正确判定时,不会给用户带来任何损失,相应的损失设定为0;
条件2:垃圾信息被误判为正常信息时所带来的损失设定为1;
条件3:正常信息被误判为垃圾信息时所带来的损失设定为k,可知k要大于1,
将未知样本特征向量X判定为垃圾信息要满足的条件为:
P(C2|X)>θ,其中θ=k/(1+k),
由k>1,得到θ<1,当针对某个未知样本的后验概率满足上式的时候,才将该样本归为垃圾信息,即完成了对P(Ci|X)的风险计算,若最终得到P(C2|X)>θ,判定该信息为垃圾信息;反之,判定其为正常信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010516057.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:全同立构聚环氧烷及其生产方法
- 下一篇:一种耐磨球生产线用模具
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法