[发明专利]一种基于贝叶斯算法的内容过滤方法无效

专利信息
申请号: 201010516057.9 申请日: 2010-10-22
公开(公告)号: CN101996241A 公开(公告)日: 2011-03-30
发明(设计)人: 黄杰;蒲文静;王平;霍贵超 申请(专利权)人: 东南大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;H04W24/00
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210096*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 贝叶斯 算法 内容 过滤 方法
【权利要求书】:

1.一种基于贝叶斯算法的内容过滤方法,其特征在于该过滤方法针对第三代移动通信核心网中文本信息进行内容过滤,其使用基于双重阈值的贝叶斯算法来进行文本分类,设C1为正常信息,C2为垃圾信息,分类器将测算代表数据样本的特征向量X属于每个类别Ci的概率,进行测算的贝叶斯公式为:

P(Ci|X)=P(X|Ci)P(Ci)/P(X)  1≤i≤2,

其中后验概率P(Ci|X)的最大值被称为最大后验概率,对每个类错误!未找到引用源。,只需计算错误!未找到引用源。,未知样本特征向量X将被指派到其错误!未找到引用源。的风险值最低的Ci类,

基于贝叶斯算法的内容过滤方法具体流程如下:

1)每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量;

2)计算概率p(xk|Ci),其由训练样本估计,采用经过平滑处理后的词频计算式,计算的公式为p(xt|Ci)=(1+ft)/(n+fi),其中ft为特征词xt在Ci类文本中出现的次数,fi为Ci类所有文本的特征词总数,n为向量维数;

3)对p(xk|Ci)进行风险计算,先验概率的风险系数设定如下:

条件1:某个词语出现在垃圾信息中的概率大于出现在正常信息中的频率,

a)将其判定为正常词语时所带来的损失设定为1;

b)将其判定为垃圾词语所带来的损失设为b,其中b<1;

条件2:若词条出现在正常信息中的概率大于出现在垃圾信息中的概率,

a)将其判定为垃圾词语所带来损失设定为d,可知d>1,

b)将其判定为正常词语带来的损失值小于1,在此仍设为b,其中b<1,

将词语分量xk判定为垃圾词条要满足的条件为:

p(xt|C1)/p(xt|C2)<φ,其中φ=(1-b)/(d-b),

由b<1、d>1,得到φ<1,当针对某个词条的先验概率之比满足上式的时候,才将该词条归为垃圾词条,即完成了对p(xk|Ci)的风险计算;

4)计算类的先验概率P(Ci),计算的公式为P(Ci)=si/s,其中si是类Ci错误!未找到引用源。中的训练样本数,而s是训练样本总数;

5)计算P(X|Ci),为了降低运算错误!未找到引用源。的开销,假定特征词之间相互条件独立,即属性间不存在依赖关系,计算的公式为 

6)进行了如上假设和处理后,对每个类错误!未找到引用源。,计算P(X|Ci)P(Ci),并对其进行风险计算,后验概率的风险系数设定如下:

条件1:信息被正确判定时,不会给用户带来任何损失,相应的损失设定为0; 

条件2:垃圾信息被误判为正常信息时所带来的损失设定为1;

条件3:正常信息被误判为垃圾信息时所带来的损失设定为k,可知k要大于1,

将未知样本特征向量X判定为垃圾信息要满足的条件为:

P(C2|X)>θ,其中θ=k/(1+k),

由k>1,得到θ<1,当针对某个未知样本的后验概率满足上式的时候,才将该样本归为垃圾信息,即完成了对P(Ci|X)的风险计算,若最终得到P(C2|X)>θ,判定该信息为垃圾信息;反之,判定其为正常信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010516057.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top