[发明专利]一种基于贝叶斯算法的内容过滤方法无效
申请号: | 201010516057.9 | 申请日: | 2010-10-22 |
公开(公告)号: | CN101996241A | 公开(公告)日: | 2011-03-30 |
发明(设计)人: | 黄杰;蒲文静;王平;霍贵超 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;H04W24/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 算法 内容 过滤 方法 | ||
技术领域
本发明方法是一种基于最小风险的双重阈值贝叶斯决策方法,它针对移动通信网分组域文本信息,对其中的内容进行检测和分类,实现高效实时的文本内容监管。属于信息安全领域。
背景技术
中国互联网协会发布的一项调查显示:中国手机用户平均每周收到8.29条垃圾信息,作为世界上最大的移动通信市场,中国的手机用户数已经超过4.43亿,按照每条信息收费0.15元计算,垃圾信息每天为运营企业带来的收入约为7800多万元。随着3G时代的到来,用户通过手机能够浏览和查阅的信息越来越多,但他们也面临着五花八门的垃圾信息的骚扰。倘若我们能在信息传输的过程中截取并过滤掉垃圾信息,就能够打破垃圾信息传播的“生态链”,让非法分子无机可乘。故研究一种能够有效识别垃圾文本信息的过滤方法具有重要的经济价值和社会价值。
垃圾信息的分类过滤是在协议解析以后对解析出的具体内容进行检测,属于内容过滤技术的范畴。文本的分类可以看成模式识别的一个具体应用。本发明利用基于最小风险的双重阈值贝叶斯决策的方法,在TD-SCDMA移动互联网内容监管系统中对真实的文本通信内容进行分类。实验证明,它拥有较高的准确率,正常文本信息极少会被判定为垃圾信息,且处理速度较快,完全能够满足实时处理的需求。
发明内容
技术问题:本发明的目的是提供一种高速的文本内容过滤方法,可以实现对核心网分组域中的文本内容进行检测,防止垃圾或者违法信息对通信网用户造成干扰,在保证通信质量的前提下减少了用户有用信息的损失,对垃圾信息也得到了很好的抑制,实现第三代移动通信移动网内容监管数据的高速实时处理。
技术方案:本发明采用基于最小风险的双重阈值贝叶斯算法对文本信息进行实时的分析、检测,从而实现对第三代移动通信网络中数据内容的监管。
本发明的基于贝叶斯算法的内容过滤方法针对3G(第三代移动通信)核心网中文本信息进行内容过滤,其使用基于双重阈值的贝叶斯算法来进行文本分类,设C1为正常信息,C2为垃圾信息,分类器将测算代表数据样本的特征向量X属于每个类别Ci的概率,进行测算的贝叶斯公式为:
P(Ci|X)=P(X|Ci)P(Ci)/P(X) 1≤i≤2,
其中后验概率P(Ci|X)的最大值被称为最大后验概率,对每个类错误!未找到引用源。,只需计算错误!未找到引用源。,未知样本特征向量X将被指派到其错误!未找到引用源。的风险值最低的Ci类,
基于贝叶斯算法的内容过滤方法具体流程如下:
1)每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量;
2)计算概率p(xk|Ci),其由训练样本估计,采用经过平滑处理后的词频计算式,计算的公式为p(xt|Ci)=(1+ft)/(n+fi),其中ft为特征词xt在Ci类文本中出现的次数,fi为Ci类所有文本的特征词总数,n为向量维数;
3)对p(xk|Ci)进行风险计算,先验概率的风险系数设定如下:
条件1:某个词语出现在垃圾信息中的概率大于出现在正常信息中的频率,
a)将其判定为正常词语时所带来的损失设定为1;
b)将其判定为垃圾词语所带来的损失设为b,其中b<1;
条件2:若词条出现在正常信息中的概率大于出现在垃圾信息中的概率,
a)将其判定为垃圾词语所带来损失设定为d,可知d>1,
b)将其判定为正常词语带来的损失值小于1,在此仍设为b,其中b<1,
将词语分量xk判定为垃圾词条要满足的条件为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010516057.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全同立构聚环氧烷及其生产方法
- 下一篇:一种耐磨球生产线用模具
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法