[发明专利]一种网络不良信息的过滤方法及装置有效
申请号: | 201010621142.1 | 申请日: | 2010-12-24 |
公开(公告)号: | CN102567304A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 郑妍;于晓明;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 不良信息 过滤 方法 装置 | ||
技术领域
本发明涉及计算机信息处理及信息过滤技术领域,尤其涉及一种基于统计与规则的网络不良信息的过滤方法及装置。
背景技术
随着互联网的迅速发展,信息传播速度也随之加快。由于互联网上的内容良莠不齐,例如:广告、色情、暴力以及反动为主的不良信息都难以杜绝,并渐渐以更为隐蔽的方式扩散,因此,抑制不良信息的扩散以及净化互联网络空间就显得十分重要。对于互联网中海量的数据信息,如果采用人工的方法去过滤互联网上的不良信息,则需要耗费巨大的人力物力。因此,基于互联网内容的不良信息的自动过滤技术成为近年来研究的热点。
目前,基于互联网内容的不良信息自动过滤技术通常采用如下两种方式:
(1)基于关键字匹配的过滤方法;该方法在判定过程中,采取精确匹配的策略,过滤掉出现关键字的文本。采用该方法过滤互联网内容的不良信息速度快,简单易操作。
(2)基于统计的文本分类模型的过滤方法;该方法中基于统计的不良文本过滤模型本质上是一个两类的文本分类问题,文本分类是自然语言处理领域的研究重点方向,有大量经典模型可供参考。基于统计的文本分类模型从理论角度来看应该是效果不错的方法,但在实际应用中性能却不理想,误判情况十分突出,主要原因分析如下:
(1)正向与负向语料不均衡。其中,正向语料只包含了少量类别,例如:广告、色情、暴力、反动以及用户所关心的不良信息为主。负向语料则包含了大量类别,例如:按照文本内容可划分为:经济、体育、政治、医药、艺术、历史、政治、文化、环境、交通、计算机、教育、军事等等。
(2)不良信息的内容表现具有很大的多变性和隐蔽性。发布者经常有意避开常用词,取而代之,如:同音字,拆分字,非汉字噪音,缩略现象,新词等。
(3)用户词典只提供关键词精确匹配方式,造成判定方法的机械与不灵活。且单一关键词的语义倾向性不具有代表性,误判率高。比如,当“免费”和“发票”同时出现在上下文环境中要比单一的“发票”更具有说服性。
(4)一些传统的中文信息处理做法并不适用于基于文本分类的不良信息过滤。如使用一定规模的禁用词;如特征项只包括双字以上的词汇等。
(5)缺少统一的模型,对包括广告、色情、暴力、反动等不良信息进行综合过滤。
在实现上述基于互联网内容的不良信息自动过滤技术的过程中,发明人发现现有技术中,不良信息自动过滤性能无法满足当前互联网的过滤需求,且无法实现自动更新。
发明内容
本发明实施例提供一种网络不良信息的过滤方法及装置,为达到上述目的,本发明的实施例采用如下技术方案:
一种网络不良信息的过滤方法,包括:
获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
对所述待过滤文本信息进行预处理;
将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
一种网络不良信息的过滤装置,包括:
信息获取单元,用于获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
预处理单元,用于对所述待过滤文本信息进行预处理;
第一匹配单元,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
第二匹配单元,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
过滤单元,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010621142.1/2.html,转载请声明来源钻瓜专利网。