[发明专利]一种垃圾信息检测方法和装置有效
申请号: | 200710306379.9 | 申请日: | 2007-12-28 |
公开(公告)号: | CN101197793A | 公开(公告)日: | 2008-06-11 |
发明(设计)人: | 刘大林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L12/18 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 罗正云;宋志强 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾 信息 检测 方法 装置 | ||
技术领域
本发明涉及网络信息管理技术,特别涉及一种垃圾信息检测方法和装置。
背景技术
当前,在互联网的电子公告栏系统(BBS,Bulletin Board System)以及博客(blog)等允许用户书写信息的产品中,往往会遇到用户为了获取产品积分、获取经济利益或因为其它原因,比如仅仅为了发泄,而发表的毫无意义的帖子或回复。这些帖子或回复往往是由字符画或是对一个字或一句话重复拷贝多次的信息组成。由于这些信息本身没有实际意义,所以对于浏览BBS或blog的用户来说,这些信息都是垃圾信息。其中,字符画是指由很多小的中英文或特殊美国信息交换标准码(ASCII,American Standard Code for InformationInterchange)字符组成的、外观看起来像一幅大的文字或图案的文本字符串,如图1所示,图1为现有技术中的三个字符画示意图。
当这些垃圾信息充斥在BBS或blog中时,不仅会大量占用服务器的存储空间,而且,也会影响BBS或blog的内容质量,因此需要将这些垃圾信息及时清除。但是,这些垃圾信息不但符合BBS或blog中对于用户发言时在字数上的限制规则,比如10个,而且又没有类似广告信息的明显特征,比如广告信息中经常出现的联系方式、网址或产品名称等。而且这些垃圾信息的发布往往有着广泛的用户参与基础,无法通过单独处理一个或几个用户来解决问题。
现有技术中,为解决上述问题,往往采用人工处理方式,即通过人工,比如BBS管理人员来清除这些垃圾信息,但这种处理方式效率低下,无法满足处理海量的垃圾信息的需求。另外,现有技术中也可以通过关键字搜索命中方式来判断并清除垃圾信息。这种处理方式中,预先提取一些经常在垃圾信息中出现的字符串作为关键词,然后在所有信息中搜索能够匹配该关键词的信息,如果能够匹配,则判定为垃圾信息。
这种处理方式虽然能够在一定程度上实现垃圾信息的清除,但在实际应用中也存在很多问题,比如:
1、关键词不仅会在垃圾信息中出现,在非垃圾信息中也可能出现,特别是当关键词比较短或比较常见时,在非垃圾信息中出现的概率会很大,这样就会造成严重的误判。
2、关键词搜索命中方式为机械匹配,如果对垃圾信息中的某个关键词稍微作一下改变,就无法再将该垃圾信息正确判断出来。
3、垃圾信息多种多样,如果要采用关键词搜索命中方式进行垃圾信息清除,则需要很大的关键词库,并需要将关键词库中的每个关键词和垃圾信息进行一次匹配,处理效率低下。
4、组成字符画的字符可以是任意字符,随便改变其中的字符,就不能再通过关键词搜索命中方式将垃圾信息正确判断出来。
发明内容
本发明实施例提供一种垃圾信息检测方法,能够准确高效地检测出垃圾信息。
本发明实施例同时提供一种垃圾信息检测装置,能够准确高效地检测出垃圾信息。
本发明实施例的技术方案是这样实现的:
一种垃圾信息检测方法,该方法包括:
将待检测原始信息的语句切分成词;
统计不同词所占频率,并对所述切分后的词进行分类,统计每类词所占频率;
根据所述统计出的每类词所占频率以及不同词所占频率计算总权值;
比较所述总权值是否大于预先设定的第一阀值,如果是,则确定所述待检测原始信息为垃圾信息。
一种垃圾信息检测装置,该装置包括:词分析单元、词统计单元以及规则应用单元;
所述词分析单元,用于将待检测原始信息的语句切分为词;
所述词统计单元,用于统计不同词所占频率,并对所述切分后的词进行分类,统计每类词所占频率;
所述规则应用单元,用于根据所述统计出的每类词所占频率以及不同词所占频率计算总权值,比较所述总权值是否大于预先设定的第一阀值,如果是,则确定所述待检测原始信息为垃圾信息。
可见,采用本发明实施例的技术方案,将待检测原始信息的语句切分成词;统计不同词所占频率,并对切分后的词进行分类,统计每类词所占频率;根据统计出的每类词所占频率以及不同词所占频率计算总权值;比较计算出的总权值是否大于预先设定的第一阀值,如果是,则确定待检测原始信息为垃圾信息。与现有技术相比,本发明实施例所述方案中,针对不同的待检测原始信息,分别进行有针对性的统计、计算及分析,不仅降低了误判率,提高了效率,而且即使用户对发布的垃圾信息内容进行一定地修改,由于对统计结果不会造成实质影响,所以应用本发明实施例所述方案仍然能够准确地检测出来。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710306379.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置