[发明专利]一种基于网络的垃圾信息过滤方法和装置无效
申请号: | 200610140726.0 | 申请日: | 2006-09-30 |
公开(公告)号: | CN101155182A | 公开(公告)日: | 2008-04-02 |
发明(设计)人: | 董启江;孙永明 | 申请(专利权)人: | 阿里巴巴公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/58 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 开曼群岛大*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 垃圾 信息 过滤 方法 装置 | ||
技术领域
本发明涉及信息过滤技术,特别是涉及一种基于网络的垃圾信息过滤方法和装置。
背景技术
随着计算机和通讯技术的发展,互联网以其实时、方便快捷、内容丰富以及没有时间和空间限制等特点,目前已经成为人们工作和生活中一种非常重要的信息传播和通讯方式。如网络媒体、BBS、即时通讯(IM,Instant Messaging)电子邮件等。但是,垃圾信息的泛滥却给人们正常使用这些工具带来了很大的困扰,不仅浪费了网络的带宽和存储空间,同时也浪费了用户的时间和精力。
其中,目前普遍用于垃圾信息过滤的方法是基于贝页斯算法的过滤方法,该方法通过收集大量的垃圾信息和非垃圾信息作为样本信息;然后对该信息分词、计算特征元素的频率、概率并建立垃圾信息散列表和非垃圾信息散列表;然后计算上述两个散列表中每一个特征元素为垃圾信息的概率并建立新的散列表作为验证目标信息是否为垃圾信息的基础。当收到一条新的需要验证的目标信息后,根据该目标信息验证和分词的结果重新计算并建立垃圾信息散列表和非垃圾信息散列表,然后再次生成新的散列表作为验证下一目标信息的基础。
但是,基于上述方法过滤垃圾信息,无法适用于样本信息数量庞大、实时性要求高的应用环境。例如,若存在垃圾信息100000条,非垃圾信息100000条,每条信息长度为4k,包含500个单词,基于此建立的垃圾信息散列表和非垃圾信息散列表将占用非常大的空间。当需要验证一条新的目标信息是否为垃圾信息时,如上所述,需要根据该信息验证和分词的结果重新生成垃圾信息散列表和非垃圾信息散列表,然后综合这两个散列表通过计算每一个特征元素为垃圾信息的概率重新建立新的散列表作为验证下一目标信息的基础。而这样的海量计算会占用大量的系统资源和时间,由此造成的时间延迟将严重阻碍下一目标信息的验证,并最终导致无法实时地过滤垃圾信息。
发明内容
本发明所要解决的技术问题是提供一种基于网络的垃圾信息过滤方法和装置,以解决现有技术中无法实时过滤垃圾信息的问题。
为解决以上问题,本发明公开了一种基于网络过滤垃圾信息的方法,包括以下步骤:
对目标信息进行分词取得该信息中的特征元素;
根据预置的关键字库取得与所述目标信息特征元素相应的概率值,所述关键字库定期更新;
对所述目标信息特征元素的概率值进行累加,将累加的结果与预定的阀值进行比较,若大于所述预定阀值,则认为该目标信息为垃圾信息。
优选的,所述关键字库定期更新是根据收集的垃圾样本信息和非垃圾样本信息,同时根据预先设定的特征词组和/或特征短语分别建立垃圾信息散列表和非垃圾信息散列表,所述散列表中存储有根据所述样本信息分词取得的特征元素,以及该样本信息特征元素在所述样本信息中出现的频率;
根据所述垃圾信息散列表和非垃圾信息散列表建立关键字库,所述关键字库中存储所述样本信息特征元素,以及该特征元素为垃圾信息的概率值。
其中,所述关键字库中的特征元素包括但不限于特征单词或特征词组或特征短语。
优选的,还包括:将所述关键字库解析为关键字散列表,根据所述关键字散列表取得与所述目标信息特征元素相应的概率值。
优选的,还包括:根据所述关键字散列表,将所述目标信息的特征元素及其概率值分别存储在相应的特征单词散列表或特征词组散列表或特征短语散列表;
将特征单词散列表和特征短语散列表以及特征词组散列表中各特征元素的概率值进行累加,用计算的结果与预定的阀值进行比较,若大于该阀值,则认为所述目标信息为垃圾信息。
优选的,还包括:
若同一特征元素或其组成同时存在于特征单词散列表、特征词组散列表和特征短语散列表中,则只计算特征短语散列表中该特征元素的概率值;
若同一特征元素或其组成同时存在于特征单词散列表和特征词组散列表中,则只计算特征词组散列表中该特征元素的概率分值。
其中,所述阀值是根据所述关键字库取得所述垃圾样本信息和非垃圾样本信息特征元素的概率值,按照所述方法计算该样本信息的概率值并与该阀值比较,若该样本信息为垃圾样本信息且特征元素的概率值大于所述阀值,则判断正确,否则判断错误;若该样本信息为非垃圾样本信息且特征元素的概率值小于所述阀值,则判断正确,否则判断错误;
根据所述垃圾样本信息和非垃圾样本信息的判断结果统计判断的正确率,若所述正确率小于预定值,则重新设置该阀值;
循环执行该步骤,直到所述正确率大于预定值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴公司,未经阿里巴巴公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610140726.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:夹持装置
- 下一篇:数据流入量控制装置以及数据流入量控制方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置