[发明专利]一种可个性化定制的网页过滤方法有效
申请号: | 200710304224.1 | 申请日: | 2007-12-26 |
公开(公告)号: | CN101470731A | 公开(公告)日: | 2009-07-01 |
发明(设计)人: | 胡卫明;朱明亮;李玺;吴偶 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 梁爱荣 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 个性化 定制 网页 过滤 方法 | ||
技术领域
本发明涉及计算机网络技术领域,特别涉及网页过滤技术。
背景技术
随着互联网(the Internet)的飞速发展,它已经逐渐成为人们生活 中一个重要的部分,人们对于互联网的依赖也越来越强,同时对于网页 过滤的需求也越来越大。一方面,由于互联网的开放性,一些不良信息 也在互联网上传播,如色情、毒品、暴力等。这些不良信息对于人们特 别是青少年的身心健康有着很大的影响,危害社会的稳定。另一方面, 由于信息爆炸和互联网的飞速发展,网络上的信息量正以几何方式增 加,但对于特定的互联网使用者来说,绝大部分信息都是无用的甚至是 垃圾信息。因此如何在这么多信息中保留自己感兴趣的而把无关的信息 过滤掉,逐渐成为一项迫切的需求。近年来,由于其广泛的需求和巨大 的实用市场,网页过滤技术已经成为一项研究热点。
网页过滤可以看成是一个二元分类问题,它的基本需求在于1).针 对用户的个性化需求提供不同的过滤服务,2).准确把握网页的语义实 施过滤。目前的大多数技术针对色情网页的检测与过滤
早期的原始网页过滤技术有以下几种:互联网内容选择平台 (Platform for Internet Content Selection,PICS),该方法允许网 页发布者主动在网页内容中嵌入对网页内容描述的标签,从而在客户端 浏览时按要求过滤特定内容的页面。PICS完全依赖于网页发布者的自觉 性,实际应用很少。URL拦截方法检查用户浏览的每个网页的URL,如 果它属于一个预定义的URL黑名单,则过滤该网页。URL拦截在初期小 规模的互联网上有着较好的效果,但它对URL黑名单的更新和维护需求 已不可能适应目前互联网的规模和发展速度。之后人们开始使用简单关 键字计数的方法来检测网页,当网页中包含的“关键字”数量超过某一 阈值时,则认为它需要被过滤。简单关键字计数方法在一定程度上实现 了网页的语义判断,但仅基于关键字数量无法准确分析,以色情网页过 滤为例,如果目标网页的内容是反对网络色情或性教育,其关键字出现 次数很可能超过阈值而被误过滤掉。
针对原始技术的不足之处,现在过滤技术的重点在于对网页的内容 分析。有学者提出了基于人工神经网络的网页过滤方法。此方构造两类 人工神经网络之一:KSOM或Fuzzy ART,并把提取的网页特征(包括55 个网页关键字计数和一些全页面统计量)输入到神经网络中,根据输出 结果判断网页性质。针对传统关键字列表容易误过滤的事实,有方法认 为关键字之间不是孤立的,而是将关键字分为显式、隐式和逻辑三类, 有害网页的性质可以从这三类关键字互相影响共同作用体现出来。此方 法使用类细胞神经网络(CNN-Like)来描述关键字之间的相互关系,并 以此过滤有害网页。以上这类方法在色情网页过滤方面取得了较好的效 果,但它们的应用仍受到关键字列表的限制。首先,构建关键字列表需 要对需过滤的领域有很多的先验知识,不容易应用到别的领域;其次, 色情网页中存在着区分性很强的关键字,而某些领域并不能保证存在这 些符合要求的关键字,因此无法使用这类技术。因此,基于关键字的过 滤方法普遍无法满足个性化过滤的需求。
另一种基于文本分类的方法可以实现多种类的网页过滤。对于一个 需要分类的网页,计算它和训练网页库中所有网页之间的余弦相似度, 将所有相似度值中的前n%计算平均值,如果该数值大于预定义的阈值则 过滤它。这种方法假设训练网页库中的网页可以准确描述用户兴趣类 (需要过滤的网页类)的分布特征,但实际此训练库是难于构造的。由 于训练库的要求规模很大,在过滤每一个网页时需要计算目标网页和库 中所有网页的相似度,其时间复杂度可能无法满足实时过滤的需求。此 外,此方法中的过滤阈值是领域相关的,因此在实现个性化时需要根据 具体过滤测试结果仔细调整该阈值,这是对该方法实际应用的另一限 制。
虽然经过了大量的研究,网页过滤技术仍不能满足实际的需求。其 中重要的难点,一是如何在个性化定制的情况下实现准确的网页识别, 二是如何解决训练网页库的构建,三是如何满足实时过滤的分类时间要 求。
发明内容
为了避免传统方法难于个性化定制、分类时间不能满足实时性要求 等缺点,本发明目的在于提供一种快速、鲁棒、可个性化定制的网页过 滤方法。
为实现上述目的,本发明提供的可个性化定制的网页过滤方法,包 括步骤如下:
(1).用户通过提供网页实例表达个性化过滤需求;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710304224.1/2.html,转载请声明来源钻瓜专利网。