[发明专利]一种可个性化定制的网页过滤方法有效

专利信息
申请号: 200710304224.1 申请日: 2007-12-26
公开(公告)号: CN101470731A 公开(公告)日: 2009-07-01
发明(设计)人: 胡卫明;朱明亮;李玺;吴偶 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中科专利商标代理有限责任公司 代理人: 梁爱荣
地址: 100080北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 个性化 定制 网页 过滤 方法
【说明书】:

技术领域

发明涉及计算机网络技术领域,特别涉及网页过滤技术。

背景技术

随着互联网(the Internet)的飞速发展,它已经逐渐成为人们生活 中一个重要的部分,人们对于互联网的依赖也越来越强,同时对于网页 过滤的需求也越来越大。一方面,由于互联网的开放性,一些不良信息 也在互联网上传播,如色情、毒品、暴力等。这些不良信息对于人们特 别是青少年的身心健康有着很大的影响,危害社会的稳定。另一方面, 由于信息爆炸和互联网的飞速发展,网络上的信息量正以几何方式增 加,但对于特定的互联网使用者来说,绝大部分信息都是无用的甚至是 垃圾信息。因此如何在这么多信息中保留自己感兴趣的而把无关的信息 过滤掉,逐渐成为一项迫切的需求。近年来,由于其广泛的需求和巨大 的实用市场,网页过滤技术已经成为一项研究热点。

网页过滤可以看成是一个二元分类问题,它的基本需求在于1).针 对用户的个性化需求提供不同的过滤服务,2).准确把握网页的语义实 施过滤。目前的大多数技术针对色情网页的检测与过滤

早期的原始网页过滤技术有以下几种:互联网内容选择平台 (Platform for Internet Content Selection,PICS),该方法允许网 页发布者主动在网页内容中嵌入对网页内容描述的标签,从而在客户端 浏览时按要求过滤特定内容的页面。PICS完全依赖于网页发布者的自觉 性,实际应用很少。URL拦截方法检查用户浏览的每个网页的URL,如 果它属于一个预定义的URL黑名单,则过滤该网页。URL拦截在初期小 规模的互联网上有着较好的效果,但它对URL黑名单的更新和维护需求 已不可能适应目前互联网的规模和发展速度。之后人们开始使用简单关 键字计数的方法来检测网页,当网页中包含的“关键字”数量超过某一 阈值时,则认为它需要被过滤。简单关键字计数方法在一定程度上实现 了网页的语义判断,但仅基于关键字数量无法准确分析,以色情网页过 滤为例,如果目标网页的内容是反对网络色情或性教育,其关键字出现 次数很可能超过阈值而被误过滤掉。

针对原始技术的不足之处,现在过滤技术的重点在于对网页的内容 分析。有学者提出了基于人工神经网络的网页过滤方法。此方构造两类 人工神经网络之一:KSOM或Fuzzy ART,并把提取的网页特征(包括55 个网页关键字计数和一些全页面统计量)输入到神经网络中,根据输出 结果判断网页性质。针对传统关键字列表容易误过滤的事实,有方法认 为关键字之间不是孤立的,而是将关键字分为显式、隐式和逻辑三类, 有害网页的性质可以从这三类关键字互相影响共同作用体现出来。此方 法使用类细胞神经网络(CNN-Like)来描述关键字之间的相互关系,并 以此过滤有害网页。以上这类方法在色情网页过滤方面取得了较好的效 果,但它们的应用仍受到关键字列表的限制。首先,构建关键字列表需 要对需过滤的领域有很多的先验知识,不容易应用到别的领域;其次, 色情网页中存在着区分性很强的关键字,而某些领域并不能保证存在这 些符合要求的关键字,因此无法使用这类技术。因此,基于关键字的过 滤方法普遍无法满足个性化过滤的需求。

另一种基于文本分类的方法可以实现多种类的网页过滤。对于一个 需要分类的网页,计算它和训练网页库中所有网页之间的余弦相似度, 将所有相似度值中的前n%计算平均值,如果该数值大于预定义的阈值则 过滤它。这种方法假设训练网页库中的网页可以准确描述用户兴趣类 (需要过滤的网页类)的分布特征,但实际此训练库是难于构造的。由 于训练库的要求规模很大,在过滤每一个网页时需要计算目标网页和库 中所有网页的相似度,其时间复杂度可能无法满足实时过滤的需求。此 外,此方法中的过滤阈值是领域相关的,因此在实现个性化时需要根据 具体过滤测试结果仔细调整该阈值,这是对该方法实际应用的另一限 制。

虽然经过了大量的研究,网页过滤技术仍不能满足实际的需求。其 中重要的难点,一是如何在个性化定制的情况下实现准确的网页识别, 二是如何解决训练网页库的构建,三是如何满足实时过滤的分类时间要 求。

发明内容

为了避免传统方法难于个性化定制、分类时间不能满足实时性要求 等缺点,本发明目的在于提供一种快速、鲁棒、可个性化定制的网页过 滤方法。

为实现上述目的,本发明提供的可个性化定制的网页过滤方法,包 括步骤如下:

(1).用户通过提供网页实例表达个性化过滤需求;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710304224.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top