[发明专利]一种从单记录网页中抽取规律噪音的方法有效
申请号: | 201210592795.0 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103064966A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 程学旗;李海燕;郭岩;万圣贤;郭少华;刘悦;余智华 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 记录 网页 抽取 规律 噪音 方法 | ||
技术领域
本发明涉及网络信息检索领域,以及更具体地,涉及用于从单记录网页(即用一条数据记录单一风格的网页,该数据记录是指网页的主体部分的区域)中分别抽取出正文前、正文中和正文后规律噪音的方法。
背景技术
在信息化时代,获得信息的途径越来越多。互联网作为信息的载体,在传播效率和信息容量方面都有无可替代的地位。目前,互联网已经成为人们获取各种知识、信息的重要来源。然而,随着Web技术的飞速发展,互联网上的海量数据信息每天以级数增长,而且信息的内容包罗万象,形式五花八门。网页噪音在网页的内容中也占据了一定的比例。对于研究人员和应用人员来讲,在网页数据的处理中有些噪音内容不是必需的,甚至有些噪音内容会严重影响部分研究和应用的效果,而且随着噪音的形式也变得多种多样,用户想要从互联网上获得所需要的信息也变得越来越困难。因此,去掉网页上的噪音已经成为进一步处理网页数据的重要的预处理步骤。如何更好地消除网页噪音,寻找有意义的信息,使得网页去噪技术成为网络信息检索特有的一个研究领域。而且随着许多研究如信息检索、文本分类、搜索引擎等技术应用到Web上,去除网页上的噪音也变得尤其重要。
网页上的噪音内容根据噪音内容的粒度大小,可以分为全局噪音和局部噪音。全局噪音指网页上粒度较大的噪音,通常是内容重复的网页(如镜像网站、复制文章);局部噪音是指网页中与应用目的或者主题不相关的内容,一般是跟网页本身的模板相关,例如网页的广告、导航条、网站声明、相关文章的超链接、版权信息、噪音链接等等。在网络信息检索领域里的预处理环节需要把导航栏和相关链接等部分识别去除,以便提高检索的质量;网页信息挖掘中也需要事先将噪音去掉以提高挖掘的质量。本发明针对局部噪音提供抽取该局部噪音的方法,下文中没有具体限定的噪音,一般均指局部噪音。
近几年来,对于去除局部噪音研究学者作了大量的工作。去噪效果比较好的方法是在去噪过程中对于不同的网页采用不同模型的多模型去噪。由于多数网站为了方便维护等原因,通过事先定义好的模板自动生成网页,使得网页中除了主题(如正文)内容外,其余部分基本都相同。一般来讲,不同网站的版块采用不同的模板,如图1A和1B示出了两种网页模板。多模型去噪主要是针对不同网站的版块进行模板检测,由于网页的导航条、广告、网站声明、版权说明等一般都在网站的模板中,因此去掉了模板,相当于去掉了一部分的局部噪音。其一般处理方法是是先检测出整个网站的内容或结构的模板,然后当这个网站的一个网页需要处理时,就删除这个网页的模板内容,剩下的就是去噪之后的内容。
比较著名的多模型去噪方法如SST(Site Style Tree)。SST是将网页的HTML DOM(Document Object Model)树(HTML DOM树是把HTML文档呈现为带有元素、属性和文本的树结构)合并,之后进行噪音的判断。噪音的判断是基于两个假设:
(1)一个节点的展示风格越多,它的重要性越高;
(2)一个节点的内容分支越多,它的重要性越高。
最终一个元素节点重要性由风格重要性和内容重要性两部分组成,值越小说明该节点越有可能是噪音。SST树的执行大致过程如下:
(1)首先对同一网站的N棵DOM树进行对齐合并,合并时记录每个节点结构和内容不同的分支子树,SST就为不同的分支形成不同风格的子节点,且为每个节点设置一个计数器,用来表明这N棵DOM树有同样的风格和内容的这种节点的网页数目。例如,将图2A所示的Tree1(某一网页的DOM树)和图2B所示的Tree2进行SST合并得到结果图2C,图2C中的数字代表该节点出现的次数。
(2)计算每个节点的风格重要性和内容重要性权重,根据权重的大小来判断该节点是否是噪音节点。
SST去噪方法具有较高的准确性,但是也存在一些缺陷:
(1)随着网页技术的发展,即使是同一网站,不同版块的DOM树结构差异性也越来越大,SST树会造成建树过程中分支节点过多,在结构不同的DOM树数量分布不均的情况下会使得SST树中某个噪音分支出现的频率过小,造成该类DOM结构的网页只能抽取出一部分噪音的现象;
(2)即使是根据DOM结构对网页进行了分类,将算法应用在结构相似的DOM树中,如果某一层节点(例如有10个节点)只有一个节点不同,SST方法就要为不同的分支建立不同的子节点,会造成空间的大量浪费,建树的效率也大大降低;
(3)SST方法在为不同的分支形成不同风格的子节点时,容易造成分支粒度过大,使得产生部分小噪音漏抽取的情况;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210592795.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:短序列组装中序列片段的过滤方法及系统
- 下一篇:图像检索方法和装置