[发明专利]基于统计回溯定位的网页正文提取方法和装置无效
申请号: | 201110326226.7 | 申请日: | 2011-10-24 |
公开(公告)号: | CN102314520A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 樊庆冲 | 申请(专利权)人: | 莫雅静 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;赵爱军 |
地址: | 100020 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 回溯 定位 网页 正文 提取 方法 装置 | ||
技术领域
本发明涉及一种正文提取实现方法和装置,尤其涉及一种基于统计回溯定位的网页正文提取方法和装置。
背景技术
随着Internet的不断发展,互联网内的数据成指数型增长,已经成为巨大的、分布广泛的信息源。这里面不乏我们需要的信息,但许多信息包含在浩如烟海的Web网页中,如何帮助人们迅速提取有效信息变成了当前最重要的问题。
在这种背景下,网页正文的自动化提取也越来越多受到相关研究人员研究与关注,现在主要的研究成果有基于模板的网页正文提取方法,基于视觉特征的网页正文提取方法(VIPS),基于统计的网页正文提取方法等。下面简单介绍这三种常用网页正文的自动化提取方法,并对每种方法的特点进行分析。
1、基于模板的网页正文提取方法:这种方法使用包装器(Wrapper)来抽取网页中的有效信息。包装器是一个程序,该程序基于页面的布局特征,针对特定的一类网页,编写解析器,解析出正文在页面中的位置。这种方法的优点是实现简单,文本抽取准确率极高。缺点是通用性差,每一类网页都要编写特定的包装器,不适合大规模页面的抽取,另外如果某一类页面发生了变化,那么该类页面的包装器就会失效,必须重新修改。
2、基于视觉特征的网页正文提取方法:微软亚洲研究中心的研究员DengCai等提出了一种基于视觉的语义块提取的方法,主要思路是依据DOM树结构将整个页面逐层迭代分解成语义块,通过他们提出的VIPS算法给每个语义块赋DOC(Degree of Coherence)值,该值越大说明该语义块内部内容之间的紧密程度越大。然后检测语义块之间的分隔条,并对其设置权重,再从权重最小的分隔条开始合并分隔条两侧的页面块,这个过程迭代进行,直至构建出页面的整个内容。
这个方法的优点是通用性强,从人对于网页语义块视觉感知的角度进行分析,是目前最接近人类认知的方法。其准确性由于目前为止还没有成熟的应用,所以还无法检验。它的缺点是实现过程过于复杂,由于网页视觉特点的复杂性,导致VIPS具有算法规则过于复杂和性能低等缺陷,仅仅是DOC值的赋值过程就要遵循12条规则,在实际应用中可能还会增加更多的规则,因此,基于视觉特征的网页正文提取方法目前还停留在理论层面上,有待实践的检验。
3、基于统计的网页正文提取方法:该方法对网页特征从不同角度进行统计分析,采用统计学原理进行正文特征分析并抽取正文。
这种方法的优点是通用性强、可维护性好。缺点是文本抽取的准确率有限,实际应用的系统往往会借鉴基于模板方法的经验,能够在一定程度上提高文本抽取的准确率。
发明内容
本发明的主要目的在于提供一种基于统计回溯定位的网页正文提取方法和装置,以自适应大多数网页的正文提取需求。
为了达到上述目的,本发明提供了一种基于统计回溯定位的网页正文提取方法,包括以下步骤:
解析步骤:将网页解析为DOM树结构,按行分析网页,得到每一行的纯文本长度;
排序步骤:对该DOM树中的所有行根据纯文本长度由高到低进行排序;
回溯步骤:从纯文本长度最长的行开始,依次取出该DOM树中的行,以该行中纯文本最长的文本节点为起点进行回溯,将与该文本节点具有相同特征值的所有文本节点放到一节点组中,并计算该节点组的文本集中度,取文本集中度最高的节点组作为目标节点组;
回溯结果分析步骤:将目标节点组中的纯文本率大于纯文本率阈值的目标节点定为正文候选节点;
输出步骤:输出正文候选节点。
实施时,在回溯步骤中,所述特征值包括标签名和属性。
实施时,所述回溯步骤还包括:当所述特征值包括ID属性时,将所述ID属性的属性值中的数字去除。
实施时,本发明所述的基于统计回溯定位的网页正文提取方法在解析步骤和排序步骤之间还包含整理步骤;
所述整理步骤包括:将网页中纯文本长度为零的行删除,所述纯文本长度为零的行为仅有换行符的行。
实施时,在回溯步骤中,以该行中纯文本最长的文本节点为起点进行回溯步骤包括:
如果该行有多个文本节点,且该多个文本节点的纯文本长度不同,则以该行中纯文本最长的文本节点为起点进行回溯;
如果该行有多个文本节点,且该多个文本节点的纯文本长度相同,则任选该多个文本节点中的一个文本节点为起点进行回溯;
如果该行仅有一个文本节点,则以该文本节点为起点进行回溯。
实施时,本发明所述的基于统计回溯定位的网页正文提取方法在回溯结果分析步骤和输出步骤之间还包括判断步骤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于莫雅静,未经莫雅静许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110326226.7/2.html,转载请声明来源钻瓜专利网。