[发明专利]基于统计回溯定位的网页正文提取方法和装置无效
申请号: | 201110326226.7 | 申请日: | 2011-10-24 |
公开(公告)号: | CN102314520A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 樊庆冲 | 申请(专利权)人: | 莫雅静 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;赵爱军 |
地址: | 100020 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于统计回溯定位的网页正文提取方法和装置。所述基于统计回溯定位的网页正文提取方法包括以下步骤:将网页解析为DOM树结构,按行分析网页,得到每一行的纯文本长度;对该DOM树中的所有行根据纯文本长度由高到低进行排序;从纯文本长度最长的行开始,依次取出该DOM树中的行,以该行中纯文本最长的文本节点为起点进行回溯,将与该文本节点具有相同特征值的所有文本节点放到一节点组中,并计算该节点组的文本集中度,取文本集中度最高的节点组作为目标节点组;将目标节点组中的纯文本率大于纯文本率阈值的目标节点定为正文候选节点;输出正文候选节点。本发明通用性强、可维护性好、适用面广,可自适应大多数网页的正文提取需求。 | ||
搜索关键词: | 基于 统计 回溯 定位 网页 正文 提取 方法 装置 | ||
【主权项】:
一种基于统计回溯定位的网页正文提取方法,其特征在于,包括以下步骤:解析步骤:将网页解析为DOM树结构,按行分析网页,得到每一行的纯文本长度;排序步骤:对该DOM树中的所有行根据纯文本长度由高到低进行排序;回溯步骤:从纯文本长度最长的行开始,依次取出该DOM树中的行,以该行中纯文本最长的文本节点为起点进行回溯,将与该文本节点具有相同特征值的所有文本节点放到一节点组中,并计算该节点组的文本集中度,取文本集中度最高的节点组作为目标节点组;回溯结果分析步骤:将目标节点组中的纯文本率大于纯文本率阈值的目标节点定为正文候选节点;输出步骤:输出正文候选节点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于莫雅静,未经莫雅静许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110326226.7/,转载请声明来源钻瓜专利网。