[发明专利]基于统计回溯定位的网页正文提取方法和装置无效

申请号：	201110326226.7	申请日：	2011-10-24
公开（公告）号：	CN102314520A	公开（公告）日：	2012-01-11
发明（设计）人：	樊庆冲	申请（专利权）人：	莫雅静
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	许静;赵爱军
地址：	100020 北京市朝阳区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于统计回溯定位的网页正文提取方法和装置。所述基于统计回溯定位的网页正文提取方法包括以下步骤：将网页解析为DOM树结构，按行分析网页，得到每一行的纯文本长度；对该DOM树中的所有行根据纯文本长度由高到低进行排序；从纯文本长度最长的行开始，依次取出该DOM树中的行，以该行中纯文本最长的文本节点为起点进行回溯，将与该文本节点具有相同特征值的所有文本节点放到一节点组中，并计算该节点组的文本集中度，取文本集中度最高的节点组作为目标节点组；将目标节点组中的纯文本率大于纯文本率阈值的目标节点定为正文候选节点；输出正文候选节点。本发明通用性强、可维护性好、适用面广，可自适应大多数网页的正文提取需求。
搜索关键词：	基于统计回溯定位网页正文提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于统计回溯定位的网页正文提取方法，其特征在于，包括以下步骤：解析步骤：将网页解析为DOM树结构，按行分析网页，得到每一行的纯文本长度；排序步骤：对该DOM树中的所有行根据纯文本长度由高到低进行排序；回溯步骤：从纯文本长度最长的行开始，依次取出该DOM树中的行，以该行中纯文本最长的文本节点为起点进行回溯，将与该文本节点具有相同特征值的所有文本节点放到一节点组中，并计算该节点组的文本集中度，取文本集中度最高的节点组作为目标节点组；回溯结果分析步骤：将目标节点组中的纯文本率大于纯文本率阈值的目标节点定为正文候选节点；输出步骤：输出正文候选节点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于莫雅静，未经莫雅静许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110326226.7/，转载请声明来源钻瓜专利网。

上一篇：一种复合电触头材料的制备方法
下一篇：一种高温高压pH电极的标定装置及标定方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于统计回溯定位的网页正文提取方法和装置无效

专利文献下载