[发明专利]一种网页的正文抽取方法有效
申请号: | 200810223791.9 | 申请日: | 2008-10-13 |
公开(公告)号: | CN101727461A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 郭岩;丁国栋;张刚 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 正文 抽取 方法 | ||
1.一种网页的正文抽取方法,包括下列步骤:
1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操 作;
2)从承载最长段落的节点集合中任选一个节点n1,从所选节点n1回 溯至所述DOM树的根节点nm,计算所述所选节点的父节点n2及其子树与 所述所选节点n1及其子树承载的文本的标点符号的数量的差值d2,依此类 推,直到计算所述根节点及其子树与所述根节点的子节点及其子树承载的 文本的标点符号的数量的增量dm,顺序构成增量序列;
3)在所述增量序列中查找第一个0值的增量dp,或第一个小于其前 面相邻增量且小于或等于其后面相邻增量的增量dq;
4)如果查找到所述增量dp或所述增量dq,则确定所述增量dp的对应 节点np-1及其子树或所述增量dq的对应节点nq-1及其各自的子树所承载 的文本是网页的正文;
5)如果未查找到所述增量dp或所述增量dq,则确定所述根节点nm及其子树所承载的文本是网页的正文。
2.根据权利要求1所述的方法,其特征在于,所述步骤1)包括:
11)对于每个特征节点,由所述特征节点及其子树承载的文本作为当 前段落;
12)顺次判断所述特征节点前面的兄弟节点,如果所述前面的兄弟节 点是特征节点,将所述前面的兄弟节点及其子树承载的文本合并到当前段 落,直到所述前面的兄弟节点不是特征节点;顺次判断所述特征节点后面 的兄弟节点,如果所述后面的兄弟节点是特征节点,将所述后面的兄弟节 点及其子树承载的文本合并到当前段落,直到所述后面的兄弟节点不是特 征节点;
13)统计所述合并后的段落的长度。
3.根据权利要求2所述的方法,其特征在于,所述步骤13)包括:
131)判断所述合并后的段落是否包含指定关键词;
133)对于不包含所述指定关键词的所述合并后的段落,统计所述合 并后的段落的长度。
4.根据权利要求2所述的方法,其特征在于,所述步骤13)包括:
132)判断所述合并后的段落的标点符号数量是否为0;
134)对于标点符号数量不为0的所述合并后的段落,统计所述合并 后的段落的长度。
5.根据权利要求2所述的方法,其特征在于,所述步骤13)包括:
131)判断所述合并后的段落是否包含指定关键词;
132)判断所述合并后的段落的标点符号数量是否为0;
135)对于不包含所述指定关键词且标点符号数量不为0的所述合并 后的段落,统计所述合并后的段落的长度。
6.根据权利要求1所述的方法,其特征在于,所述DOM树的节点具 有用于标识所述节点是否进行了所述合并段落操作的属性。
7.根据权利要求1所述的方法,其特征在于,所述特征节点是用于承 载文本的节点。
8.根据权利要求1至7任一所述的方法,其特征在于,所述标点符号 包括:逗号和句号。
9.根据权利要求8所述的方法,其特征在于,所述标点符号是全角格 式或半角格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810223791.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种坐席班务安排的方法和装置
- 下一篇:一种火花塞