[发明专利]一种提取网页正文的方法有效
申请号: | 201410629258.8 | 申请日: | 2014-11-10 |
公开(公告)号: | CN104376061B | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 江潮;贺建华;蒋汉华 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康盛知识产权代理有限公司11331 | 代理人: | 张宇峰 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 网页 正文 方法 | ||
1.一种提取网页正文的方法,其特征在于,包括:
根据待提取的网页的域名,判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息;
若有,则根据所述提取信息对所述网页的正文进行提取;若所述站点知识库中没有对应于该域名的提取信息,或,根据该提取信息对所述网页的正文提取失败,则,
确定所述网页的正文节点,并通过提取所述正文节点中的文本获取所述网页的正文;
其中,所述确定所述网页的正文节点的操作,包括以下几个步骤:
对所述网页进行预处理;
建立正文候选池列表;
根据所述正文候选池列表推测正文区域;
根据所述正文区域,判断出所述正文节点;
其中,对所述网页进行预处理,包括:获取所述网页的DOM树,并根据已创建的标签类型库,识别并删除该网页中的移除类节点和非移除类节点中的移除类内容,获取预处理后的所述网页的DOM树;所述标签类型库包括用于判断网页中节点类型的策略和判断移除类内容的策略,所述节点类型包括容器类、文本类和移除类;
所述建立正文候选池列表,具体包括:
根据所述标签类型库和预设的阈值,判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效;
删除该DOM树中判断结果为无效的节点,并将该DOM树中判断结果为的有效的所述文本类节点以及该节点的父节点到所述正文候选池列表中;
其中,判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效的过程,具体包括:
人工将不同语言体系的网页调取过程中所用到的算法和阈值设置好,识别所述网页的字符集编码,判断出该网页的语言体系,调取预设的算法,计算出所述文本类节点的有效节点特征值;
根据所述有效节点特征值和所述预设的阈值,判断该文本类节点是否有效;其中,所述阈值对应于所述有效节点特征值。
2.如权利要求1所述的方法,其特征在于,所述提取信息包括对应于该域名下多个网页的正文结构信息,并且所述正文结构信息按照成功提取次数从高到低进行排序;根据所述提取信息对所述网页的正文进行提取,具体包括:
按照所述正文结构信息的排列顺序,依次调取相应的正文结构信息,并根据该正文结构信息对所述网页的正文进行提取,直到提取成功;
在所述提取成功后,还包括:记录该正文结构信息的成功提取次数,并根据当前的各所述正文结构信息的成功提取次数进行排序。
3.如权利要求2所述的方法,其特征在于,在通过提取所述正文节点中的文本获取所述网页的正文之后,还包括:
将所述确定所述网页的正文节点的过程中获取的正文结构信息添加到所述站点知识库中。
4.如权利要求1所述的方法,其特征在于,所述有效节点特征值包括:文本数、文本比例和超链接比例;
分别对根据上述有效节点特征值对所述文本类节点进行判断,在上述判断的过程中,若其中一项的判断结果为无效,则结束判断,并删除该节点;反之,则继续判断,直到所有有效节点特征值的判断结果均为有效后,将该节点以及该节点的父节点到所述正文候选池列表中;
其中,根据文本数进行判断的过程包括:若所述文本类节点的文本数小于对应于所述文本数的阈值,则判断结果为无效;反之,则判断结果为有效;
根据文本比例进行判断的过程包括:若所述文本类节点的文本比例小于对应于所述文本比例的阈值,则判断结果为无效;反之,则判断结果为有效;
根据超链接比例进行判断的过程包括:若所述文本类节点的超链接比例大于对应于所述超链接比例的阈值,则判断结果为无效;反之,则判断结果为有效。
5.如权利要求1所述的方法,其特征在于,根据所述正文候选池列表推测正文区域,具体包括:
首先,将所述正文候选池列表中存储的第一位的文本类节点的文本字节数保存于第一变量中,将该文本类节点的父节点保存于第二变量中;
其次,依次循环所述正文候选池列表中的其它文本类节点,若父节点一致,则将该文本类节点的文本字节数累加到所述第一变量中;若父节点不一致,则判断该文本类节点的文本字节数是否大于第一变量,若大于,则将第一变量在值替换为该节点的文本字节数,并将第二变量替换为该节点的父节点,反之,则跳过该节点,继续循环;
最后,当循环完所述正文候选池列表中的所有数据后,所述第二变量中所记录的父节点为所述推测的正文区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410629258.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库恢复方法及装置
- 下一篇:一种基于HBase的大表join方法