[发明专利]一种提取网页正文的方法有效
申请号: | 201410629258.8 | 申请日: | 2014-11-10 |
公开(公告)号: | CN104376061B | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 江潮;贺建华;蒋汉华 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康盛知识产权代理有限公司11331 | 代理人: | 张宇峰 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种提取网页正文的方法,包括根据待提取的网页的域名,判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息;若有,则根据所述提取信息对所述网页的正文进行提取;若所述站点知识库中没有对应于该域名的提取信息,或,根据该提取信息对所述网页的正文提取失败,则确定所述网页的正文节点,并通过提取所述正文节点中的文本获取所述网页的正文。彻底解放人工处理,减少了人工操作和干预成本;提高了程序提取网页正文的效率;实现了针对多种语言类的网站的自动提取,并且提取难度也会大大降低。 | ||
搜索关键词: | 一种 提取 网页 正文 方法 | ||
【主权项】:
一种提取网页正文的方法,其特征在于,包括:根据待提取的网页的域名,判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息;若有,则根据所述提取信息对所述网页的正文进行提取;若所述站点知识库中没有对应于该域名的提取信息,或,根据该提取信息对所述网页的正文提取失败,则,确定所述网页的正文节点,并通过提取所述正文节点中的文本获取所述网页的正文;其中,所述确定所述网页的正文节点的操作,包括以下几个步骤:对所述网页进行预处理;建立正文候选池列表;根据所述正文候选池列表推测正文区域;根据所述正文区域,判断出所述正文节点;其中,对所述网页进行预处理,包括:获取所述网页的DOM树,并根据已创建的标签类型库,识别并删除该网页中的移除类节点和非移除类节点中的移除类内容,获取预处理后的所述网页的DOM树;所述标签类型库包括用于判断网页中节点类型的策略和判断移除类内容的策略,所述节点类型包括容器类、文本类和移除类;所述建立正文候选池列表,具体包括:根据所述标签类型库和预设的阈值,判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效;删除该DOM树中判断结果为无效的节点,并将该DOM树中判断结果为的有效的所述文本类节点以及该节点的父节点到所述正文候选池列表中;其中,判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效的过程,具体包括:人工将不同语言体系的网页调取过程中所用到的算法和阈值设置好,识别所述网页的字符集编码,判断出该网页的语言体系,调取预设的算法,计算出所述文本类节点的有效节点特征值;根据所述有效节点特征值和所述预设的阈值,判断该文本类节点是否有效;其中,所述阈值对应于所述有效节点特征值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410629258.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库恢复方法及装置
- 下一篇:一种基于HBase的大表join方法