[发明专利]一种从单记录网页中抽取规律噪音的方法有效
申请号: | 201210592795.0 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103064966A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 程学旗;李海燕;郭岩;万圣贤;郭少华;刘悦;余智华 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。 | ||
搜索关键词: | 一种 记录 网页 抽取 规律 噪音 方法 | ||
【主权项】:
一种从单记录网页中抽取规律噪音的方法,所述方法包括:步骤1)、将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;步骤2)、将同一类别的DOM树进行对齐合并得到站点板块风格树;步骤3)、根据网页正文标题节点和网页正文主体节点在所述站点板块风格树中的近似位置,抽取正文前、正文中和正文后的规律噪音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210592795.0/,转载请声明来源钻瓜专利网。
- 上一篇:短序列组装中序列片段的过滤方法及系统
- 下一篇:图像检索方法和装置