[发明专利]一种从新闻列表页抽取新闻记录元数据的方法及系统有效
申请号: | 201010530643.9 | 申请日: | 2010-10-29 |
公开(公告)号: | CN102467501A | 公开(公告)日: | 2012-05-23 |
发明(设计)人: | 赵继广;于晓明;杨建武;吴新丽 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 列表 抽取 记录 数据 方法 系统 | ||
技术领域
本发明属于网络信息抽取技术领域,具体涉及一种从新闻列表页抽取新闻记录元数据的方法及系统。
背景技术
为了实现网页的导航,显示用户阅读的相关信息,以及帮助用户实现快速跳转到其他页面,网页中一般要设计列表信息,称为列表页面,列表页面布局通常包括横幅模块、广告模块、列表模块、噪音栏目模块、版权声明模块。新闻网站的列表页面,简称新闻列表页对用户快速获取新闻记录和网络抓取程序快速抓取新闻记录具有重要意义。新闻记录元数据(以下简称新闻记录),特指列表页中新闻记录链接文本和新闻记录链接URL。
目前通过新闻网站列表页获取新闻记录通常有两种办法:一种是人工配置列表页模板,用正则表达式匹配出新闻记录;一种是通过样例页面,自动抽取出模板,然后再利用模板去匹配出新闻记录。上述方法一,耗费大量人力,对用户知识要求高;上述方法二,必须离线学习出模板,然后再测试出模板优劣才能使用。上述两种方法因为都需要事先准备好模板才能抽取新闻记录,所以都容易经过一段时间后失去效用,抽取不出新闻记录,维护成本较高。
发明内容
针对现有技术中存在的缺陷,本发明要解决的技术问题是提供一种从新闻列表页抽取新闻记录元数据的方法及系统,使用户在不必考虑目标资讯网站的列表页布局的情况下就能抽取出新闻记录。
为解决上述技术问题,本发明采用的技术方案如下:
一种从新闻列表页抽取新闻记录元数据的方法,包括以下步骤:
(1)获取目标新闻列表页的网页源代码,按照所述网页源代码对应的HTML文本顺序生成HTML标签树;
(2)遍历所述HTML标签树,计算每个HTML标签子树的文本链接比得分,将文本链接比得分大于设定阈值的标签子树进行合并,获取一棵最大候选子树;
(3)从所述最大候选子树抽取新闻记录元数据列表。
一种从新闻列表页自动抽取新闻记录元数据的系统,包括:
生成装置,用于获取目标新闻列表页面的网页源代码,并按照所述网页源代码对应的HTML文本顺序生成HTML标签树;
获取装置,用于遍历HTML标签树,并计算每个HTML标签子树的文本链接比得分,将文本链接比得分大于设定阈值的标签子树进行合并,获取一棵最大候选子树;
抽取装置,用于从最大候选子树中抽取新闻记录元数据列表。
本发明所述的方法及系统,在新闻列表页面形成的HTML文本中,按序生成标签树,根据设定的文本链接比得分阈值,挑选出符合要求的标签子树,并对这些标签子树进行合并,得到一棵最大候选标签子树;再对最大候选标签子树进行剪枝,得到最精简的最大候选标签子树,然后对最大候选标签子树的链接进行杂质链接过滤,再对剩余的链接两两计算距离,形成一个两两链接互联的无向图,最后利用最小生成树kruskal算法,分割出目标新闻记录链接。采用本发明,用户只需输入新闻列表页,无需配置模板,即可得到新闻记录,完全实现了新闻资讯网站列表页新闻记录抽取的自动化、无人化。而且用户无需关心新闻网站将来是否改版,极大地降低了维护和使用的成本。
附图说明
图1是具体实施方式中新闻列表页的布局示意图;
图2是具体实施方式中从新闻列表页抽取新闻记录的系统结构图;
图3是具体实施方式中从新闻列表页抽取新闻记录的方法流程图;
图4是具体实施方式中HTML标签树示意图;
图5是具体实施方式中最大候选子树获取过程流程图;
图6是具体实施方式中从最大候选子树抽取新闻记录的方法流程图。
具体实施方式
下面结合具体实施方式和附图对本发明进行详细描述。
新闻列表页的布局通常如图1所示,包括横幅模块、广告模块、新闻记录列表模块、噪音栏目模块、版权声明模块等。本发明的目的便是从新闻列表页中识别出新闻记录列表模块,并将该模块中的新闻记录抽取出来。新闻记录列表具有以下三个特点:①新闻记录的链接对应的文本较长;②目标核心链接较为集中;③在一个或几个DOM节点上目标链接的URL一般是相似的。本发明便是根据新闻记录列表的上述特点而实现的解决方案。
图2示出了本实施方式中从新闻列表页抽取新闻记录的系统结构。如图2所示,该系统包括生成装置21,与生成装置21连接的获取装置22,以及与获取装置22连接的抽取装置23。
生成装置21用于获取目标新闻列表页面的网页源代码,并按照所述网页源代码对应的HTML文本顺序生成HTML标签树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010530643.9/2.html,转载请声明来源钻瓜专利网。