[发明专利]一种从新闻列表页抽取新闻记录元数据的方法及系统有效

申请号：	201010530643.9	申请日：	2010-10-29
公开（公告）号：	CN102467501A	公开（公告）日：	2012-05-23
发明（设计）人：	赵继广;于晓明;杨建武;吴新丽	申请（专利权）人：	北大方正集团有限公司;北京大学;北京北大方正电子有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京天悦专利代理事务所(普通合伙) 11311	代理人：	田明;任晓航
地址：	100871 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种新闻列表抽取记录数据方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于网络信息抽取技术领域，具体涉及一种从新闻列表页抽取新闻记录元数据的方法及系统。

背景技术

目前通过新闻网站列表页获取新闻记录通常有两种办法：一种是人工配置列表页模板，用正则表达式匹配出新闻记录；一种是通过样例页面，自动抽取出模板，然后再利用模板去匹配出新闻记录。上述方法一，耗费大量人力，对用户知识要求高；上述方法二，必须离线学习出模板，然后再测试出模板优劣才能使用。上述两种方法因为都需要事先准备好模板才能抽取新闻记录，所以都容易经过一段时间后失去效用，抽取不出新闻记录，维护成本较高。

发明内容

针对现有技术中存在的缺陷，本发明要解决的技术问题是提供一种从新闻列表页抽取新闻记录元数据的方法及系统，使用户在不必考虑目标资讯网站的列表页布局的情况下就能抽取出新闻记录。

为解决上述技术问题，本发明采用的技术方案如下：

一种从新闻列表页抽取新闻记录元数据的方法，包括以下步骤：

(1)获取目标新闻列表页的网页源代码，按照所述网页源代码对应的HTML文本顺序生成HTML标签树；

(2)遍历所述HTML标签树，计算每个HTML标签子树的文本链接比得分，将文本链接比得分大于设定阈值的标签子树进行合并，获取一棵最大候选子树；

(3)从所述最大候选子树抽取新闻记录元数据列表。

一种从新闻列表页自动抽取新闻记录元数据的系统，包括：

生成装置，用于获取目标新闻列表页面的网页源代码，并按照所述网页源代码对应的HTML文本顺序生成HTML标签树；

获取装置，用于遍历HTML标签树，并计算每个HTML标签子树的文本链接比得分，将文本链接比得分大于设定阈值的标签子树进行合并，获取一棵最大候选子树；

抽取装置，用于从最大候选子树中抽取新闻记录元数据列表。

本发明所述的方法及系统，在新闻列表页面形成的HTML文本中，按序生成标签树，根据设定的文本链接比得分阈值，挑选出符合要求的标签子树，并对这些标签子树进行合并，得到一棵最大候选标签子树；再对最大候选标签子树进行剪枝，得到最精简的最大候选标签子树，然后对最大候选标签子树的链接进行杂质链接过滤，再对剩余的链接两两计算距离，形成一个两两链接互联的无向图，最后利用最小生成树kruskal算法，分割出目标新闻记录链接。采用本发明，用户只需输入新闻列表页，无需配置模板，即可得到新闻记录，完全实现了新闻资讯网站列表页新闻记录抽取的自动化、无人化。而且用户无需关心新闻网站将来是否改版，极大地降低了维护和使用的成本。

附图说明

图1是具体实施方式中新闻列表页的布局示意图；

图2是具体实施方式中从新闻列表页抽取新闻记录的系统结构图；

图3是具体实施方式中从新闻列表页抽取新闻记录的方法流程图；

图4是具体实施方式中HTML标签树示意图；

图5是具体实施方式中最大候选子树获取过程流程图；

图6是具体实施方式中从最大候选子树抽取新闻记录的方法流程图。

具体实施方式

下面结合具体实施方式和附图对本发明进行详细描述。

图2示出了本实施方式中从新闻列表页抽取新闻记录的系统结构。如图2所示，该系统包括生成装置21，与生成装置21连接的获取装置22，以及与获取装置22连接的抽取装置23。

生成装置21用于获取目标新闻列表页面的网页源代码，并按照所述网页源代码对应的HTML文本顺序生成HTML标签树。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。