[发明专利]一种多记录网页的信息抽取系统及方法有效

专利信息
申请号: 201410034376.4 申请日: 2014-01-24
公开(公告)号: CN103761312B 公开(公告)日: 2017-02-08
发明(设计)人: 陈国龙;廖祥文;陈巧灵;杨定达;魏晶晶 申请(专利权)人: 福州大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 福州元创专利商标代理有限公司35100 代理人: 蔡学俊
地址: 350108 福建省福州市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 记录 网页 信息 抽取 系统 方法
【说明书】:

技术领域

发明涉及信息抽取技术领域,更具体地,涉及一种在多记录网页中所采用的信息抽取系统和抽取方法,能应用于传统多记录网页(如搜索引擎结果页面等)和新式多记录网页(如微博记录网页、论坛帖子网页、产品评论网页等),适用于多种不同媒介和不同领域。

背景技术

在现有技术中,有很多技术方法可用于多记录网页抽取。传统的信息抽取方法采用编写规则的方法,该方法能够准确快速地从特定的数据源中抽取出记录信息。但是当数据源规模增长成百上千个时,再依靠人工编写规则,会耗费大量的时间和精力,无法满足现在信息极速膨胀的处理需求。另一方面,各个数据源的网页模板不是一成不变的,一旦页面模板更新,就需要人工重新修改规则,造成巨大的维护成本。还有一些通过人工标注训练集来生成规则的方法,因为需要人为参与同样不适合抽取海量多变的多记录网页。

在现有技术中,存在着一些针对传统多记录网页的自动抽取技术方法。传统多记录网页是由服务器的cgi程序从数据库检索出记录,然后以制定好的模板动态生成。由于有固定的模板,所以每条记录的结构相似度极高,十分规整。自动抽取方法能够根据一个或一类网页的特征自动抽取网页中相似的数据记录。在这些技术中,典型地使用记录结构相似度(Structure Similarity),并根据计算的相似度值确定记录区域。

在现有技术中,还存在着一些针对新式多记录网页的自动抽取技术方法。新式多记录网页主体内容由网民自我创作,有很高的灵活性,记录外部结构相似,从网页看是一条一条记录,但记录内部结构差异性大,以微博记录为例,有些微博是原创微博,只有原创内容,而有些微博是转发微博,除原创内容外,还内嵌一条被转发的记录。自动抽取方法能够根据一个或一类网页的特征自动抽取网页中相似的数据记录。在这些技术中,典型地使用领域知识,利用每条记录中均出现且易于识别的元素来确定记录区域。

然而,新式多记录网页有其自身的特点,与传统多记录网页有所不同。针对传统多记录网页的抽取方法在计算新式网页结构相似度时得到的值普遍偏低,使得其不能正确识别记录区域;另外,现有针对新式多记录网页的抽取方法往往只关注某一媒介,拓展性不足。

现有的多记录网页抽取方法没有充分考虑新式多记录网页的结构特点,而且只能适用于某个媒介。随着近年来微博、论坛等社交媒介消息的不断产生,新式多记录网页已经拥有大量的数据资源,并需要通过数据挖掘技术来发现其中的热点话题、意见领袖等信息,这就对多记录信息抽取技术提出了一个挑战:如何构建一个统一有效的信息抽取系统来满足不同媒介的信息抽取需要。因此,迫切需要有一种高效准确的多记录抽取方法,该方法应能够自动定位网页中的记录区域,并将记录区域中的记录进行分割,同时能够在不同媒介、不同领域方便地使用。

发明内容

本发明的目的在于克服现有技术的不足,提供一种多记录网页的信息抽取系统及方法,该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。

为了实现上述目的,本发明的技术方案是:一种多记录网页的信息抽取系统,包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收待抽取文档的文档次序树,并利用横向层次分析法在所述文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于利用双向搜索方法从所述记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。

进一步地,所述网页预处理模块包括SAX解析器,用于对XHTML网页代码进行解析,以构建文档次序树。

进一步地,所述SAX解析器包括4个事件处理器,分别为startDocument事件处理器、endDocument事件处理器、startElement事件处理器、endElement事件处理器;所述4个事件处理器分别包含了预先定义好的一系列操作,所述4个事件处理器按照解析标签的顺序依次被触发、执行。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410034376.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top