[发明专利]一种半结构化Web信息抽取技术的方法在审

专利信息
申请号: 201410540602.6 申请日: 2014-10-14
公开(公告)号: CN105574016A 公开(公告)日: 2016-05-11
发明(设计)人: 不公告发明人 申请(专利权)人: 镇江鼎拓科技信息有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 212009 江苏省镇江市镇*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 web 信息 抽取 技术 方法
【说明书】:

技术领域

一种半结构化Web信息抽取技术的方法主要涉及计算机应用开发领域。

背景技术

随着Intemet的飞速发展,Web已经发展成为一个巨大的、分布和共享的信息资源,但目前Web数据犬都阻HTML形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不明确,结构上也不良好。

这使得应用程序无法直接解析并利用web上的海量信息,为了增强Web数据的可用性,出现了Web信息抽取技术,它通过包装现有Web信息源,将网页上的信息以更为结构化的方式抽取出米,为虑用程序利用Web中的数据提供了可能。现有的Web的信息抽取技术不但可以直接定位到用户所需的信息,而且采用。定的方式增加了语义和模式信息,为web查询提供了更为精确的方法,使Web信息的再利用成为可能,冈此有着明显的优势和广阔的前景,是当今多个领域的研究热点。

在信息获取的方面,Web信息抽取和浏览器上的信息检索和奇询有着本质上的差异,并且处理信息的粒度也不相同。现有的搜索引擎只能根据用户提交的关键词返回一一组URLs,用户必须逐一浏览URL对应的Web页,采用人工的方式定位最终信息,现有的搜索引擎本身不能直接定位到所需的数据,更谈不上为数据增加语义。另外目前很多网站提供对自身所提供的信息的查询功能,允许用户直接提交查询条件或关键词,然后系统在后台根据查询条件或关键词的“OR,AND”范式形式在后台数据库执行查询,最后可以直接返回给用户所需的信息,但是为了显示仍以HTML形式出现,缺乏模式信息,应崩程序仍旧无法直接利用这些信息,于是HTML语言的局限性就表现出来。另9l-I*t户没有直接访问网站后台数据库的权限,如果网站根本不提供查询功能或者查询的信息不是用户需要的信息,崩户对此无能为力。于是对于Web信息的抽取成为一件迫切需要研究的一个热点课题。

随着需求的增加,进米涌现出了多种信息抽取工具,采用的技术也各不相同,涉及多个研究领域,如:数据库、人工智能、信息检索等。

发明内容

通过国家专利检索没有发现关于此系统方面的申请资料。

本方法主要是如何将基于HTML文档的半结构化Web信息抽取出来,将它们转换为结构化数据,并且保存到关系数据库。

一、半结构化Web信息抽取方法主要包括数据获取、抽取规则定义和规则执行三个方面,这里所指的半结构化数据指半结构化的HTML页面。

1.数据获取:下载指定的URL页而数据,为接来的网负数据抽取作好准备。其中涉及到网站的登录问题。有些网站必须登录(注册厉获得用户名/密码对)后才有访问其某一网页的权限,这样就要求用户指定登录URL(该URL包括用户名和密码),以成功访问目的网页。本原型系统采用GET方式代替POST方式解决网站的登录和参数传递问题。

2.抽取规则定义:抽取规则定义由用户根据自己的需求来进行。在这一阶段,要求崩户能够根据样例Web页面完成抽取规则的定义任务,即:完成目的表模式设计和数据源到目的表结构的模式映射设计两部分。完成的思路如下:系统首先根据用户指定的URL获取样例网页数据并且将该网页利用HTMLTidy转换为XML(实际为XHTML),并且利用XMLParser将该XML文档解析为DOM(DocumentObjectModel)树,这样DOM树就成为Web网页在系统内部的表示方式。而对于用户而言,只将该样例网页直观的展示给用户。当进行模式定义时,只需对所看到的感兴趣数据进行拖放即可生成模式定义文件,该文件即为待抽取网页的抽取规则,其中主要虑用了XML的相关技术。而抽取规则如何生成是原型系统的核心问题。

3.规则执行:利用上一步产生的抽取规则,系统可以对用户指定的URL集合进行真止的数据抽取。过程如F:对于某一URL,首先获取该网页数据,将已经定义好的规则对该网页数据进行抽取过滤,输出结果数据,放入已经定义好的目的表模式中,至此完成Web数据的信息抽取T作。值得强调指出,抽取得到的结果数据集是完全结构化的,这样就大大增强了Web数据的可用性。

4.已有基础:该ETL工具实现了结构化数据和半结构化的文本数据的抽取转换和加载工作。半结构化的Web信息抽取可以看作对ETL上具的功能扩充。在本文的末尾介绍了Web信息抽取技术和ETL系统的关系。

二、XML数据模型与半结构化数据之间的对应是非常明显的,许多半结构化数据模型的研究可以容易地应用到XML数据上。将OEM模型稍加改动,就可以用来表示XML数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江鼎拓科技信息有限公司,未经镇江鼎拓科技信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410540602.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top