[发明专利]基于关系表的可配置信息抽取方法有效
申请号: | 201510306130.2 | 申请日: | 2015-06-05 |
公开(公告)号: | CN104881488B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 滕晓程;陈茂榕;邵明路;周晔;孟凡军 | 申请(专利权)人: | 焦点科技股份有限公司;东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙)32249 | 代理人: | 陈建和 |
地址: | 210003 江苏省南京市高新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关系 配置 信息 抽取 方法 | ||
一、技术领域
本发明属于计算机领域互联网数据抽取,具体涉及一种基于关系表的可配置信息抽取框架技术。
二、背景技术
随着互联网的迅速发展,人们的生活越来越离不开网络,互联网上的信息量也呈
现爆炸性的增长,这使得互联网成为了一个巨大的信息源,能够提供海量有价值的信息。对于用户来说,如何有效地获取和利用这些信息变得尤为迫切和重要。目前互联网上的数据大部分都是以HTML形式出现的,HTML文档中的信息主要是面向显示的,缺乏对数据本身的描述,也不包含语义信息,大多是非结构化或半结构化的数据。这使得应用程序无法直接解析并利用这些信息。
为了增加互联网上数据的可用性,让应用程序能够直接利用互联网上的信息资源,让用户能够在海量信息中方便地获取所需要的信息,需要自动将网页上的非结构化或半结构化数据转化为结构化数据。Web信息抽取技术正是在这种背景下产生的。
Web信息抽取指的是从网页所包含的无结构或半结构化数据中抽取出用户感兴趣的数据,并将其转化为更具语义,更结构化的形式保存下来以供用户查询或其他程序应用。因此传统的信息抽取通常使用自然语言理解技术,如词典、语法分析等,而Web信息抽取常常使用机器学习、模式挖掘等技术。Web信息抽取在Web数据挖掘的很多应用中有很重要的作用,如超链接分析,日志挖掘,网页内容挖掘等。
一个信息抽取任务通常是与某个领域密切相关的,如抽取课程类网站主页上的课程名称、内容和老师等信息,或从旅游论坛上抽取联系信息和联系信息对应的功能类别等。生活中也有很有Web信息抽取的应用,如购物网站商品比较系统抽取不同购物网站的商品价格等信息反馈给用户;个性化自动信息推送服务自动在目标网站抽取用户感兴趣的信息定期推送给用户等。不同的抽取任务涉及不同领域,缺乏一定的规范,而同一个抽取任务在抽取不同网站上的信息时,由于不同网站页面组织和数据结构存在差异,也给信息抽取带来很大困难。
Web信息抽取系统的研究可以追溯到二十世纪九十年代。早期的Web信息抽取系统需要人为定义规则,用户人工为每个抽取任务编写包装器。之后的框架逐渐引入了机器学习等方法以自动生成抽取规则,用户不需要人工(手工)编写抽取规则而只要对数据样本进行标注,大大降低了对用户的要求和包装器的生成成本。近年来的研究重点主要在于进一步提高Web信息抽取自动化程度,降低标注代价,但是自动化程度的提高往往以一些其他性能为代价,如系统对不同领域任务适应性的降低或对作为输入的Web页面有一些特殊的限制。
目前主流的Web信息抽取技术主要有:基于包装器开发专用语言的抽取技术、基于数据模型的抽取技术、基于HTML结构的抽取技术和基于自然语言处理的抽取技术等。如CN103309954A公开的基于html网页的数据抽取方法,其由xml解析器,html引擎以及数据管理器三个模块组成;其中:所述xml解析器模块负责解析sysconfig.xml文件,得到系统初始化参数、页面的url地址和目标节点的描述信息;所述html引擎模块首先验证sysconfig.xml文件配置信息的有效性,如果有效则继续执行,否则提示用户检查xml文件配置信息;xml文件配置通过验证之后,根据配置信息中的页面链接地址,获取该页面的html文档,然后再调用html解析器来解析html文档,根据sysconfig.xml中配置的目标节点选择器描述信息,获得html中目标元素,从而获得该元素的数据;所述数据管理模块主要是负责数据的持久化工作,根据用户在sysconfig.xml中配置的数据保存方式,选择相应的数据管理器来完成数据的持久化工作;所述系统进行数据抽取的工作流程如下:首先,html引擎模块根据xml解析器模块获得的html页面url地址,通过http get请求获取目标网页文档;接着xml解析器模块根据xml文件中的配置目标节点选择器,描述具有相同html页面结构的目标节点;再经过我们的html引擎模块解析,得到我们想要的目标节点的结构化数据;最后由数据管理器模块根据配置文件中配置的数据保存方式将其保存在相应的介质中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司;东南大学,未经焦点科技股份有限公司;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510306130.2/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置