[发明专利]一种网页结构化信息抽取方法在审
申请号: | 201210491471.8 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103838796A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 侯辛酉;夏铭泽 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 结构 信息 抽取 方法 | ||
技术领域
本发明涉及信息抽取方法,特别是一种网页结构化信息抽取方法。
背景技术
信息抽取(Information Extraction,IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较,例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理,例如用数据挖掘方法发现和解释数据模型。信息抽取技术对于从大量的文档中抽取需要的特定信息来说是非常有用的,它并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,由系统设计时定下的领域范围而定。IE系统中的关键组成部分就是一系列的抽取规则或模式,其作用是确定需要抽取的信息。
因特网提供了一个巨大的信息源,这种信息源往往是半结构化的,虽然中间夹杂着结构化和自由文本。互联网上同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。网上文本信息的大量增加导致这方面的研究得到高度重视。Web信息抽取(Web Information Extraction,WebIE)是将Web作为信息源的一类信息抽取,就是从半结构化的Web文档中提取数据,属于Web内容挖掘的范畴。目前Web上的网页大部分是以超文本标记语言描述的,主要目的是为了显示,让人通过浏览器浏览,但缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确。这使得应用程序无法直接解析并利用Web上海量的信息,造成资源极大的浪费。Web信息抽取正是研究如何将分散在Internet上的半结构化的HTML页面中的隐含的信息点提取出来,并以更为结构化、语义更为清晰的形式表示,为用户在Web中查询数据、应用程序直接利用Web中的数据提供便利。
发明内容
网页信息抽取的主要任务就是将分散在Internet上的半结构化的HTML页面中的隐含的信息点提取出来,并以更为结构化、语义更为清晰的形式表示。
为了实现上述目的,本发明的技术方案如下:一种网页结构化信息抽取方法,包括以下步骤:
A、网页分析
对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点;
B、制定抽取规则:
该抽取规则包括采样、识别需要抽取的信息代码片段、建立匹配模式、构建信息抽取程序和匹配模式和抽取程序验证五个部分;
B1、采样:
针对一个站点,下载20个典型的输出页面的源代码作为分析和验证的样本;
B2、识别需要抽取的信息代码片段:
选取任意一个下载的源代码作为构建匹配模式的样本,通过可视化的HTML编辑器手工选择需要抽取的信息,然后切换到源代码编辑模式,这是就能够看到需要抽取的信息对应的HTML源代码片断,将这些代码片断标记下来;
B3、建立匹配模式:
对于每一个已标记的信息片断,采用正则表达式为它建立一个通用的匹配模式串;该模式匹配要求只能构匹配被标记的代码片段,同时要有一定的通用性,能够适应该代码片段内部的文本和细微布局的变化,同时对每一个匹配模式串加上标识符,便于后续对匹配的信息进行识别和抽取;
B4、构建信息抽取程序:
在匹配模式串的基础上,通过模式串的标记识别对应匹配成功的代码片断,识别特殊的属性字段,过滤掉HTML中无用的标记,获得纯文本信息;
B5、匹配模式和抽取程序验证:
使用其剩下的下载样本来验证匹配模式串和抽取程序的正确性;如果发现对于剩下的样本不正确,则回溯到B2,重新构建;
C、元数据抽取:
根据网页的HTML代码的特点对元数据进行抽取;根据制定的抽取规则,所有待抽取的字段信息都会准确地从网页文本中抽取出来,并作为结构化数据存储到数据库中;
D、信息整合
对抽取后的结构化数据进行整合处理,确保数据库中信息的一致性和完整性;选取标识属性,作为区分不同信息的依据。
与现有技术相比,本发明具有以下有益效果:
1、本发明提供了强大的信息抽取功能,通过对匹配模式串和模式串片断增加标记,可以十分方便地获得匹配成功的代码或者其中的一部分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210491471.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有复合烟丝段结构的卷烟
- 下一篇:具有胶原蛋白的微脂球体结构
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置