[发明专利]基于抽取模板可视化定制的Web数据抽取方法有效
申请号: | 201110301775.9 | 申请日: | 2011-10-09 |
公开(公告)号: | CN102360368A | 公开(公告)日: | 2012-02-22 |
发明(设计)人: | 李庆忠;闫中敏;彭朝晖;蔡益清 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 郑华清 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 抽取 模板 可视化 定制 web 数据 方法 | ||
技术领域
本发明涉及一种涉及Web页面的抽取,属于计算机应用领域,尤其涉及一种基于抽取模 板可视化定制的Web数据抽取方法。
背景技术
随着互联网技术的飞速发展,Web上的网站和网页数量以爆炸性的趋势增长,从而使 Web成为一个巨大的、分布广泛的数据源。文本、表格和多媒体文件如图片、视频等是Web 信息的主要表现形式,Web数据抽取即是按照一定的规则,从Web数据中抽取语义一致性的、 结构化的数值知识,建立数值知识元库,满足用户数据查询、数据分析需求。为了自动化地 将输入的Web页面转化成结构化数据,在数据抽取领域已经展开了很多工作。Web数据抽取 主要用于产生结构化数据,这些结构化数据便于后续分析和挖掘处理。Web数据抽取对于众 多Web数据分析和挖掘应用具有至关重要的作用和意义。
一个Web数据抽取任务在形式上可以定义为输入和输出。输入可以是非结构化数据,例 如自由文本,也可以是在Web中普遍存在的半结构化文档。
由于存在以上技术上的要求,当前在Web页面数据抽取方面,还存在以下不足之处:
1由于Web上数据的异构性和结构的缺失,导致面向分析和挖掘的Web数据应用,例如 市场情报分析等,需要花费大量的代价去处理不同格式的Web数据源。
2一个Web数据抽取任务的输出可以是一个具有多条记录的关系表或者是具有复杂结构 的数据对象。对于一些Web数据抽取任务,属性可以缺失或者在一条记录中某个属性具有多 个属性值,另外,当Web页面中的半结构化数据存在属性顺序不唯一或拼写错误的时候, Web数据抽取任务将变得更加复杂和困难。
发明内容
本发明的目的就是为了解决上述问题,提供一种基于抽取模板可视化定制的Web数据抽 取方法,它具有可视化、友好的用户交互能力优点。
为了实现上述目的,本发明采用如下技术方案:
一种基于抽取模板可视化定制的Web数据抽取方法,包括以下步骤:
A.模板页面预处理。
B.抽取模板可视化定制。
C.页面批量抽取频率设置。
D、页面批量抽取。
所述模板页面预处理即模板页面源代码的转换及展示:通过分析模板页面的HTML源代 码,解析其DOM树结构,并将其转化为XML格式,并在用户界面中展示;
所述抽取模板可视化定制是指在用户界面上提供拖拽选中功能,由用户自行设定模板页 面上的属性标签和数据值与领域模型中属性的对应关系,建立抽取模板;
所述页面批量抽取频率设置按每隔一段时间(如8小时)对爬取获得的HTML页面进行批量 抽取一次;
所述页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽取, 将其中的半结构化数据转合成结构化数据保存至本地数据库。
所述步骤A中模板页面源代码的转换及展示具体包括以下步骤:
A1.对提供的模板页面进行HTML源代码分析,转化成符合XML规范的页面文件。
A2.对页面分析其完整的文档对象模型DOM结构,并展示在用户界面。
A3.对转化后的页面,在不破坏页面原有结构的条件下,添加必要的Js控制代码,用 以实现页面标注。
A4.将经过以上步骤处理过的XML格式的页面在用户界面中展示出来提供给用户进 行模板可视化定制使用。
所述步骤B中抽取模板可视化定制具体包括以下步骤:
B1.用户打开模板页面之后,用鼠标拖选中要抽取的数据项,程序会根据用户拖选出 的数据项,分析这个数据项的XPATH路径并记录下来。
B2.若该数据项在页面中还有对应的页面标签,则将该数据标签也拖选出,程序会记 录下该数据标签的XPATH路径和该标签的文本内容,并与选出的数据项XPATH共同组合一 条抽取规则。若该数据项没有对应的数据标签,则不用选择。
B3.用户依据领域模型,为通过上述B1、B2步后形成的抽取规则选择一个属性标签, 这个标签是包含在事先已经建立好的领域模型中,且符合这条抽取规则对应数据项语义, 该属性标签标示这条抽取规则对应的数据项的语义,其本质为完成了页面数据项对数据表 中列的映射。
B4.重复以上B1至B3步,直到所有要抽取的数据被标注出来,将经过以上步骤得到 的抽取规则集合保存为一个页面抽取模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110301775.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带有多件式线圈的磁轨制动装置
- 下一篇:一种新型全息瞄具光路