[发明专利]基于抽取模板可视化定制的Web数据抽取方法有效
申请号: | 201110301775.9 | 申请日: | 2011-10-09 |
公开(公告)号: | CN102360368A | 公开(公告)日: | 2012-02-22 |
发明(设计)人: | 李庆忠;闫中敏;彭朝晖;蔡益清 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 郑华清 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 抽取 模板 可视化 定制 web 数据 方法 | ||
1.一种基于抽取模板可视化定制的Web数据抽取方法,其特征是,它包括以下步骤:
A.模板页面预处理;
B.抽取模板可视化定制;
C.对页面批量抽取频率进行设置;
D.页面批量抽取。
2.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是, 所述步骤A模板页面预处理,即模板页面源代码的转换及展示:它通过分析内存程序中模板 页面的HTML源代码,解析其DOM树结构,并将其转化为XML格式,并在显示器的用户界 面中展示。
3.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是, 所述步骤B抽取模板可视化定制是指在用户界面上提供拖拽选中功能,由用户自行设定模板 页面上的属性标签和数据值与领域模型中属性的对应关系,建立抽取模板。
4.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是, 所述步骤C页面批量抽取频率设置按每隔8小时对爬取获得的HTM L页面进行批量抽取一次。
5.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是, 所述步骤D页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽 取,将其中的半结构化数据转合成结构化数据保存至本地数据库。
6.如权利要求书1或2所述的基于抽取模板可视化定制的Web数据抽取方法,其特征 是,所述步骤A中模板页面源代码的转换及展示具体包括以下步骤:
A1.对提供的模板页面进行HTML源代码分析,转化成符合XML规范的页面文件;
A2.对页面分析其完整的DOM结构,并展示在用户界面;
A3.对转化后的页面,在满足页面原有结构的条件下,添加必要的JS控制代码,用以实现 页面标注;
A4.将经过以上步骤处理过得XML格式的页面在用户界面中展示出来提供给用户进行模 板可视化定制使用。
7.如权利要求书1或3所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是, 所述步骤B中抽取模板可视化定制具体包括以下步骤:
B1.用户打开显示器显示的模板页面之后,用鼠标拖选中要抽取的数据项,程序会根据用 户拖选出的数据项,分析这个数据项的XPATH路径并记录下来;
B2.若该数据项在页面中还有对应的页面标签,则将该数据标签也拖选出,程序会记录下 该数据标签的XPATH路径和该标签的文本内容,并与选出的数据项XPATH共同组合一条抽取 规则;若该数据项没有对应的数据标签,则不用选择;
B3.用户依据领域模型,为通过上述B2、B3步后形成的抽取规则选择一个属性标签,这 个标签是包含在事先已经建立好的领域模型中,且符合这条抽取规则对应数据项语义,该属 性标签标示这条抽取规则对应的数据项的语义,其实质就是完成了页面数据项对数据表中列 的映射;
B4.重复以上B2至B4步,直到所有要抽取的数据被标注出来,将经过以上步骤得到的抽 取规则集合保存为一个页面抽取模板。
8.如权利要求书1或4所述的基于抽取模板可视化定制的Web数据抽取方法,其特征 是,所述步骤C中抽取模板可视化定制具体包括以下步骤:
C1.将当前要抽取的页面转化成规范的XML文件;
C2.利用抽取模板中记录的抽取规则,其本质就是XPATH路径,抽取出所需要的数据项;
C3.根照每条抽取规则对应的数据标签,将抽取出的数据项保存到数据库表相应的列中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110301775.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:带有多件式线圈的磁轨制动装置
- 下一篇:一种新型全息瞄具光路