[发明专利]基于抽取模板可视化定制的Web数据抽取方法有效

申请号：	201110301775.9	申请日：	2011-10-09
公开（公告）号：	CN102360368A	公开（公告）日：	2012-02-22
发明（设计）人：	李庆忠;闫中敏;彭朝晖;蔡益清	申请（专利权）人：	山东大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	郑华清
地址：	250061 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于抽取模板可视化定制 web 数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于抽取模板可视化定制的Web数据抽取方法，其特征是，它包括以下步骤：

A.模板页面预处理；

B.抽取模板可视化定制；

C.对页面批量抽取频率进行设置；

D.页面批量抽取。

2.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法，其特征是，所述步骤A模板页面预处理，即模板页面源代码的转换及展示：它通过分析内存程序中模板页面的HTML源代码，解析其DOM树结构，并将其转化为XML格式，并在显示器的用户界面中展示。

3.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法，其特征是，所述步骤B抽取模板可视化定制是指在用户界面上提供拖拽选中功能，由用户自行设定模板页面上的属性标签和数据值与领域模型中属性的对应关系，建立抽取模板。

4.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法，其特征是，所述步骤C页面批量抽取频率设置按每隔8小时对爬取获得的HTM L页面进行批量抽取一次。

5.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法，其特征是，所述步骤D页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽取，将其中的半结构化数据转合成结构化数据保存至本地数据库。

6.如权利要求书1或2所述的基于抽取模板可视化定制的Web数据抽取方法，其特征是，所述步骤A中模板页面源代码的转换及展示具体包括以下步骤：

A1.对提供的模板页面进行HTML源代码分析，转化成符合XML规范的页面文件；

A2.对页面分析其完整的DOM结构，并展示在用户界面；

A3.对转化后的页面，在满足页面原有结构的条件下，添加必要的JS控制代码，用以实现页面标注；

A4.将经过以上步骤处理过得XML格式的页面在用户界面中展示出来提供给用户进行模板可视化定制使用。

7.如权利要求书1或3所述的基于抽取模板可视化定制的Web数据抽取方法，其特征是，所述步骤B中抽取模板可视化定制具体包括以下步骤：

B1.用户打开显示器显示的模板页面之后，用鼠标拖选中要抽取的数据项，程序会根据用户拖选出的数据项，分析这个数据项的XPATH路径并记录下来；

B2.若该数据项在页面中还有对应的页面标签，则将该数据标签也拖选出，程序会记录下该数据标签的XPATH路径和该标签的文本内容，并与选出的数据项XPATH共同组合一条抽取规则；若该数据项没有对应的数据标签，则不用选择；

B3.用户依据领域模型，为通过上述B2、B3步后形成的抽取规则选择一个属性标签，这个标签是包含在事先已经建立好的领域模型中，且符合这条抽取规则对应数据项语义，该属性标签标示这条抽取规则对应的数据项的语义，其实质就是完成了页面数据项对数据表中列的映射；

B4.重复以上B2至B4步，直到所有要抽取的数据被标注出来，将经过以上步骤得到的抽取规则集合保存为一个页面抽取模板。

8.如权利要求书1或4所述的基于抽取模板可视化定制的Web数据抽取方法，其特征是，所述步骤C中抽取模板可视化定制具体包括以下步骤：

C1.将当前要抽取的页面转化成规范的XML文件；

C2.利用抽取模板中记录的抽取规则，其本质就是XPATH路径，抽取出所需要的数据项；

C3.根照每条抽取规则对应的数据标签，将抽取出的数据项保存到数据库表相应的列中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110301775.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载