[发明专利]基于抽取模板可视化定制的Web数据抽取方法有效
申请号: | 201110301775.9 | 申请日: | 2011-10-09 |
公开(公告)号: | CN102360368A | 公开(公告)日: | 2012-02-22 |
发明(设计)人: | 李庆忠;闫中敏;彭朝晖;蔡益清 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 郑华清 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于抽取模板可视化定制的Web数据抽取方法,它包括以下步骤A.模板页面预处理;B.抽取模板可视化定制;C.对页面批量抽取频率进行设置;D.页面批量抽取。所述步骤A模板页面预处理,即模板页面源代码的转换及展示;所述步骤B抽取模板可视化定制是指在用户界面上提供拖拽选中功能,由用户自行设定模板页面上的属性标签和数据值与领域模型中属性的对应关系,建立抽取模板。所述步骤C页面批量抽取频率设置按每隔8小时对爬取获得的HTML页面进行批量抽取一次。所述步骤D页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽取,将其中的半结构化数据转合成结构化数据保存至本地数据库。 | ||
搜索关键词: | 基于 抽取 模板 可视化 定制 web 数据 方法 | ||
【主权项】:
一种基于抽取模板可视化定制的Web数据抽取方法,其特征是,它包括以下步骤:A.模板页面预处理;B.抽取模板可视化定制;C.对页面批量抽取频率进行设置;D.页面批量抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110301775.9/,转载请声明来源钻瓜专利网。
- 上一篇:带有多件式线圈的磁轨制动装置
- 下一篇:一种新型全息瞄具光路