[发明专利]一种基于最小可查询模式的Deep Web自适应爬取方法无效
申请号: | 200810232555.3 | 申请日: | 2008-12-02 |
公开(公告)号: | CN101419625A | 公开(公告)日: | 2009-04-29 |
发明(设计)人: | 刘均;郑庆华;蒋路;吴朝晖;常晓 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 | 代理人: | 陈翠兰 |
地址: | 710049*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于最小可查询模式的Deep Web自适应爬取方法。针对当前DeepWeb爬取方法存在的数据孤岛导致的爬取效率较低问题,本发明首先提出了最小可查询模式MEP的概念,并在此基础上提出了MEP生成算法与基于MEP的自适应爬取方法。本发明将查询接口由单文本框推广到最小可查询模式集,一次查询由一个MEP和与该MEP匹配的关键词向量共同确定,自适应地产生期望最优的下一个查询直到满足查询停止条件。本发明使用最小可查询模式不但提高了表单填写准确率,而且充分利用各个模式的特性选取关键词较好地克服数据孤岛问题。 | ||
搜索关键词: | 一种 基于 小可 查询 模式 deep web 自适应 方法 | ||
【主权项】:
1、一种基于最小可查询模式的Deep Web自适应爬取方法,其特征在于,包含以下步骤:1)生成目标Deep Web查询表单的最小可查询模式集合Smep,其中查询表单:查询表单是Deep Web的查询接口,可表示为所包含控件元素的集合,即查询表单F={e1,...,en},其中ei为F的控件元素;可查询模式:给定查询表单F={e1,...,en},∀ { e 1 ′ , . . . , e m ′ } ∈ 2 F , ]]> 1≤m≤n,若对
中至少一个控件元素赋值后进行Deep Web数据库检索能返回检索结果,则称集合
为F的一个可查询模式;最小可查询模式:F={e1,...,en}的查询模式
(1≤m≤n)是最小可查询模式当且仅当
的任意一个真子集都不是可查询模式,记作
2)添加种子候选查询qi进候选查询集合,候选查询可表示为qi(kv,mepj)其中qi(kv,mepj)为第i次Deep Web查询,该次查询是通过向最小可查询模式mepj提交关键词向量kv实现的,这里,mepj∈SMEP为包含m个控件元素的最小查询模式,kv=(kv1,kv2,…,kvm)为m维的关键词向量;3)对最小可查询模式集合中的每个最小可查询模式mepj,预测其模式回报率Pnew(q(mepj)),模式回报率表示最小可查询模式独立于关键词向量选择的获取新记录的回报率,该值取决于查询模式本身;4)对候选查询集合中的每个候选查询qi(kv,mepj)估计其关键词向量kv对新纪录的条件回报率Pnew(qi(kv|mepj)),Pnew(qi(kv|mepj))表示qi在mepj查询模式下使用关键词向量kv查询对新结果的条件回报率,该值取决于给定模式下关键词向量的查询能力;5)对于候选查询集合中的查询qi(kv,mepj)计算查询qi对新纪录的回报率Pnew(qi(kv,mepj))和提交其所花费的时间代价cost(qi(kv,mepj));6)提交候选查询集合中效率Efficient(qi)最高的查询qi,下载结果页面,抽取新纪录中关键词向量kv和其对应的模式信息mepj的偶对即(kv,mepj),更新候选查询集合,效率Efficient(qi)为查询qi单位代价下获取的新结果所占数据库总记录的比值,即Efficient(qi(kv,mepj))=Pnew(qi(kv,mepj))/cost(qi(kv,mepj));7)如果满足停止爬取条件即
为False时则爬取过程在该次查询后停止,算法结束;否则跳转至步骤0;其中costmax为爬取过程中允许的最大代价,ε是个小于1的正数,ws为数据获取窗口W的大小。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810232555.3/,转载请声明来源钻瓜专利网。
- 上一篇:金属电容器及其制造方法
- 下一篇:一种阳离子水性紫外光固化树脂涂料及制法