[发明专利]基于查询接口属性特征的Deep Web数据表面化方法有效
申请号: | 201210191981.3 | 申请日: | 2012-06-12 |
公开(公告)号: | CN103257981A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 赵朋朋;鲜学丰;辛洁;郭建兵;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 曹毅 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 查询 接口 属性 特征 deep web 数据 表面化 方法 | ||
1.基于查询接口属性特征的Deep Web数据表面化方法,其特征在于,包括以下步骤:
步骤1)查询接口模式信息抽取;
步骤2)清洗查询无关的属性;
步骤3)清洗垃圾属性值;
步骤4)属性分类;
步骤5)判断是否为范围型属性,若是,执行步骤6;若不是,执行步骤7;
步骤6)利用范围型属性采样,根据样本在区间上的分布,划分范围型属性区间后执行步骤11;
步骤7)判断是否为分类型属性,若是,执行步骤8;若不是,执行步骤9;
步骤8)候选属性值抽取,构建层次树,进行上溢查询,若是,执行步骤9;若不是,执行步骤11;
步骤9)判断是否为文本型属性,若是,执行步骤10;
步骤10)获取候选值,分别基于覆盖率和互信息对候选值进行筛选,后执行步骤11;
步骤11)组装查询;
步骤12)查询集合;
步骤13)判断是否达到一定覆盖度;若是,则该方法流程结束;若不是,则执行步骤14;
步骤14)判断时候查询集合为空;若是,则执行步骤15;若不是,则执行步骤16;
步骤15)将数据经领域样本库提交到样本库中,后进行步骤10的候选值的获取;
步骤16)将数据经数据爬取模块和数据记录抽取模块提交到样本库中,后进行步骤10的候选值的获取。
2.根据权利要求1所述的基于查询接口属性特征的Deep Web数据表面化方法,其特征在于,层次树的构建方法如下:
a.虚拟一个树的根节点,该节点代表了目标数据库中的全部数据记录;
b.从根节点发出的每一条边代表aq,1的一个属性值;树的第二层的第i个节点代表以aq,1=v1,i作为查询条件所得到的数据记录的集合;
c. 若查询命中的数据记录个数为0,则将其标为空节点,
若查询命中的数据记录个数小于或等于k且大于0,则将其标注为有效的叶子节点;否则,若命中的数据记录个数大于k,则将其标注为上溢节点;
d. 分别以层次树中第二层的上溢节点作为根节点,按照相同的方法,选择第二个分类型属性aq,2中的候选属性值对层次树进行扩展;
e. 按照同样的方式扩展层次树,直至已经构建好的层次树中不存在上溢的叶子节点,或Amulti中不存在没有被遍历的属性;
当且仅当属性序列中的属性按照其值域空间的大小升序排列,即 时,构建的层次树是最优的;能够使得查询提交次数最少。
3.根据权利要求1所述的基于查询接口属性特征的Deep Web数据表面化方法,其特征在于,候选属性值的筛选步骤如下:
a. 计算文本型属性aq,i添加到查询提交属性集合之前的上溢查询所命中的数据记录个数,记为numoverflow ;设numvalid为该文本型属性取不同的候选值分别添加到查询序列中命中的数据记录的总数,numvalid的初始值为0;
b. 若Quei不存在未被遍历的元素,则在该属性上的数据表面化结束,否则进行步骤c;
c. 从序列Quei中选择从未被访问的第一个元素作为文本型属性的取值;添加到查询提交序列中;将该查询命中的数据记录个数赋给临时变量numtmp ;
d. 将numtmp的值与原有的numvalid值相加,并将结果赋给numvalid,
若,则在该属性上的数据表面化结束;否则,回到步骤b。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210191981.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食用菌开口器用刀杆
- 下一篇:搜索资源静态化的实现方法及系统