[发明专利]基于查询接口属性特征的Deep Web数据表面化方法有效
申请号: | 201210191981.3 | 申请日: | 2012-06-12 |
公开(公告)号: | CN103257981A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 赵朋朋;鲜学丰;辛洁;郭建兵;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 曹毅 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明在于公开了一种基于查询接口属性特征的DeepWeb数据表面化方法,包括查询接口模式信息抽取;清洗查询无关的属性;清洗垃圾属性值;属性分类;组装查询;查询集合;判断是否达到一定覆盖度;若是,则该方法流程结束;若不是,判断查询集合是否为空;若是,则将数据经领域样本库提交到样本库中;若不是,则将数据经数据爬取模块和数据记录抽取模块提交到样本库中。本发明基于查询接口属性特征的数据表面化方法可以取得较高的数据表面化效率,并能够有效解决查询接口中Top-k的问题。 | ||
搜索关键词: | 基于 查询 接口 属性 特征 deep web 数据 表面化 方法 | ||
【主权项】:
基于查询接口属性特征的Deep Web数据表面化方法,其特征在于,包括以下步骤:步骤1)查询接口模式信息抽取;步骤2)清洗查询无关的属性;步骤3)清洗垃圾属性值;步骤4)属性分类;步骤5)判断是否为范围型属性,若是,执行步骤6;若不是,执行步骤7;步骤6)利用范围型属性采样,根据样本在区间上的分布,划分范围型属性区间后执行步骤11;步骤7)判断是否为分类型属性,若是,执行步骤8;若不是,执行步骤9;步骤8)候选属性值抽取,构建层次树,进行上溢查询,若是,执行步骤9;若不是,执行步骤11;步骤9)判断是否为文本型属性,若是,执行步骤10;步骤10)获取候选值,分别基于覆盖率和互信息对候选值进行筛选,后执行步骤11;步骤11)组装查询;步骤12)查询集合;步骤13)判断是否达到一定覆盖度;若是,则该方法流程结束;若不是,则执行步骤14;步骤14)判断时候查询集合为空;若是,则执行步骤15;若不是,则执行步骤16;步骤15)将数据经领域样本库提交到样本库中,后进行步骤10的候选值的获取;步骤16)将数据经数据爬取模块和数据记录抽取模块提交到样本库中,后进行步骤10的候选值的获取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210191981.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种食用菌开口器用刀杆
- 下一篇:搜索资源静态化的实现方法及系统