[发明专利]一种基于动态知识的深层网页数据获取方法有效
申请号: | 201210150789.X | 申请日: | 2012-05-16 |
公开(公告)号: | CN102682119A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 崔志明;鲜学丰;赵朋朋;杨元峰 | 申请(专利权)人: | 崔志明;鲜学丰;赵朋朋;杨元峰 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 215000 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 知识 深层 网页 数据 获取 方法 | ||
1.一种基于动态知识的深层网页数据获取方法,其特征在于,
对同一领域的多个数据源进行数据获取,其中,对所述多个数据源中的一个数据源进行数据获取,是通过以下过程实现的,包括以下步骤:
步骤一、为当前数据源预设n个查询关键词,从n个查询关键词中选择第一个查询关键词,根据该查询关键词在当前数据源上进行第一次数据获取,所述数据获取过程为:在当前数据源上执行,从当前数据源下载与当前查询关键词匹配的数据记录;
步骤二、重复步骤一,且当重复步骤一的次数达到rK次之后,其中rK<n,r为大于等于1的整数,在根据第rK+1个查询关键词在当前数据源上获得第rK+1个查询关键词匹配的数据记录之后,再从已经下载的数据记录中提取z个新的查询关键词,使得当前数据源对应的查询关键词的个数为n+z个。
2.如权利要求1所述的基于动态知识的深层网页数据获取方法,其特征在于,所述K值逐渐增大。
3.如权利要求1或2所述的基于动态知识的深层网页数据获取方法,其特征在于,对所述多个数据源进行数据获取,通过以下过程实现的,
(1)依次对每一个数据源进行数据获取,其中,当对所述多个数据源中的第一个数据源进行数据获取时,从n个查询关键词中依次选择各查询关键词对当前数据源进行一次又一次的数据获取,直到所述当前数据源的连续进行的α次数据获取的新数据获取率均不大于一新数据获取率阈值,则中止对当前数据源的数据获取,并对当前数据源的下一个数据源进行数据获取,直到最后一个数据源达到中止,
(2)检验所述多个数据源的数据获取是否均满足预设结束条件,如果不满足,则重复步骤(1),直至所述多个数据源的数据获取均满足预设结束条件,其中,当对所述多个数据源中的任一个数据源满足预设结束条件时,则结束对该数据源的数据获取。
4.如权利要求3所述的基于动态知识的深层网页数据获取方法,其特征在于,所述步骤(1)中,计算当前数据源中的各查询关键词的查询效率,并按照查询效率对当前数据源中的查询关键词进行排序,根据查询效率从大到小的顺序依次选择各查询关键词对当前数据源进行一次又一次的数据获取。
5.如权利要求4所述的基于动态知识的深层网页数据获取方法,其特征在于,查询关键词的查询效率Efficient(qi,DBj)与该查询关键词qi在当前数据源DBj上的查询回报率Reward(qi,DBj)成正比,且与该查询关键词qi在当前的数据源DBj上的数据获取代价Cost(qi,DBj)成反比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔志明;鲜学丰;赵朋朋;杨元峰,未经崔志明;鲜学丰;赵朋朋;杨元峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210150789.X/1.html,转载请声明来源钻瓜专利网。