[发明专利]一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法无效
申请号: | 201210499833.8 | 申请日: | 2012-11-29 |
公开(公告)号: | CN103092913A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 戚春超 | 申请(专利权)人: | 江苏瑞中数据股份有限公司;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏省南京市鼓*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 迭代式 朴素 贝叶斯 分类 判定 查询 接口 方法 | ||
技术领域
本发明属于网络技术领域,更准确地说是涉及一种深网查询接口判定的方法。
背景技术
众所周知,互联网杂乱无章,按其所蕴涵信息的深度可以划分为浅网(Surface Web)和深网(Deep Web)两大部分。Surface Web是指通过超链接可以被传统搜索引擎索引到的页面的集合。而Deep Web又称为看不见的网页,是指通用搜索引擎由于技术原因无法索引到的那部分信息。
Deep Web与Surface Web相比有如下优点:一、Deep Web蕴含的信息量远高于Surface Web,据估计至少约为其400~500倍;二、对Deep Web数据的访问量比Surface Web要高,据估计至少约高出15%;三、Deep Web蕴含的信息量比Surface Web的质量更高;四、Deep Web的增长速度要远大于Surface Web;五、超过50%的Deep Web的内容是特定于某个域的,即面向某个领域;六、整个Deep Web覆盖了现实世界中的各个领域,比如商业、教育、政府等等;七、Deep Web上95%的信息是公开访问的,可以免费获取。因此,相比于Surface Web而言,Deep Web中的信息更丰富且更有价值。
Deep Web中的信息以自主的、独立的形式分布在整个网络中,而且DeepWeb数据源是动态的、不断变化的。Deep Web蕴含的信息量比普通的SurfaceWeb更丰富、更有价值。但要想在网络中发现Deep Web,就需要从大量种类繁多的网页中识别出Deep Web查询接口,这是一个很不容易但非常值得研究的问题。同时,并非所有的网页表单都是Deep Web查询接口。因此,这给Deep Web信息的获取带来了困难。由于查询接口是Deep Web的主要入口,因此要获取Deep Web中的数据信息就必须判定哪些网页表单是DeepWeb的查询接口。目前对Deep Web查询接口判定的研究不是很多,还处在一个起步阶段。而本发明正是为了解决如何在大数量多种类网络中发现Deep Web查询接口而实现的。
本发明基于朴素贝叶斯分类和Adaboost迭代算法。
朴素贝叶斯分类的过程如图1所示,其步骤为,先确定特征属性、获取训练样本,再计算每个类别的概率以及计算每个特征属性所有划分的条件概率以得到朴素贝叶斯分类器,最后用朴素贝叶斯分类器进行分类。其思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,选出概率最大的那个,就认为此待分类项属于那个类别。
Adaboost迭代算法则是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(即弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(即强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
发明内容
针对现有技术中对于大数量多种类网络中发现Deep Web查询接口的不足,本发明提出了一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,该方法在结合启发式判定规则的基础上训练出分类器对网络中大量繁杂的网页表单进行判定,从而识别出Deep Web查询接口,与其他传统的判定方法相比有很大改进,确保了判定的有效性。
具体地说,本发明是采取以下的技术方案来实现的,包括下列步骤:
1)从获取到的网页中提取出网页表单,再从网页表单中提取出所有的表单元素属性;
2)运用启发式判定规则、结合步骤1)中提取的网页表单以及网页表单中的表单元素属性,对获取到的网页进行判定,将判定结果中不属于深网查询接口的网页直接排除,其中所述启发式判定规则是利用事先归纳的不符合深网查询接口的特征与某网页进行比对、如该网页中含有事先归纳的不符合深网查询接口的特征则判定该网页不属于深网查询接口的规则;
3)利用迭代式朴素贝叶斯分类器对步骤2)中未被排除的网页进行判定,其中该迭代式朴素贝叶斯分类器通过采用Adaboost迭代算法将多个朴素贝叶斯分类器集合而获得;
4)依据步骤3)中的判定结果得出网页是否属于深网查询接口。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏瑞中数据股份有限公司;国家电网公司,未经江苏瑞中数据股份有限公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210499833.8/2.html,转载请声明来源钻瓜专利网。