[发明专利]一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法无效
申请号: | 201210499833.8 | 申请日: | 2012-11-29 |
公开(公告)号: | CN103092913A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 戚春超 | 申请(专利权)人: | 江苏瑞中数据股份有限公司;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏省南京市鼓*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 迭代式 朴素 贝叶斯 分类 判定 查询 接口 方法 | ||
1.一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,其特征在于,包括下列步骤:
1)从获取到的网页中提取出网页表单,再从网页表单中提取出所有的表单元素属性;
2)运用启发式判定规则、结合步骤1)中提取的网页表单以及网页表单中的表单元素属性,对获取到的网页进行判定,将判定结果中不属于深网查询接口的网页直接排除,其中所述启发式判定规则是利用事先归纳的不符合深网查询接口的特征与某网页进行比对、如该网页中含有事先归纳的不符合深网查询接口的特征则判定该网页不属于深网查询接口的规则;
3)利用迭代式朴素贝叶斯分类器对步骤2)中未被排除的网页进行判定,其中该迭代式朴素贝叶斯分类器通过采用Adaboost迭代算法将多个朴素贝叶斯分类器集合而获得;
4)依据步骤3)中的判定结果得出网页是否属于深网查询接口。
2.根据权利要求1所述的一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,其特征在于,所述启发式判定规则包括:如果网页中没有出现<FORM>标签或有<FORM>标签但没有TEXT控件,或者网页表单中含有PASSWORD控件,或者网页表单中含有TEXTAREA控件,或者网页表单中只有一个TEXT控件同时伴随着出现“搜索”、“高级搜索”、“search”、“query”的关键词且TEXT控件的maxlength属性值大于等于100,或者网页表单中的控件总数少于三个,或者网页代码文件头中出现的<title></title>标记中的内容,则判定该网页不属于深网查询接口。
3.根据权利要求1所述的一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,其特征在于,所述通过采用Adaboos t迭代算法将多个朴素贝叶斯分类器集合而获得迭代式朴素贝叶斯分类器的过程为:
首先,将事先获取的深网查询接口网页和非深网查询接口网页组成样本集,其中深网查询接口网页数量占样本总数的45%-55%,设X为样本空间,Y为样本类别标识集合,Y={-1,+1},则S={{xi,yi}|i=1,2,…,m}形成样本训练集,其中xi∈X,yi∈Y,m为样本个数;
然后,进行多轮迭代获得迭代式朴素贝叶斯分类器,设T为总的迭代次数,t代表每轮迭代的次数,t=1,2,...,T,Dt代表每轮迭代时的样本分布,Dt(i)代表在第t轮迭代时的样本(xi,yi)的权值,并将第一轮迭代时的样本(xi,yi)的权值D1(i)初始化为则在每轮迭代开始时先根据每轮迭代时的样本(xi,yi)的权值Dt(i)对样本训练集S进行随机抽样并以抽取的样本组成训练集St、接着在训练集St训练出每轮的朴素贝叶斯分类器ht(x),此时若该轮迭代次数t不等于总的迭代次数T,则利用每轮的朴素贝叶斯分类器ht(x)对样本训练集S中的所有样本进行分类并产生每轮的误差再按公式(1)计算出下一轮迭代时的样本(xi,yi)的权值并进行下一轮迭代,若该轮迭代次数t等于总的迭代次数T,则按公式(2)计算出最终的迭代式朴素贝叶斯分类器,
其中,公式(1)、公式(2)中,
4.根据权利要求3所述的一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,其特征在于,所述总的迭代次数T为10。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏瑞中数据股份有限公司;国家电网公司,未经江苏瑞中数据股份有限公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210499833.8/1.html,转载请声明来源钻瓜专利网。