[发明专利]一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法无效
申请号: | 201210499833.8 | 申请日: | 2012-11-29 |
公开(公告)号: | CN103092913A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 戚春超 | 申请(专利权)人: | 江苏瑞中数据股份有限公司;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏省南京市鼓*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,属于网络技术领域。本发明先从获取到的网页中提取出网页表单,再从网页表单中提取出所有的表单元素属性,然后运用启发式判定规则将不符合深网查询接口的表单特征的网页直接排除;接着对于未被排除的网页利用通过训练得到的迭代式朴素贝叶斯分类器对该网页进行判定,最后依据判定结果得出该网页是否属于深网查询接口。本发明实现了深网查询接口的有效判定,在该方法无论是在查全率还是查准率上和现有技术相比都有所提高。 | ||
搜索关键词: | 一种 采用 迭代式 朴素 贝叶斯 分类 判定 查询 接口 方法 | ||
【主权项】:
一种采用迭代式朴素贝叶斯分类器判定深网查询接口的方法,其特征在于,包括下列步骤:1)从获取到的网页中提取出网页表单,再从网页表单中提取出所有的表单元素属性;2)运用启发式判定规则、结合步骤1)中提取的网页表单以及网页表单中的表单元素属性,对获取到的网页进行判定,将判定结果中不属于深网查询接口的网页直接排除,其中所述启发式判定规则是利用事先归纳的不符合深网查询接口的特征与某网页进行比对、如该网页中含有事先归纳的不符合深网查询接口的特征则判定该网页不属于深网查询接口的规则;3)利用迭代式朴素贝叶斯分类器对步骤2)中未被排除的网页进行判定,其中该迭代式朴素贝叶斯分类器通过采用Adaboost迭代算法将多个朴素贝叶斯分类器集合而获得;4)依据步骤3)中的判定结果得出网页是否属于深网查询接口。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏瑞中数据股份有限公司;国家电网公司,未经江苏瑞中数据股份有限公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210499833.8/,转载请声明来源钻瓜专利网。