[发明专利]一种网站识别方法及识别系统有效
申请号: | 201810696532.1 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108875060B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 余刚 | 申请(专利权)人: | 成都市映潮科技股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 成都创新引擎知识产权代理有限公司 51249 | 代理人: | 向群 |
地址: | 610041 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 识别 方法 系统 | ||
1.一种网站识别方法,其特征在于,包括:
采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;
根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;
根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;
还包括:
获取待识别网站网址;
利用所述随机森林模型确定所述待识别网站网址的网站类型;
其中,所述根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型,包括:
从所述至少三个样本网址中提取至少两个训练网址;
A1:循环执行至少两次A2至A5,构建至少两棵决策树;
A2:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;
A3:从所述至少两个特征类型中确定至少一个目标特征类型;
A4:针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;
A5:根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;
根据构建出的各个所述决策树,构建所述随机森林模型;
而且,当所述目标特征类型的数量为至少两个时,
所述A5,包括:
确定各个所述目标特征类型的排列顺序;
将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:
确定所述当前特征类型对应的标准特征值;
将包括每一个所述目标训练网址的集合作为根节点;
将所述根节点作为当前节点,循环执行B1至B3,直至各个所述目标特征类型均被选择;
B1:根据各个所述目标训练网址对应于所述当前特征类型的目标特征值,将所述目标特征值大于所述标准特征值的目标训练网址作为所述当前节点的第一子节点,将所述目标特征值不大于所述标准特征值的目标训练网址作为所述当前节点的第二子节点;
B2:将所述排列顺序中位于所述当前特征类型下一位的目标特征类型选择为当前特征类型;
B3:依次将所述第一子节点和所述第二子节点作为所述当前节点,执行B1;
将所述根节点以及所述根节点对应的子节点组合成所述决策树。
2.根据权利要求1所述的方法,其特征在于,
所述根据构建出的各个所述决策树,构建所述随机森林模型,包括:
将各个所述决策树组合成随机森林分类器;
将所述至少三个样本网址中未被提取为所述训练网址的样本网址作为验证网址;
利用所述随机森林分类器确定各个所述验证网址分别对应的当前网站类型;
根据每一个所述验证网址对应的当前网站类型以及预设的标准网站类型,确定所述随机森林分类器的精确度;
当所述精确度大于预设阈值时,将所述随机森林分类器作为所述随机森林模型;
和/或,
所述利用所述随机森林模型确定所述待识别网站网址的网站类型,包括:
确定所述待识别网站网址对应于每一个所述特征类型的待识别特征值;
根据所述待识别特征值,利用每一个所述决策树确定所述待识别网站网址的待测网站类型;
根据确定出的各个所述待测网站类型,确定所述待识别网站网址的网站类型。
3.根据权利要求1所述的方法,其特征在于,
在所述利用所述随机森林模型确定所述待识别网站网址的网站类型之后,进一步包括:
确定所述网站类型是否与预设的所述待识别网站网址的标准网站类型相同,如果否,将所述待识别网站网址作为所述训练网址,执行A1。
4.根据权利要求1至3任一所述的方法,其特征在于,
应用于电商网站类型的识别;
所述特征类型包括:价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量中的任意两种或多种;
所述利用所述随机森林模型确定所述待识别网站网址的网站类型,包括:
确定所述待识别网站网址的网站类型为电商类或非电商类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都市映潮科技股份有限公司,未经成都市映潮科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810696532.1/1.html,转载请声明来源钻瓜专利网。