[发明专利]一种网站识别方法及识别系统有效
申请号: | 201810696532.1 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108875060B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 余刚 | 申请(专利权)人: | 成都市映潮科技股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 成都创新引擎知识产权代理有限公司 51249 | 代理人: | 向群 |
地址: | 610041 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 识别 方法 系统 | ||
本发明提供了一种网站识别方法及识别系统,该方法包括:采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;还包括:获取待识别网站网址;利用所述随机森林模型确定所述待识别网站网址的网站类型。本方案能提高识别网站类型的准确度。
技术领域
本发明涉及计算机技术领域,特别涉及一种网站识别方法及识别系统。
背景技术
随着计算机技术的发展,各种电商平台迅速发展,为人们的生活提供了极大的便利。随之而来的,如何对多种电商平台进行有效的管理也成为人们关注的重要问题。
对电商平台进行有效管理的前提是,从互联中众多的网站中筛选出电商平台对应的网址。目前,主要通过关键词匹配的方式筛选电商网址,即将电商平台的名称作为其对应的关键词,从众多网站中筛选电商网址。然而,许多电商网址中并未包括该电商平台的名称,或者仅采用了名称中的某些字母,因此,上述电商网址的筛选方式的匹配精确度较差。
发明内容
本发明实施例提供了一种网站识别方法及识别系统,能提高识别网站网址的准确度。
第一方面,本发明实施例提供了一种网站识别方法,包括:
采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;
根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;
根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;
还包括:
获取待识别网站网址;
利用所述随机森林模型确定所述待识别网站网址的网站类型。
可选地,
所述根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型,包括:
从所述至少三个样本网址中提取至少两个训练网址;
A1:循环执行至少两次A2至A5,构建至少两棵决策树;
A2:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;
A3:从所述至少两个特征类型中确定至少一个目标特征类型;
A4:针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;
A5:根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;
根据构建出的各个所述决策树,构建所述随机森林模型。
可选地,
当所述目标特征类型的数量为至少两个时,
所述A5,包括:
确定各个所述目标特征类型的排列顺序;
将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:
确定所述当前特征类型对应的标准特征值;
将包括每一个所述目标训练网址的集合作为根节点;
将所述根节点作为当前节点,循环执行B1至B3,直至各个所述目标特征类型均被选择:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都市映潮科技股份有限公司,未经成都市映潮科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810696532.1/2.html,转载请声明来源钻瓜专利网。