[发明专利]网页分类方法及装置、存储介质及电子设备有效
申请号: | 201711375002.9 | 申请日: | 2017-12-19 |
公开(公告)号: | CN108134784B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 邹荣珠 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/953;G06F16/955;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟;王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 分类 方法 装置 存储 介质 电子设备 | ||
1.一种网页分类方法,其特征在于,所述方法包括:
从待分类网页的网页元素中提取网页特征;
将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到所述待分类网页的初级类别,不同的初始分类器识别不同的类别的恶意网页;每一个所述初始分类器由其对应的网页元素中的网页特征训练得到;
将每个所述初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别。
2.根据权利要求1所述的方法,其特征在于,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
获取第一元素属性对应的网页特征,所述第一元素属性对应的网页特征是可以确定所述待分类网页是否为欺诈类型网页的特征;
将所述第一元素属性对应的网页特征所组成的特征向量输入至欺诈网页分类器,以得到所述待分类网页的第一初始类别,所述第一初始类别为正常网页、钓鱼网页、欺诈网页或仿冒网页。
3.根据权利要求1所述的方法,其特征在于,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
获取第二元素属性对应的网页特征;所述第二元素属性对应的网页特征是从所述待分类网页的源代码中提取的,可确定所述待分类网页是否为恶意入侵类型网页的特征;
将所述第二元素属性对应的网页特征所组成的特征向量输入至恶意入侵网页分类器,以得到所述待分类网页的第二初始类别,所述第二初始类别为恶意广告网页、黑客入侵网页、木马网页或正常网页。
4.根据权利要求1所述的方法,其特征在于,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
获取第三元素属性对应的网页特征,所述第三元素属性对应的网页特征是可确定所述待分类网页是否为不合规类型网页的特征;
将所述第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器,以得到所述待分类网页的第三初始类别,所述第三初始类别为正常网页、色情网页、非法博彩网页或违反法律法规网页。
5.根据权利要求4所述的方法,其特征在于,所述不合规网页分类器包含至少一个子分类器;
所述将第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器,以得到所述待分类网页的第三初始类别包括:
确定每个子分类器对应的网页特征,所述每个子分类器对应的网页特征为所述第三元素属性对应的网页特征中指定的一种或几种;
将每个子分类器对应的网页特征组成特征向量并输入至子分类器中,得到所述待分类网页的多个预测类别;
将所述预测类别中预测概率值最高的预测类别作为所述待分类网页的第三初始类别。
6.根据权利要求1-5任一项 所述的方法,其特征在于,所述将每个初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别,包括:
将每个初始分类器的分类器编号,结合其对应的初级类别输入至所述集成分类器,由所述集成分类器依据预设的分析算法,计算每个初级类别的出现概率,将出现概率最高的初级类别作为所述待分类网页的网页类别。
7.一种网页分类装置,其特征在于,包括:
提取单元,用于从待分类网页的网页元素中提取网页特征;
发送单元,用于将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到所述待分类网页的初级类别,不同的初始分类器识别不同的类别的恶意网页;每一个所述初始分类器由其对应的网页元素中的网页特征训练得到;
汇总单元,用于将每个所述初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别。
8.根据权利要求7所述的装置,其特征在于,所述汇总单元包括:
输入子单元,用于将每个初始分类器的分类编号,结合其对应的初级类别输入至集成分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711375002.9/1.html,转载请声明来源钻瓜专利网。