[发明专利]网页分类方法及装置、存储介质及电子设备有效
申请号: | 201711375002.9 | 申请日: | 2017-12-19 |
公开(公告)号: | CN108134784B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 邹荣珠 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/953;G06F16/955;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟;王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 分类 方法 装置 存储 介质 电子设备 | ||
本发明提供了一种网页分类方法,在用户需要对网页进行访问时,对访问的网页进行分类,从网页的网页元素中提取网页特征,并将提取的各个网页特征发送至与其对应的初始分类器,本发明中,应用了多个不同的初始分类器,每个初始分类器可以对恶意网页进行识别,且每个初始分类器所识别的恶意网页的类别不同,各个初始分类器对接收到的各个网页特征进行处理,得到网页的初级类别,然后将各个初级类别在集成分类器中进行分析,以最终确定网页的网页类别,进而可以使用户根据待访问网页的网页类别,决定是否对网页进行访问,提升了用户访问网页的安全性。
技术领域
本发明涉及互联网技术领域,特别涉及一种网页分类方法及装置、存储介质及电子设备。
背景技术
随着网络资源的不断丰富,人们通过网页获取资源和信息的需求不断增多。用户可以通过访问不同网站的网页,阅读新闻信息、进行购物或者观看自己喜爱的视频,在扩展了个人信息量来源的同时,也丰富了个人生活。
与此同时,一些不法分子利用网页进行的恶意行为也呈爆发增长的趋势。不法分子在用户访问网页时,利用具有恶意行为的恶意网页,破坏用户的访问过程,对用户的财产、个人信息等造成了不同程度的损害,降低了用户对网页访问的安全性。
发明内容
本发明所要解决的技术问题是提供一种网页分类方法,对用户待访问的网页进行分类,以确定待访问网页的网页类别,避免用户误访问恶意网页,提高用户对网页访问的安全性。
本发明还提供了一种网页分类装置,用以保证上述方法在实际中的实现及应用。
一种网页分类方法,所述方法包括:
从待分类网页的网页元素中提取网页特征;
将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到所述待分类网页的初级类别,不同的初始分类器识别不同的类别的恶意网页;每一个所述初始分类器由其对应的网页元素中的网页特征训练得到;
将每个所述初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别。
上述的方法,可选的,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
获取第一元素属性对应的网页特征,所述第一元素属性对应的网页特征是可以确定所述待分类网页是否为欺诈类型网页的特征;
将所述第一元素属性对应的网页特征所组成的特征向量输入至欺诈网页分类器,以得到所述待分类网页的第一初始类别,所述第一初始类别为正常网页、钓鱼网页、欺诈网页或仿冒网页。
上述的方法,可选的,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
获取第二元素属性对应的网页特征;所述第二元素属性对应的网页特征是从所述待分类网页的源代码中提取的,可确定所述待分类网页是否为恶意入侵类型网页的特征;
将所述第二元素属性对应的网页特征所组成的特征向量输入至恶意入侵网页分类器,以得到所述待分类网页的第二初始类别,所述第二初始类别为恶意广告网页、黑客入侵网页、木马网页或正常网页。
上述的方法,可选的,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
获取第三元素属性对应的网页特征,所述第三元素属性对应的网页特征是可确定所述待分类网页是否为不合规类型网页的特征;
将所述第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器,以得到所述待分类网页的第三初始类别,所述第三初始类别为正常网页、色情网页、非法博彩网页或违反法律法规网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711375002.9/2.html,转载请声明来源钻瓜专利网。