[发明专利]基于机器学习的钓鱼网页检测方法在审

申请号：	201910705624.6	申请日：	2019-08-01
公开（公告）号：	CN110572359A	公开（公告）日：	2019-12-13
发明（设计）人：	范如;范渊	申请（专利权）人：	杭州安恒信息技术股份有限公司
主分类号：	H04L29/06	分类号：	H04L29/06;G06F16/955;G06F16/958
代理公司：	33212 杭州中成专利事务所有限公司	代理人：	金祺;周世骏
地址：	310051 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于机器学习的钓鱼网页检测方法：包括以下步骤：S1、判断待测网页是否为合法网页，如不是，执行步骤S2；S2、提取步骤S1所得网页的URL；S3、基于逻辑回归算法的钓鱼网页检测方法，判断步骤2得到网页是合法网页还是钓鱼网页。本发明提供了一种基于机器学习的钓鱼网页检测算法，采用了构建网页特征集合，网页过滤技术以及逻辑回归分类算法来实现对钓鱼网页的检测。该检测方法可以有效减少合法网页的检测数量，并实现了对逃逸技术的钓鱼网页的良好检测。
搜索关键词：	钓鱼网页检测钓鱼网页合法网页检测基于机器逻辑回归网页算法分类算法判断步骤网页过滤网页特征有效减少构建集合学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于机器学习的钓鱼网页检测方法，其特征在于：包括以下步骤：/nS1、判断待测网页是否为合法网页，如不是，执行步骤S2；/nS2、提取步骤S1所得网页的URL；/n以非字母、非数字但不包括“_”和“-”的字符号切分URL，得到经切分后的URL的词汇集合；/n若在URL路径词汇中存在钓鱼攻击目标词，同时该钓鱼攻击目标词与该URL的各级域名标签均不相同，则判定该网页为钓鱼网页；/n若同一字符串中存在两个及两个以上不同的钓鱼攻击目标词，则判定该网页为钓鱼网页；/n若经切分后的URL的词汇集合中并不存在钓鱼攻击目标词，但忽略字符串内部的数字字符后，若可发现钓鱼攻击目标词，则判定该网页为钓鱼网页；/n若经切分后的URL的词汇集合并不存在钓鱼攻击目标词，然后忽略字符串内部的数字字符后也未发现钓鱼攻击目标词，则重新切分，新的URL词汇集合中发现钓鱼攻击目标词或钓鱼攻击目标词字符串子串，则判定该网页为钓鱼网页；/n如果未判定为钓鱼网页，执行步骤S3；/nS3、基于逻辑回归算法的钓鱼网页检测方法，判断步骤2得到网页是合法网页还是钓鱼网页。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司，未经杭州安恒信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910705624.6/，转载请声明来源钻瓜专利网。

上一篇：数据泄露处理方法、装置、电子设备及存储介质
下一篇：一种GIS空间数据协同编辑的方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于机器学习的钓鱼网页检测方法在审

专利文献下载