[发明专利]一种钓鱼链接检测方法及系统在审
申请号: | 201911243734.1 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111181922A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 魏海宇;王炳来;刘庆林;何济中 | 申请(专利权)人: | 北京中睿天下信息技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24;G06K9/62;G06N3/08 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 盛明星 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 钓鱼 链接 检测 方法 系统 | ||
本申请实施例公开了一种钓鱼链接检测方法和系统,通过将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。可以精确检测出钓鱼链接。
技术领域
本申请实施例涉及网络安全技术领域,具体涉及一种钓鱼链接检测方法及系统。
背景技术
所谓“钓鱼链接”是指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料。钓鱼链接一般通过电子邮件传播,此类邮件中一个经过伪装的链接将收件人联到钓鱼网站,钓鱼网站通常伪装成为银行网站,窃取访问者提交的账号和密码信息。
为维护财产和网络安全,如何精准的检测出钓鱼链接,是亟待解决的问题。
发明内容
为此,本申请实施例提供一种钓鱼链接检测方法及系统,可以精确检测出钓鱼链接。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,本申请实施例提供了一种钓鱼链接检测方法,包括:
将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;
若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。
可选地,所述网页内容特征是特征提取模块基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;
去除网页HTML文本中的停用词;
使用TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
可选地,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;
所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。
可选地,所述钓鱼链接检测模型是基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
可选地,还包括:所述钓鱼链接检测模型使用如下公式进行检测:
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
根据本申请实施例的第二方面,本申请实施例提供了一种钓鱼链接检测系统,包括:
钓鱼链接检测模块,用于将待检测的URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中睿天下信息技术有限公司,未经北京中睿天下信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911243734.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于人脸特征识别主播的方法及装置
- 下一篇:一种数据同步方法及装置