[发明专利]一种钓鱼链接检测方法及系统在审
申请号: | 201911243734.1 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111181922A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 魏海宇;王炳来;刘庆林;何济中 | 申请(专利权)人: | 北京中睿天下信息技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24;G06K9/62;G06N3/08 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 盛明星 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 钓鱼 链接 检测 方法 系统 | ||
1.一种钓鱼链接检测方法,其特征在于,所述方法包括:
将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;
若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。
2.如权利要求1所述的方法,其特征在于,所述网页内容特征是基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;
去除网页HTML文本中的停用词;
使用词频-逆文档频率法TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
3.如权利要求1所述的方法,其特征在于,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;
所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。
4.如权利要求1所述的方法,其特征在于,所述钓鱼链接检测模型是基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
5.如权利要求1所述的方法,其特征在于,还包括:所述钓鱼链接检测模型使用如下公式进行检测:
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
6.一种钓鱼链接检测系统,其特征在于,所述系统包括:
钓鱼链接检测模块,用于将待检测的URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;
钓鱼链接检测模型生成模块,用于基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练;
网页文本标签分类模块,用于基于极限学习机分类器对所述网页提取特征进行分类,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;
钓鱼链接检测结果输出模块,用于将所述钓鱼链接检测模块结果为是时,将所述待检测URL为钓鱼链接的结果输出;将所述钓鱼链接检测模块结果为非时,将所述待检测URL为非钓鱼链接的结果输出。
7.如权利要求6所述的系统,其特征在于,所述网页内容特征是基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;
去除网页HTML文本中的停用词;
使用TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
8.如权利要求6所述的系统,其特征在于,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;
所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。
9.如权利要求6所述的系统,其特征在于,所述钓鱼链接检测模型生成模块具体用于:
基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
10.如权利要求6所述的系统,其特征在于,所述钓鱼链接检测模块具体用于:
所述钓鱼链接检测模型使用如下公式进行检测:
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中睿天下信息技术有限公司,未经北京中睿天下信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911243734.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于人脸特征识别主播的方法及装置
- 下一篇:一种数据同步方法及装置