[发明专利]一种基于最近邻及相似度测量检测钓鱼网页的方法无效
申请号: | 201110112442.1 | 申请日: | 2011-04-29 |
公开(公告)号: | CN102170447A | 公开(公告)日: | 2011-08-31 |
发明(设计)人: | 张卫丰;李涛贤;周国强;张迎周;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/26;G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于最近邻及相似度测量检测钓鱼网页的方法是以网页整体图像的图片为出发点,提取其尺度不变转化特征:在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练,优化网页相似性阈值的参数;在钓鱼网页检测阶段,接收特征提取模块传来的特征数据,计算网页之间的相似度,最后根据网页相似性阈值判断钓鱼网页;另外,还加入了一种分类方法——贝叶斯可添加回归树,对可疑网页进行预测;在钓鱼网页检测过程中通过提取特征,以此作为钓鱼网页检测的依据,在保证高准确率的同时,显著减小网页检测时间。 | ||
搜索关键词: | 一种 基于 近邻 相似 测量 检测 钓鱼 网页 方法 | ||
【主权项】:
一种基于最近邻及相似度测量检测钓鱼网页的方法,其特征在于该方法是以网页整体图像的图片为出发点,提取其尺度不变转化特征:在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练,优化网页相似性阈值的参数;在钓鱼网页检测阶段,接收特征提取模块传来的特征数据,计算网页之间的相似度,最后根据网页相似性阈值判断钓鱼网页;另外,还加入了一种分类方法——贝叶斯可添加回归树,对可疑网页进行预测;在钓鱼网页检测过程中通过提取特征,以此作为钓鱼网页检测的依据,具体实现步骤为:步骤1)训练阶段数据准备过程:采集可能被钓鱼网页模仿的正规网站页面,并用图像特征提取算法提取网页图片的特征组织成样本数据;采集钓鱼网站页面以及普通网页,并提取尺度不变转化特征组织成检测数据;步骤2)待检测数据集的标定过程:将待检测数据中的所有普通网页标注为“0”,表示非钓鱼网页;再将待检测数据中的所有钓鱼网页标注为“1”,表示钓鱼网页;步骤3)对所有待检测网页的特征在训练库中查找相似的特征,并统计找到每一个检测网页在库中最相似的网页,计算它们的相似度作为待检测网页最终的相似度;步骤4)将所有待检测网页的标注以及待检测网页与库的相似度送入机器学习匹配模块,遍历所有可能的相似度阈值,找到一个值使得相似度大于这个值的钓鱼网页数量与相似度小于这个值的钓鱼网页数量差值最大,那么这个值就可以作为钓鱼网页相似度阈值;步骤5)对疑似钓鱼网页的检测过程:对可疑网页采集特征;用可疑网页的特征在训练库中查找相似的特征,并统计找到可疑网页在库中最相似的网页,以它们的相似度作为可疑网页最终的相似度;将待可疑网页与库的相似度送入训练好的匹配模块进行预测,预测所得结果作为本方案最终的钓鱼网站检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110112442.1/,转载请声明来源钻瓜专利网。