[发明专利]一种基于网页关联性的钓鱼检测方法有效
申请号: | 201110020890.9 | 申请日: | 2011-01-18 |
公开(公告)号: | CN102096781A | 公开(公告)日: | 2011-06-15 |
发明(设计)人: | 张卫丰;田先桃;周国强;张迎周;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F21/00 | 分类号: | G06F21/00;G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 关联性 钓鱼 检测 方法 | ||
1.一种基于网页关联性的钓鱼网页检测方法,其特征在于该方法是以网页之间的关联性和网页整体性为出发点,提取了4个特征:链接关联、搜索关联、文本关联和整体性关联;前3个是侧重文本内容,第4个侧重图像,集合了文本和图像;在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练,优化网页相似性阀值的参数;在钓鱼网页检测阶段,接收特征提取模块传来的特征数据,计算网页之间的相似性,最后根据网页相似性阀值判断钓鱼网页;
在钓鱼网页检测过程中通过提取特征,以此作为钓鱼网页检测的依据,具体实现步骤为:
步骤1).训练阶段数据准备过程:采集至少100个可能被钓鱼网页模仿的正规网站页面,并提取出特征组织成样本数据;采集至少100个钓鱼网站页面以及100个普通网页,并提取特征组织成测试数据;
特征由以下四个数值属性组成:
链接关联:网页1与网页2的链接关联是指网页1中指向网页2的链接个数与网页1的总链接个数的比值;反过来,网页2与网页1的链接关联是指网页2中指向网页1的链接个数与网页2的总链接个数的比值;很明显,两者之间的关联性并不是对称的;
搜索关联:从网页1获得关键词,然后在第三方搜索引擎上搜索,得到网页2的排名,总的搜索结果个数减去网页2的排名,再加1与总的搜索结果个数的比值即为网页1和网页2的搜索关联,如果没有网页2的排名则排名为0,同理,两者之间的关联性也并不是对称的;
文本关联:网页1与网页2的文本关联是指网页1和网页2共有的单词集个数与网页1的总单词集个数的比值,同样,两者之间的关联性仍然不是对称的;
整体性关联:首先对网页进行压缩,然后用正规化压缩距离计算网页时间的相似度,值越小说明越匹配。
步骤2)测试数据集的标定过程:将测试数据中的所有普通网页标注为“false”,表示非钓鱼网页;再将测试数据中的所有钓鱼网页标注为“true”,表示钓鱼网页;
步骤3)对所有测试网页的特征在训练库中查找相似的特征,并统计找到每一个测试网页在库中最相似的网页,计算它们的相似度作为测试网页与库的相似度;
步骤4)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块,遍历所有可能的相似度阀值,找到一个值T使得相似度大于T的钓鱼网页数量与相似度小于T的钓鱼网页数量差值最大,T作为钓鱼网页相似度阀值;
步骤5)对疑似钓鱼网页的检测过程:对可疑网页采集特征;用可疑网页的特征在训练库中查找相似的特征,并统计找到可疑网页在库中最相似的网页,计算它们的相似度作为可疑网页与库的相似度;将待可疑网页的与库的相似度送入训练好的机器学习匹配模块进行预测,预测所得结果作为本方案最终的钓鱼网站检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110020890.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种贴标机自动抬升及旋转机构
- 下一篇:一种装盒机旋转调节装置