[发明专利]一种钓鱼网站鉴别系统和方法有效
申请号: | 201310477276.4 | 申请日: | 2013-10-12 |
公开(公告)号: | CN103544436B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 张巍;姜青山 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F17/30 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙)44316 | 代理人: | 沈祖锋,郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种钓鱼网站鉴别系统,包括页面爬取模块、特征提取模块、网页关系建模模块、决策树分类模块及鉴别模块;页面爬取模块爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;特征提取模块提取网站的页面特征词、内/外链接数量之比及排名信息;网页关系建模模块根据所述页面特征词获取所述网站和黑/白名单的关系;决策树分类模块使用决策树进行训练,构建决策树分类模型;鉴别模块保存决策树分类模型,并利用决策树分类模型对未知网站进行鉴别,判断是否为钓鱼网站。可有效提高分类鉴别的准确性,且可克服基于黑名单的检测技术只能识别在黑名单中的钓鱼网站的局限性。另外提供钓鱼网站鉴别方法。 | ||
搜索关键词: | 一种 钓鱼 网站 鉴别 系统 方法 | ||
【主权项】:
一种钓鱼网站鉴别系统,其特征在于,包括:页面爬取模块,通过建立HTTP链接,爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;特征提取模块,其和所述页面爬取模块相连接,用于提取所述网站的页面特征词、内/外链接数量之比及排名信息;网页关系建模模块,其和所述特征提取模块相连接,用于根据所述页面特征词获取所述网站和黑/白名单的关系;决策树分类模块,其和所述网页关系建模模块相连接,用于将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及鉴别模块,其和所述决策树分类模块及所述网页关系建模模块分别相连接,用于保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站;所述特征提取模块包括特征词提取子模块、特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块;在训练阶段使用特征词提取子模块、特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块,在测试阶段使用特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块;所述网页关系建模模块根据所述特征词提取子模块提取的特征词分别与白名单和黑名单的共有词之间的关系来获取所述网站和黑/白名单的关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310477276.4/,转载请声明来源钻瓜专利网。
- 上一篇:数据驱动的自适应接收链分集处理
- 下一篇:一种控制方法及电子设备