[发明专利]一种钓鱼网站鉴别系统和方法有效
申请号: | 201310477276.4 | 申请日: | 2013-10-12 |
公开(公告)号: | CN103544436B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 张巍;姜青山 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F17/30 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙)44316 | 代理人: | 沈祖锋,郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 钓鱼 网站 鉴别 系统 方法 | ||
1.一种钓鱼网站鉴别系统,其特征在于,包括:
页面爬取模块,用于爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;
特征提取模块,其和所述页面爬取模块相连接,用于提取所述网站的页面特征词、内/外链接数量之比及排名信息;
网页关系建模模块,其和所述特征提取模块相连接,用于根据所述页面特征词获取所述网站和黑/白名单的关系;
决策树分类模块,其和所述网页关系建模模块相连接,用于将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及
鉴别模块,其和所述决策树训练模块及所述网页关系建模模块分别相连接,用于保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。
2.如权利要求1所述的钓鱼网站鉴别方法,其特征在于,所述网站包括所述已知网站和所述未知网站。
3.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述页面爬取模块使用网络爬虫技术爬取所述网站的页面的所有内容,获取网站源代码。
4.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块包括特征词提取子模块、特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块;所述特征词提取子模块对所述页面爬取模块提取出的中文文字进行分词;所述特征词频率计算子模块根据所述特征词提取子模块获取的特征词向量,计算网页出现所述特征词向量中每一个特征词的频率;所述链接特征提取子模块从所述页面爬取模块获取的网站源代码中,计算内/外链接数量之比;所述网站排名特征提取子模块将网站的排名信息作为网页的一个特征向量。
5.如权利要求4所述的钓鱼网站鉴别系统,其特征在于,所述网页关系建模模块根据所述特征词提取子模块提取的特征词分别与白名单和黑名单的共有词之间的关系来获取所述网站和和黑/白名单的关系。
6.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述决策树分类模块采用C4.5决策树算法。
7.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块和所述页面爬取模块之间、所述网页关系建模模块和所述特征提取模块之间、所述决策树分类模块和所述网页关系建模模块之间、所述鉴别模块和所述决策树训练模块之间以及所述鉴别模块和所述网页关系建模模块之间为电性连接、数据连接或通信连接。
8.一种钓鱼网站鉴别方法,其特征在于,包括如下步骤:
S11、利用页面爬取模块爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;
S13、利用特征提取模块提取所述网站的页面特征词、内/外链接数量之比及排名信息;
S15、利用网页关系建模模块根据所述页面特征词获取所述网站和黑/白名单的关系;
S17、利用决策树分类模块将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及
S19、利用鉴别模块保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。
9.如权利要求8所述的钓鱼网站鉴别方法,其特征在于,步骤S11中,所述网站包括所述已知网站和所述未知网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310477276.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据驱动的自适应接收链分集处理
- 下一篇:一种控制方法及电子设备