[发明专利]一种基于网站特征的贷款类诈骗网站的识别方法在审
申请号: | 202010532225.7 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111680220A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 马敏燕;沈颖彦;张震;陈形;王蓓;陈浏天;胡少杰;陈恒超;仇晨悦;季莹莹;马骏野 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心浙江分中心 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35;G06F40/289;G06F40/126;H04L29/12 |
代理公司: | 北京金蓄专利代理有限公司 11544 | 代理人: | 许秀惠 |
地址: | 310009 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网站 特征 贷款 诈骗 识别 方法 | ||
1.一种基于网站特征的贷款类诈骗网站的识别方法,其特征在于,包括:
识别IP归属地,并筛选出IP地址为非中国大陆的网站;
对筛选出的网站的HTML进行解析,提取手机端网页特征,筛选出手机端的网站;
在筛选出的手机端的网站中再筛选出有中文编码的网站;
对筛选出有中文编码的网站的文案字符进行分词;
利用关键词库,对分词的结果进行聚类,计算命中词汇的权重;
筛选出权重较高的网站。
2.根据权利要求1所述的一种基于网站特征的贷款类诈骗网站的识别方法,其特征在于,在筛选出的手机端的网站中再筛选出有中文编码的网站的过程包括:
去除筛选出的手机端网站HTML的标签,提取全部文案字符;
对提取出的文案字符进行Unincode编码;
识别出简体中文对应的Unincode编码,筛选出有中文编码的网站。
3.根据权利要求2所述的一种基于网站特征的贷款类诈骗网站的识别方法,其特征在于,该方法之前还包括:
确定网站数据;
构建关键词库。
4.根据权利要求3所述的一种基于网站特征的贷款类诈骗网站的识别方法,其特征在于,所述网站数据包括:域名、IP地址、IP定位地址、网站原始HTML。
5.根据权利要求4所述的一种基于网站特征的贷款类诈骗网站的识别方法,其特征在于,所述构建关键词库的过程包括:
自贷款诈骗网站的中文文本中提取出关键词汇;
为提取出的每个关键词汇标记权重,并形成关键词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心浙江分中心,未经国家计算机网络与信息安全管理中心浙江分中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010532225.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环保木门连接装置
- 下一篇:一种利用可伸缩挡块实现自动排水的空压机储气罐