[发明专利]恶意网站快速识别方法有效
申请号: | 201910177897.8 | 申请日: | 2019-03-10 |
公开(公告)号: | CN109922065B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 古元;陈耀远;陈思萌;毛华阳;华仲锋;于龙;林飞;王娜;熊翱 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司;北京邮电大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意 网站 快速 识别 方法 | ||
1.恶意网站快速识别方法,其特征在于包含词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤:
1)词库匹配筛选步骤
对于恶意网站,利用词库的快速匹配,初步筛选出含有恶意信息的网站;
①构建词库
编制恶意词语,人工收集100个恶意信息词;
导入维基百科公开的语料;
应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语,针对每个恶意词语求取50个近义词,生成扩充的恶意词语;
已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库;
②网页文本提取
由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容;
③词库匹配
由词库匹配器将网页文本内容与恶意词的词库进行匹配,当网页文本内容包含恶意词的词库中的恶意词时,判定为可疑网站;当网页文本内容未包含恶意词的词库中的恶意词时,判定为正常网站;
④将可疑网站的网址作为被测网站传送给JS提取器;
2)前端劫持判别筛选
①通过JS提取器得到被测网站所有JS数据,:
②将被测网站所有JS数据输入远程IP归属地判别器,远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码,当不同IP归属地访问同一网站的同一界面时产生不同跳转时,判定网站遭遇网络劫持;当不同IP归属地访问同一网站的同一界面时产生相同跳转时,判定网站未遭遇网络劫持;
③将被测网站所有JS数据输入Referer关键字判别器,Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站,当爬虫去访问时会调用browserRedirect()函数,browserRedirect()函数用来实现跳转判断,当browserRedirect()函数调用与直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
④将被测网站所有JS数据输入user-agent关键字判别器,user-agent关键字判别器通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站,同时通过web直接访问被测网站,当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
⑤远程IP归属地判别器,Referer关键字判别器,user-agent关键字判别器组成前端劫持判别系统;前端劫持判别系统将遭遇网络劫持的网站直接判定为遭遇劫持,前端劫持判别系统将未遭遇网络劫持的网站直接判定为未遭遇劫持,前端劫持判别系统将未遭遇劫持的网站的网址传送给恶意信息判别器的可见区域提取器和不可见区域文本提取器;
3)可见区域恶意信息的判别筛选
①提取网页可见区域
由可见区域提取器得到未遭遇劫持的网站的网页源码的JS数据集合和网站框架源码的JS数据集合,其中包括JS框架F与文本集合D;每个JS框架中都含有标题及若干script元素,提取网页可见区域的具体步骤为:
a) 通过Xpath元素定位网页JS框架F中标题的位置,将其作为提取区域的起点,以10个元素为步长确定提取区域的末点,若提取区域大小不足10则以最后一个元素为末点,并求出可见区域的中点;
b) 获得可见区域的位置后,便得到可见区域的起点、中点、末点的script元素、、;
c) 遍历网页中的n个JS数据集合,n为JS数据的总数,寻找相同的script元素、、;
d) 当在第i个JS框架 中找到了相同元素、、,则提取第i个JS框架中文本内容所对应元素区域的内容至,此部分内容为网页响应的页面显示内容,即为可见区域网页内容d;
② 可见区域恶意信息分析
a) 建立分类器
标注恶意和非恶意网站文本内容的样本x,设网站类别为c={c1,c2},其中恶意网站为c1,正规网站为c2;训练贝叶斯分类模型,生成分类器,通过分类器可以求出网站文本内容属于两个类别的概率,;
b) 对可见区域内容分类
将未遭遇劫持的网站的可见区域网页内容d输入分类器中,求得可见区域网页内容d属于恶意网站的概率;;
c) 由不可见区域文本提取器提取未遭遇劫持的网站的不可见区域的文本内容,将不可见区域的文本内容输入分类器,求得不可见区域的文本内容s属于恶意网站的概率,;
d) 计算恶意信息评价函数f(s,d):,
式中和为重要性权值,设置=0.7,=0.3;其中;
上式中v代表网站中的文本内容,代表文本属于恶意网站类的概率,由分类器求得,用来判断网站文本v是否属于恶意网站c1类所包含的文本;当,则表明网站文本v属于恶意网站c1类,小于0时网站文本v属于正规网站c2类;
e) 计算得到网站的恶意信息评分f(s,d)后,由阈值设定器设置阈值thr来判别恶意网站;当f(s,d)大于thr时,判定为恶意网站;当f(s,d)小于thr时为正规网站;阈值的默认设置为0.7。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司;北京邮电大学,未经北京亚鸿世纪科技发展有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910177897.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能锁管理系统
- 下一篇:一种通信网络中基于时隙特征的动态水印嵌入及检测方法