[发明专利]一种识别被篡改网页的方法及装置有效
申请号: | 201210090778.7 | 申请日: | 2012-03-30 |
公开(公告)号: | CN102663060A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 李继峰;赵武 | 申请(专利权)人: | 奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市德权律师事务所 11302 | 代理人: | 刘丽君 |
地址: | 100016 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 篡改 网页 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别是涉及一种识别被篡改网页的方法及装置。
背景技术
随着互联网的迅速发展,网页上提供了足够丰富的内容,供用户在网上查找资料及个人所需要的各种信息。但是,现实中网页内所显示的信息很有可能是已经被黑客篡改后的内容,而并不是客户真正所需要的信息。例如,用户输入某一个查询关键词,打开搜索结果中的某一网页,其中的内容并不是与该关键词相关的内容,而是一些美女或色情的图片,等等。由于这些被篡改的网页给用户的日常浏览造成了不良影响,因此网络安全工具一个很重要的工作就是,需要将网络中存在的一些被篡改的网页识别出来。
现有技术中,通常是通过遍历网页的各个目录的方式来判断是否存在可疑的文件,如果存在,则证明该网页可能被篡改过。对于一个网页而言,实际上对应着一个数据包,在数据包中可能存在多个目录,对各种资源进行分类管理,例如,包含图片、视频、音乐等等目录;黑客在篡改网页时,可能会将篡改后的内容放到其中的某个目录中,或者用篡改后的文件替换某目录中的某文件等等。采用遍历网页的方式识别网页是否被篡改,如果完整的遍历所有的网页可能需要几个小时。因此,目前的判断网页是否被篡改的方法所需要的时间长,占用系统资源量大。
发明内容
本发明提供了一种识别被篡改网页的方法及装置,能够在较短的时间内识别网页是否被篡改。
本发明提供了如下方案:
一种识别被篡改网页的方法,包括:
获取网页搜索结果,所述获取网页搜索结果包括基于预置的关键词向搜索引擎发起搜索请求,获取搜索引擎返回的网页搜索结果,所述预置的关键词为被篡改网页的特征标识;
提取网页搜索结果中的网页链接;
对所述提取的网页链接对应的网页进行加载,获取所述网页链接对应的当前页面内容;
基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析,根据分析结果,识别出被篡改的网页。
其中,所述获取网页搜索结果还包括:
基于所述预置的关键词,向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求,获取页面服务器返回的网页搜索结果。
其中,所述提取网页搜索结果中的网页链接包括:
对网页搜索结果中包含的所述网页链接对应的网页内容进行语义分析,提取出网页内容中包含语义符合预置条件的内容的网页链接。
其中,所述基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析,根据分析结果,识别出被篡改的网页包括:
判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词;
如果包含,则将网页链接对应的网页确定为被篡改的网页。
其中,所述基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析,根据分析结果,识别出被篡改的网页包括:
判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词;
如果包含,则对所述当前页面内容进行语义分析,将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。
一种识别被篡改网页的装置,包括:
网页搜索结果获取单元,用于获取网页搜索结果,所述网页搜索结果获取单元包括第一获取子单元,用于基于预置的关键词向搜索引擎发起搜索请求,获取搜索引擎返回的网页搜索结果,所述预置的关键词为被篡改网页的特征标识;
网页链接提取单元,用于提取网页搜索结果中的网页链接;
网页加载单元,用于对所述提取的网页链接对应的网页进行加载,获取所述网页链接对应的当前页面内容;
识别单元,基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析,根据分析结果,识别出被篡改的网页。
其中,所述网页搜索结果获取单元还包括:
第二获取子单元,用于基于所述预置的关键词,向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求,获取页面服务器返回的网页搜索结果。
其中,所述网页链接提取单元包括:
语义分析子单元,用于对网页搜索结果中包含的所述网页链接对应的网页内容进行语义分析,
提取子单元,用于提取出网页内容中包含语义符合预置条件的内容的网页链接。
其中,所述识别单元包括:
第一识别子单元,用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词,如果包含,则将网页链接对应的网页确定为被篡改的网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇智软件(北京)有限公司,未经奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210090778.7/2.html,转载请声明来源钻瓜专利网。