[发明专利]一种识别被篡改网页的方法及装置有效
申请号: | 201210090778.7 | 申请日: | 2012-03-30 |
公开(公告)号: | CN102663060A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 李继峰;赵武 | 申请(专利权)人: | 奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市德权律师事务所 11302 | 代理人: | 刘丽君 |
地址: | 100016 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 篡改 网页 方法 装置 | ||
1.一种识别被篡改网页的方法,其特征在于,包括:
获取网页搜索结果,所述获取网页搜索结果包括基于预置的关键词向搜索引擎发起搜索请求,获取搜索引擎返回的网页搜索结果,所述预置的关键词为被篡改网页的特征标识;
提取网页搜索结果中的网页链接;
对所述提取的网页链接对应的网页进行加载,获取所述网页链接对应的当前页面内容;
基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析,根据分析结果,识别出被篡改的网页。
2.根据权利要求1所述的方法,其特征在于,所述获取网页搜索结果还包括:
基于所述预置的关键词,向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求,获取页面服务器返回的网页搜索结果。
3.根据权利要求1或2所述的方法,其特征在于,所述提取网页搜索结果中的网页链接包括:
对网页搜索结果中包含的所述网页链接对应的网页内容进行语义分析,提取出网页内容中包含语义符合预置条件的内容的网页链接。
4.根据权利要求1或2所述的方法,其特征在于,所述基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析,根据分析结果,识别出被篡改的网页包括:
判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词;
如果包含,则将网页链接对应的网页确定为被篡改的网页。
5.根据权利要求1或2所述的方法,其特征在于,所述基于所述预置的关键词对各个网页链接对应的当前页面内容进行分析,根据分析结果,识别出被篡改的网页包括:
判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词;
如果包含,则对所述当前页面内容进行语义分析,将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。
6.一种识别被篡改网页的装置,其特征在于,包括
网页搜索结果获取单元,用于获取网页搜索结果,所述网页搜索结果获取单元包括第一获取子单元,用于基于预置的关键词向搜索引擎发起搜索请求,获取搜索引擎返回的网页搜索结果,所述预置的关键词为被篡改网页的特征标识;
网页链接提取单元,用于提取网页搜索结果中的网页链接;
网页加载单元,用于对所述提取的网页链接对应的网页进行加载,获取所述网页链接对应的当前页面内容;
识别单元,基于所述预置的关键词对所述网页链接对应的当前页面内容进行分析,根据分析结果,识别出被篡改的网页。
7.根据权利要求6所述的装置,其特征在于,所述网页搜索结果获取单元还包括:
第二获取子单元,用于基于所述预置的关键词,向所述搜索引擎返回的搜索结果中的网页链接所对应的页面服务器发起站内搜索请求,获取页面服务器返回的网页搜索结果。
8.根据权利要求6或7所述的装置,其特征在于,所述网页链接提取单元包括:
语义分析子单元,用于对网页搜索结果中包含的所述网页链接对应的网页内容进行语义分析,
提取子单元,用于提取出网页内容中包含语义符合预置条件的内容的网页链接。
9.根据权利要求6或7所述的装置,其特征在于,所述识别单元包括:
第一识别子单元,用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词,如果包含,则将网页链接对应的网页确定为被篡改的网页。
10.根据权利要求6或7所述的装置,其特征在于,所述识别单元包括:
第二识别子单元,用于判断各个网页链接对应的当前页面内容中是否包含所述预置的关键词,如果包含,则对所述当前页面内容进行语义分析,将语义分析结果符合预置条件的网页链接对应的网页确定为被篡改的网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇智软件(北京)有限公司,未经奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210090778.7/1.html,转载请声明来源钻瓜专利网。