[发明专利]一种网页关键字审计的方法及装置在审
申请号: | 201510703869.7 | 申请日: | 2015-10-26 |
公开(公告)号: | CN106611009A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 李智勇;申常扳;张晓玉;景晓军;沈智杰;唐新民 | 申请(专利权)人: | 任子行网络技术股份有限公司;深圳市任子行科技开发有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司44217 | 代理人: | 郭伟刚 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 关键字 审计 方法 装置 | ||
技术领域
本发明涉及网页审计技术领域,更具体地说,涉及一种网页关键字审计的方法及装置。
背景技术
现有的网页浏览审计方案是报文经过网络设备的应用识别引擎进行深度检测,识别出网页浏览协议后进入网页浏览审计框架,通过分析报文提取出所访问网页的HOST(主机)及URL,并分析网页的URL过滤掉图片、动画、flash、脚本等信息,并使用gzip解压缩算法或修改用户访问网页所请求的报文头获取网页标题。将获取的HOST和URL组织成一个完整的网址发送到设备上已便管理员查看。在获取标题时使用了两种方法,gzip解压缩方法就是对每个会话上用户访问的网页内容进行gzip解压缩,在解压完后的内容中查找网页标题;修改用户访问网页请求报文头意思就是当用户访问网页时网页浏览审计框架获取用户访问网页的请求头,通过修改请求头中的参数,让服务器采用明文方式传输网页内容这样设备就可以获取到网页标题。
但是,在网页的关键字审计中,尤其是在不同编码格式的网页中,存在的同一关键字的不同编码格式,会导致关键字的识别精准度很低。
发明内容
本发明要解决的技术问题在于,针对现有技术中网页关键字识别精度低的缺陷,提供一种网页关键字审计的方法及装置。
本发明解决其技术问题所采用的技术方案是:
构造一种网页关键字审计的方法,包括:
将预设的关键字转换成多种编码格式;
将所述多种编码格式组成关键字策略并生成多模自动机;
使用所述多模自动机对网页内容进行关键字审计匹配;
将所述关键字审计匹配的审计结果转换成NCR编码并显示,从而将多种编码格式的内容显示于同一界面。
在本发明所述的方法中,所述多种编码格式包括:GB2312、GB18030、UTF-8、GBK、unicode-16、BIG5、BIG5HKSCS、EUC、Shift-JIS、NCR、Windows-1256、ISO-8859-6、CP874、EUC-KP、CP1258。
在本发明所述的方法中,所述将所述多种编码格式组成关键字策略并生成多模自动机的步骤包括:
将所述多种编码格式组成关键字策略;
依据所述关键字策略生成多模自动机。
在本发明所述的方法中,所述使用所述多模自动机对网页内容进行关键字审计匹配的步骤包括:
依据预设的关键字从网页的第一个字符开始匹配;
依据所述关键字将所匹配的网页内容生成一条关键字策略并对其进行审计。
在本发明所述的方法中,所述将所述关键字审计匹配的审计结果转换成NCR编码并显示包括:
将所述关键字审计匹配的审计结果存储于存储器中;
将所述审计结果转换成NCR编码;
获取所述NCR编码并将其显示于同一界面。
另一方面,提供一种网页关键字审计的装置,包括:
编码格式转换单元,用于将预设的关键字转换成多种编码格式;
多模自动机生成单元,用于将所述多种编码格式组成关键字策略并生成多模自动机;
审计匹配单元,用于使用所述多模自动机对网页内容进行关键字审计匹配;
转换显示单元,用于将所述关键字审计匹配的审计结果转换成NCR编码并显示。
在本发明所述的装置中,所述多种编码格式包括:GB2312、GB18030、UTF-8、GBK、unicode-16、BIG5、BIG5HKSCS、EUC、Shift-JIS、NCR、Windows-1256、ISO-8859-6、CP874、EUC-KP、CP1258。
在本发明所述的装置中,所述多模自动机生成单元包括:
关键字组成模块,用于将所述多种编码格式组成关键字策略;
生成模块,依据所述关键字策略生成多模自动机。
在本发明所述的装置中,所述审计匹配单元包括:
匹配模块,用于依据预设的关键字从网页的第一个字符开始匹配;
审计模块,用于依据所述关键字将所匹配的网页内容生成一条关键字策略并对其进行审计。
在本发明所述的装置中,所述转换显示单元包括:
存储模块,用于将所述关键字审计匹配的审计结果存储于存储器中;
转换模块,用于将所述审计结果转换成NCR编码;
显示模块,用于获取所述NCR编码并将其显示于同一界面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于任子行网络技术股份有限公司;深圳市任子行科技开发有限公司,未经任子行网络技术股份有限公司;深圳市任子行科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510703869.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种互联网内容标签的管理方法及装置
- 下一篇:网页加载速度的确定方法和装置