[发明专利]一种基于URL的不良网页识别方法无效
申请号: | 200910023926.1 | 申请日: | 2009-09-15 |
公开(公告)号: | CN101692639A | 公开(公告)日: | 2010-04-07 |
发明(设计)人: | 郑庆华;骞雅楠;刘均;常晓;吴朝晖;蒋路 | 申请(专利权)人: | 西安交通大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
地址: | 710049*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 url 不良 网页 识别 方法 | ||
技术领域
本发明涉及一种互联网不良信息过滤方法,特别是涉及一种基于URL的不良网页识别方法。该方法涉及到机器学习领域,应用机器学习领域的特征抽取及分类技术完成最终的判别。
背景技术
随着互联网的飞速发展,不良网络文化也充斥其中,色情网页的大量出现更是严重影响了青少年的健康发展。近年来关于色情内容的自动识别研究取得了显著的成就。申请人经过查新,检索得到两篇与本发明相关的关于色情内容自动识别的专利,它们分别是:
1.网络色情图像和不良信息检测多功能管理系统
2.色情内容拦截方法
在上述专利1中,发明人提出了一套基于客户机/服务器模式的色情图像和不良信息检测多功能管理系统,该系统有以下特点:
1)该系统是基于客户机/服务器模式的,在客户机端主要进行数据过滤和解协议等数据获取工作,在服务器端对客户机端的数据进行监听,并对数据内容进行不良信息检测;
2)该系统中的数据检测模块包括:URL检测、关键字检测和图像检测,所有的检测请求服务器进行。其中URL检测模块通过已知URL建立可信URL及不良URL列表从而进行过滤。
在上述专利2中,发明人提出了一种使用散列值的色情内容拦截方法,该方法有以下特点:
1)首先,从整个或部分不同的色情内容中提取散列值,构建数据库;
2)检测过程中,对网络传送或存储在计算机中的文件采取以下步骤:①提取:提取部分文件的散列值,②比较:与数据库中存储的散列值进行比较,③阻断:对于判别为不良内容的信息加以阻断;
3)该方法主要适用于视频等流媒体文件。
根据上述查新,现有系统在不良网页识别方面存在以下四方面的不足:
1.基于关键字匹配和文本分析的不良网页识别方法适用于包含大量文本内容的网页,对于纯图片和视频的网页则会失效;
2.基于图像及流媒体识别的方法适用范围广泛,但该方法处理数据量大,方法复杂性高,延迟较大,需要耗费大量带宽资源,还不适用于网络环境下实时的识别与处理工作;
3.现有的基于URL的不良网页识别方法是基于维护可信URL及不良URL名单,将待判别URL与名单中的URL进行比对来进行过滤判别的。该方法的缺陷是灵活性差,无法应对新增站点;
4.当前还没有通过对URL的分析和语义理解来进行不良网页识别的文献,因此该发明弥补了这方面的空缺,提供了快速识别不良网页的新思路。
发明内容
发明目的:在互联网高速发展的过程中,不良网页充斥其中并快速增长。采用人工阻塞不良网页的方法实时性查,而现有自动识别不良网页的方法复杂性高,效率较低,难以在互联网中广泛采用。该发明提出的基于URL的不良网页识别方法具有实时性、高效性的特点,为不良网页识别提供了一种高效的新思路。
本发明的技术方案是这样实现的:
通过网页的URL来判别其是否为色情页面。该方法的效果为:可以识别出URL域名具有色情语义信息及特殊结构特征的色情网页;
该方法包含:URL预处理模块、主域名自动分串模块、敏感串特征提取与判别模块、结构特征提取模块与综合判别模块,其中,敏感串特征提取与判别模块用于提取并判别不良URL域名中包含的具有不良语义的关键词;结构特征提取是指提取出不良URL为了保持其隐蔽性采取的一些特殊构成方式;
具体的判别过程如下:
Step1:建立URL敏感串特征词典:
1)在由正常网页URL及色情网页URL记录组成的训练集上进行人工标注,标注的过程中将URL主域名中具有独立语义的单词、拼音、数字串之间用空格分开;
2)统计出标注后的各个字符串以及各个串出现的次数,进而用出现次数除以所有字符串的出现总数计算出各个串出现的频率;
3)剔除长度小于3的短字符串以及数字串;
4)将长度大于4的正常串频率设置为1;
最终生成的敏感词特征词典表示为下述形式:
(t1:f1,t2:f2,…tn:fn)
其中ti代表该词典中的第i个串,fi代表第i个串出现的频率,该符号表示在以下内容中同样适用;
Step2:通过URL预处理模块提取出URL的主机名、主域名和后缀名,将URL后缀名为.edu.gov的网页直接判定为正常网页;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910023926.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水龙头用发电机
- 下一篇:具有中线电流管理的转换开关系统