[发明专利]一种基于URL的不良网页识别方法无效
申请号: | 200910023926.1 | 申请日: | 2009-09-15 |
公开(公告)号: | CN101692639A | 公开(公告)日: | 2010-04-07 |
发明(设计)人: | 郑庆华;骞雅楠;刘均;常晓;吴朝晖;蒋路 | 申请(专利权)人: | 西安交通大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
地址: | 710049*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于URL的不良网页识别方法。该方法通过URL主域名部分的语义分析和整个URL的结构分析来判别其是否为色情站点URL。判别时,提取了URL所包含的敏感串特征与结构特征两类特征作为判别的依据,并采用将和SVM算法综合起来的判别器最终综合特征进行二分类得到判别结果。本发明可以协助其它识别方法快速地识别不良网页,以便提供健康的互联网环境,在不需获取网页内容的情况下进行判别,为色情网页的识别提供了一种高效的新思路。 | ||
搜索关键词: | 一种 基于 url 不良 网页 识别 方法 | ||
【主权项】:
1.一种基于URL的不良网页识别方法,其特征在于:通过网页的URL来判别其是否为色情页面,该方法的效果为:可以识别出URL域名具有色情语义信息及特殊结构特征的色情网页;该方法包含:URL预处理模块、主域名自动分串模块、敏感串特征提取与判别模块、结构特征提取模块与综合判别模块,其中,敏感串特征提取与判别模块用于提取并判别不良URL域名中包含的具有不良语义的关键词;结构特征提取是指提取出不良URL为了保持其隐蔽性采取的一些特殊构成方式;具体的判别过程如下:Step1:建立URL敏感串特征词典:1)在由正常网页URL及色情网页URL记录组成的训练集上进行人工标注,标注的过程中将URL主域名中具有独立语义的单词、拼音、数字串之间用空格分开;2)统计出标注后的各个字符串以及各个串出现的次数,进而用出现次数除以所有字符串的出现总数计算出各个串出现的频率;3)剔除长度小于3的短字符串以及数字串;4)将长度大于4的正常串频率设置为1;最终生成的敏感词特征词典表示为下述形式:(t1∶f1,t2∶f2,…tn∶fn)其中ti代表该词典中的第i个串,fi代表第i个串出现的频率,该符号表示在以下内容中同样适用;Step2:通过URL预处理模块提取出URL的主机名、主域名和后缀名,将URL后缀名为.edu.gov的网页直接判定为正常网页;Step3:对URL主域名部分进行自动分串,将其分割为具有独立语义的单词、拼音和数字串;对于分串结果,根据敏感串特征词典对其进行二值量化,表示成下述形式:(E(t1),E(t2),…E(tn))其中E(ti)的取值为“1”或者“0”,若ti为该URL主域名分串后的一部分,则取“1”;否则取“0”。对于该向量,采取采用Bayes算法进行分类,得到URL属于不良URL的概率,记为“T1”;同时对于URL的主机名部分,将其作为一个单独的串,用同样的方法进行量化计算,得到主机名属于不良URL的概率,记为“T2”;Step4:提取出URL在结构方面的七维特征(S1,S2,…S7),其中:S1:主机名是否为单字母加序号,是则S1取“1”,否则取“0”;S2:主机名是否为单字符,是则S2取“1”,否则取“0”;S3:主机名的长度;S4:主域名中连续字符最多出现次数;S5:主域名中字母与数字交杂出现次数;S6:主域名分串后的子串个数;S7:主域名中数字字符出现的次数;Step5:将基于敏感串特征的分类判别结果与结构特征取值联合起来,组成以下九维向量:(T1,T2,S1,S2,…S7)将该向量通过SVM算法进行二分类判别,得到URL的最终判别结果,即该URL对应的网页是否为不良网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910023926.1/,转载请声明来源钻瓜专利网。
- 上一篇:水龙头用发电机
- 下一篇:具有中线电流管理的转换开关系统