[发明专利]判断网页类型的方法和装置有效
申请号: | 200910133695.X | 申请日: | 2009-04-22 |
公开(公告)号: | CN101872347A | 公开(公告)日: | 2010-10-27 |
发明(设计)人: | 何楠;王主龙;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈炜;李春晖 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 判断 网页 类型 方法 装置 | ||
1.一种用于判断网页的网页类型的方法,包括:
基于待判断网页的统一资源定位符(URL),在预先存储的规则列表中执行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;
如果规则匹配成功,则依据成功匹配的规则得到待判断网页的网页类型;以及
如果规则匹配失败,则从待判断网页的URL和/或超文本标记语言(HTML)源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页执行网页类型分类,以得到待判断网页的网页类型。
2.根据权利要求1所述的方法,其中,
在所述执行规则匹配的步骤中,基于从待判断网页的URL中提取出的站点信息执行规则匹配,以及
在规则列表中的各条规则记录中存储了站点信息,以及与之对应的网页类型信息和出现次数信息。
3.根据权利要求2所述的方法,其中,站点信息被定义为URL中的介于开头的“http://”和其后出现的第一个“/”之间的字符串。
4.根据权利要求2或3所述的方法,其中,所述执行规则匹配的步骤进一步包括:
依次将待判断网页的URL中的站点信息与规则列表的各条规则记录中的站点信息执行完全匹配,如果待判断网页的URL中的站点信息与规则记录中的站点信息完全相同,则站点信息匹配成功;以及
判断站点信息匹配成功的次数是否等于1以及成功匹配的规则记录中的出现次数是否大于或等于预先设定的阈值,
其中,如果遍历所有规则记录后站点信息匹配只成功一次,且成功匹配的规则记录中的出现次数大于或等于所述阈值,则规则匹配成功,且将所述待判断网页的网页类型确定为是成功匹配的规则记录中的网页类型,否则规则匹配失败。
5.根据权利要求1至4中任意一项所述的方法,其中,所述预定特征包括:从待判断网页的URL中提取出来的URL特征,和/或从待判断网页的HTML源代码中提取出来的网页特征。
6.根据权利要求5所述的方法,其中,所述URL特征包括字符串特征和/或日期特征,其中,字符串特征包括URL中的由特定分隔符分隔开的字符串,日期特征是URL中由特定分隔符分隔开的字符串的日期匹配等级。
7.根据权利要求6所述的方法,其中,特定分隔符至少包括“/”、“.”、“?”、“=”、“&”或“_ ”。
8.根据权利要求6或7所述的方法,其中,假设将URL中由特定分隔符分隔开的一系列字符串用L1、L2、...、Ln表示,则按照如下方式确定日期匹配等级:
对所述一系列字符串执行第一级日期匹配,判断是否满足任意以下条件之一:(1)Lp完全匹配年,且Lp+1完全匹配月日;(2)Lp完全匹配年,Lp+1完全匹配月,且Lp+2完全匹配日;(3)Lp完全匹配年月,且Lp+1完全匹配日;及(4)Lp完全匹配年月日,如果满足,则第一级日期匹配成功,并确定日期匹配等级为一级,否则第一级日期匹配不成功;
如果第一级日期匹配不成功,则对所述一系列字符串执行第二级日期匹配,判断是否满足任意以下条件之一:(1)Lp完全匹配年;(2)Lp完全匹配年月;(3)Lp完全匹配月日;及(4)Lp完全匹配月,且Lp+1完全匹配日,如果满足,则第二级日期匹配成功,并确定日期匹配等级为二级,否则第二级日期匹配不成功;
如果第二级日期匹配不成功,则对所述一系列字符串执行第三级日期匹配,判断是否满足任意以下条件之一:(1)Lp包含年;及(2)Lp包含月日,如果满足,则第三级日期匹配成功,并确定日期匹配等级为三级,否则第三级日期匹配不成功;以及
如果第三级日期匹配不成功,则确定日期匹配失败,
其中,n和p为自然数,且1≤p≤n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910133695.X/1.html,转载请声明来源钻瓜专利网。