[发明专利]确定网页属性的方法及装置在审
申请号: | 201310351347.6 | 申请日: | 2013-08-13 |
公开(公告)号: | CN104376000A | 公开(公告)日: | 2015-02-25 |
发明(设计)人: | 蔡同利;洪文明;吴俊峰;徐健;黄玉燕;陈力;杨永辉;刘晖;何远银;曲广凡;李文祥 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 网页 属性 方法 装置 | ||
1.一种确定网页属性的方法,其特征在于,包括:
确定已知网页属性的URL的结构特征;
确定目标URL的结构特征;
比较已知网页属性的URL与目标URL的结构特征;以及
当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。
2.根据权利要求1所述的方法,其特征在于,所述结构特征表示为变形模式,所述变形模式包括基本模式及模式参数。
3.根据权利要求2所述的方法,其特征在于,在所述基本模式中,URL中的一个或多个元素由预定的标识符表示,URL的模式参数记载基本模式中的各标识符对应的赋值。
4.根据权利要求1所述的方法,其特征在于,所述确定已知网页属性的URL的结构特征的步骤进一步包括:
将所述已知网页属性的URL转换成所述变形模式的形式;
根据网页属性对所述变形模式进行合并和泛化;以及
通过对经过泛化的所述变形模式进行分类,得到分类后的变形模式。
5.根据权利要求4所述的方法,其特征在于,所述确定已知网页属性的URL的结构特征的步骤进一步包括:
将所述分类后的变形模式与历史可用变形模式进行合并。
6.根据权利要求5所述的方法,其特征在于,所述将所述分类后的变形模式与历史可用变形模式进行合并的步骤进一步包括:
对所述分类后的变形模式进行验证;以及
将通过验证的变形模式与历史可用变形模式进行合并。
7.根据权利要求4所述的方法,其特征在于,所述根据网页属性对变形模式进行合并和泛化的步骤进一步包括:
通过树结构来实现根据网页属性对变形模式进行合并和泛化。
8.一种确定网页属性的装置,其特征在于,包括:
第一结构特征确定模块,用于确定已知网页属性的URL的结构特征;
第二结构特征确定模块,用于确定目标URL的结构特征;
比较模块,用于比较已知网页属性的URL与目标URL的结构特征;以及
目标URL网页属性确定模块,用于当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。
9.根据权利要求8所述的装置,其特征在于,所述结构特征表示为变形模式,所述变形模式包括基本模式及模式参数。
10.根据权利要求9所述的装置,其特征在于,在所述基本模式中,URL中的一个或多个元素由预定的标识符表示,URL的模式参数记载基本模式中的各标识符对应的赋值。
11.根据权利要求8所述的装置,其特征在于,所述第一结构特征确定模块进一步包括:
转换模块,用于将所述已知网页属性的URL转换成所述变形模式的形式;
合并和泛化模块,用于根据网页属性对所述变形模式进行合并和泛化;
以及
分类模块,用于通过对经过泛化的所述变形模式进行分类,得到分类后的变形模式。
12.根据权利要求11所述的装置,其特征在于,所述第一结构特征确定模块进一步包括:
变形模式合并模块,用于将所述分类后的变形模式与历史可用变形模式进行合并。
13.根据权利要求12所述的装置,其特征在于,所述变形模式合并模块进一步包括:
验证模块,用于对所述分类后的变形模式进行验证;以及
变形模式合并子模块,用于将通过验证的变形模式与历史可用变形模式进行合并。
14.根据权利要求12所述的装置,其特征在于,所述变形模式合并模块进一步包括:
合并和泛化子模块,用于通过树结构来实现根据网页属性对变形模式进行合并和泛化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310351347.6/1.html,转载请声明来源钻瓜专利网。