[发明专利]一种URL模式获取方法、装置、电子设备及可读存储介质在审
申请号: | 201811013101.7 | 申请日: | 2018-08-31 |
公开(公告)号: | CN110874443A | 公开(公告)日: | 2020-03-10 |
发明(设计)人: | 陈飞;李毅;许静芳 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 马苗苗 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 url 模式 获取 方法 装置 电子设备 可读 存储 介质 | ||
本发明提供的一种URL模式获取方法、装置、电子设备及可读存储介质,该方法包括步骤:对URL集合中的每个URL分别进行分段,并对分段后生成的字段根据字符类型进行基础模式标记,所述基础模式由与被标记的字段的字符类型相同的任意字符形成。然后,根据所述进行基础模式标记后的字段,获取URL集合中具有相同分段数且在相同分段位置具有相同基础模式的URL,形成URL组。最后,将所述URL组中相同分段位置的字段根据所标记的基础模式进行合并,得到所述URL组的URL模式。本发明能够更加精确的表示URL模式,避免URL合并处理后过于泛化。
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种URL模式获取方法、装置、电子设备及可读存储介质。
背景技术
随着互联网技术的不断发展,网络的数据正呈现爆炸式的增长,其中表现最突出之一就是URL(Uniform Resource Locator,统一资源定位符)数量的大量增长。而在互联网数据搜索、数据采集、数据清洗、网站构建等领域均需要对相似的URL进行处理,处理的质量和效率将直接影响服务器、存储资源的使用,以及网站用户的体验。
URL一般由五部分组成:
<scheme>://<netloc>/<path>?<query>#<fragement>;
其中,scheme:协议;netloc:域名;path:路径;query:参数;fragment:锚。
目前,一般采用的URL处理方法,是将多个URL中的相同或相似部分采用人工自定义规则进行替代表示,而目前的这种表示方法仅能处理特定类型的URL,并且所处理的结果过于泛化,即对URL的类型表示不够精确。
发明内容
有鉴于此,本发明实施例的目的在于提供一种URL模式获取方法、装置、电子设备及可读存储介质,该方法可得到更高精确度的URL模式,解决了现有技术URL合并处理的结果过于泛化的问题。
第一方面,本发明通过本发明的一实施例提供如下技术方案:
一种URL模式获取方法,包括:
对URL集合中的每个URL分别进行分段,并对每个URL分段后生成的字段根据字符类型进行基础模式标记,所述基础模式由与被标记的字段的字符类型相同的任意字符形成;
根据所述进行基础模式标记后的字段,获取URL集合中具有相同分段数且在相同分段位置具有相同基础模式的URL,形成URL组;
将所述URL组中相同分段位置的字段根据所标记的基础模式进行合并,得到所述URL组的URL模式。
优选地,所述将所述URL组中相同分段位置的字段根据所标记的基础模式进行合并,得到所述URL组的URL模式的步骤,包括:
将所述URL组中相同分段位置的字段根据所标记的基础模式和每个字段的字符数进行合并,得到所述URL组的URL模式。
优选地,所述将所述URL组中相同分段位置的字段根据所标记的基础模式和每个字段的字符数进行合并,得到所述URL组的URL模式的步骤,包括:
根据所述URL组中每个URL分段后得到的各个字段构建为前缀树;其中,所述前缀树的每个分支为一条已分段的URL,所述前缀树的每个分支的每个节点为分段得到的一个字段,所述前缀树中的相同深度的节点组成所述前缀树的一层,所述前缀树中的每一层对应一个相同分段位置;
将所述前缀树由根节点向下进行合并,并根据所述前缀树每一层包括的字段的基础模式和字符数,得到所述URL组的URL模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811013101.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:三桩基础的疲劳损伤确定方法和设备
- 下一篇:一种光伏组件