[发明专利]一种URL模式获取方法、装置、电子设备及可读存储介质在审

申请号：	201811013101.7	申请日：	2018-08-31
公开（公告）号：	CN110874443A	公开（公告）日：	2020-03-10
发明（设计）人：	陈飞;李毅;许静芳	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G06F16/955	分类号：	G06F16/955
代理公司：	北京华沛德权律师事务所 11302	代理人：	马苗苗
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 url 模式获取方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供的一种URL模式获取方法、装置、电子设备及可读存储介质，该方法包括步骤：对URL集合中的每个URL分别进行分段，并对分段后生成的字段根据字符类型进行基础模式标记，所述基础模式由与被标记的字段的字符类型相同的任意字符形成。然后，根据所述进行基础模式标记后的字段，获取URL集合中具有相同分段数且在相同分段位置具有相同基础模式的URL，形成URL组。最后，将所述URL组中相同分段位置的字段根据所标记的基础模式进行合并，得到所述URL组的URL模式。本发明能够更加精确的表示URL模式，避免URL合并处理后过于泛化。

技术领域

本发明涉及信息处理技术领域，具体而言，涉及一种URL模式获取方法、装置、电子设备及可读存储介质。

背景技术

随着互联网技术的不断发展，网络的数据正呈现爆炸式的增长，其中表现最突出之一就是URL(Uniform Resource Locator，统一资源定位符)数量的大量增长。而在互联网数据搜索、数据采集、数据清洗、网站构建等领域均需要对相似的URL进行处理，处理的质量和效率将直接影响服务器、存储资源的使用，以及网站用户的体验。

URL一般由五部分组成：

<scheme>://<netloc>/<path>？<query>#<fragement>；

其中，scheme：协议；netloc：域名；path：路径；query：参数；fragment：锚。

目前，一般采用的URL处理方法，是将多个URL中的相同或相似部分采用人工自定义规则进行替代表示，而目前的这种表示方法仅能处理特定类型的URL，并且所处理的结果过于泛化，即对URL的类型表示不够精确。

发明内容

有鉴于此，本发明实施例的目的在于提供一种URL模式获取方法、装置、电子设备及可读存储介质，该方法可得到更高精确度的URL模式，解决了现有技术URL合并处理的结果过于泛化的问题。

第一方面，本发明通过本发明的一实施例提供如下技术方案：

一种URL模式获取方法，包括：

对URL集合中的每个URL分别进行分段，并对每个URL分段后生成的字段根据字符类型进行基础模式标记，所述基础模式由与被标记的字段的字符类型相同的任意字符形成；

根据所述进行基础模式标记后的字段，获取URL集合中具有相同分段数且在相同分段位置具有相同基础模式的URL，形成URL组；

将所述URL组中相同分段位置的字段根据所标记的基础模式进行合并，得到所述URL组的URL模式。

优选地，所述将所述URL组中相同分段位置的字段根据所标记的基础模式进行合并，得到所述URL组的URL模式的步骤，包括：