[发明专利]一种信息匹配方法和装置有效

专利信息
申请号: 201810861161.8 申请日: 2018-08-01
公开(公告)号: CN110851747B 公开(公告)日: 2022-08-02
发明(设计)人: 梁洪波 申请(专利权)人: 北京国双科技有限公司
主分类号: G06F16/955 分类号: G06F16/955;G06F16/953
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王宝筠
地址: 100080 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 信息 匹配 方法 装置
【说明书】:

发明公开了一种信息匹配的方法和装置,通过获取用户输入的词组和第一URL信息,以及与该词组相关的第二URL信息;统一第一URL信息和第二URL信息的符号格式;去除第一URL信息和第二URL信息中包含的协议、用户名和密码;对齐所述第一URL信息和所述第二URL信息的剩余信息中端口信息和路径信息之间的连接字符,以所述连接字符为界将所述剩余信息划分为两部分;若第一URL信息和第二URL信息的两个部分,都满足预设条件,确定第一URL信息和第二URL信息匹配。通过上述公开的方法,去除了URL信息中多余的信息,且将得到的URL信息调整后再进行匹配。不仅优化了URL的匹配,还提高了匹配的准确度。

技术领域

本发明涉及网络技术领域,尤其是涉及一种信息匹配方法和装置。

背景技术

随着社会不断发展,互联网成为人们生活中必不可少的一部分,用户对在互联网上使用搜索引擎所获取的信息的准确度的要求也越来越高。

在进行搜索引擎优化(Search Engine Optimization,SEO)的关键词排名分析时,根据用户输入的词组以及统一资源定位符(Uniform Resource Locator,URL)在指定的搜索引擎中通过爬虫程序获取该词组的链接信息,然后将链接信息与用户输入的统一资源定位符(Uniform Resource Locator,URL)进行匹配。

现有技术中,通用的匹配过程为:首先将用户输入的URL与爬取到的URL进行预处理,其次再将用户输入的URL与爬取到的URL进行比较,最后若两者相等则匹配结束。搜索引擎获取信息就是通过预处理判断URL的合法性,预处理后,直接根据用户的输入URL直接进行匹配。其中,URL预处理主要是判断URL的合法性,是否合法一般采用正则表达式来对URL各部分进行匹配。由于在现有进行URL预处理时必须以特定的协议开头,且地址不能包含双字节或非链接特殊字符,会导致采用正则表达式理解URL时出现不清楚或是理解错误的情况。使用搜索引擎搜索结果是以字、词、词组的相关性体现网页排名的方式,即进行关键词排名时,会出现多种匹配规则,导致匹配不灵活,直接将用户输入的URL在爬取结果集合进行匹配,难以满足业务需要。

发明内容

有鉴于此,本发明实施例提供一种信息匹配方法和装置,以实现优化URL的匹配,以及提高URL匹配准确度的目的为实现上述目的,本发明实施例提供如下技术方案:

一种信息匹配方法,所述方法包括:

获取用户输入的词组和第一统一资源定位符URL信息,以及通过爬虫技术在搜索引擎中获取的与该词组相关的第二URL信息;

统一所述第一URL信息和所述第二URL信息的符号格式;

去除所述第一URL信息和所述第二URL信息中包含的协议、用户名和密码;

对齐所述第一URL信息和所述第二URL信息的剩余信息中端口信息和路径信息之间的连接字符,以所述连接字符为界将所述剩余信息划分为两部分,所述连接字符左侧为第一部分,所述连接字符右侧为第二部分;

匹配所述第一URL信息的第一部分和所述第二URL信息的第一部分,以及匹配所述第一URL信息的第二部分和所述第二URL信息的第二部分,都满足预设匹配条件,确定所述第一URL信息和所述第二URL信息匹配。

优选地,所述统一所述第一URL信息与所述第二URL信息的符号格式,包括:

将所述第一URL信息与所述第二URL信息中的符号格式统一调整为小写格式或大写格式。

优选地,所述匹配所述第一URL信息的第一部分和所述第二URL信息的第一部分,以及匹配所述第一URL信息的第二部分和所述第二部分URL信息的第二部分,都满足预设匹配条件,确定所述第一URL信息和所述第二URL信息匹配,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810861161.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top