[发明专利]网页路径导航方法、装置、电子设备及存储介质在审

申请号：	202010898681.3	申请日：	2020-08-31
公开（公告）号：	CN112231598A	公开（公告）日：	2021-01-15
发明（设计）人：	徐晶;霍振坤;王军宁;李琳;张晓颖	申请（专利权）人：	咪咕文化科技有限公司
主分类号：	G06F16/955	分类号：	G06F16/955;G06F16/36
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	苗晓静
地址：	100032***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页路径导航方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种网页路径导航方法、装置、电子设备及存储介质，其中，网页路径导航方法，包括：接收用户的输入请求；基于输入请求，从预先得到的访问任务集合中查询对应于输入请求的至少一个访问任务，至少一个访问任务包括由起始网页到目标网页的网页导航顺序；获取至少一个访问任务的URL正则模式的频繁项集，频繁项集包括由起始网页到目标网页的多个网页导航顺序对应的各访问任务的URL正则模式；根据频繁项集，确定目标网页的导航路径。本发明的网页路径导航方法，根据关联规则挖掘算法，可以自动、智能地分析出爬虫的路径导航，进而，可以降低网页路径的遍历次数，提高网页中知识抽取的效率。

技术领域

本发明涉及互联网技术领域，具体涉及一种网页路径导航方法、装置、电子设备及存储介质。

背景技术

目前，Web网页标准语言HTML无法适应知识表示的需求，通常利用标准语言规范，RDF、RDFS和OWL嵌入HTML的方式进行网页的知识表示。为了便于知识的共享，需要从网页(如语义网)中进行知识抽取并形成知识图谱。可以通过爬虫技术从互联网中获取知识，但是，爬虫技术的应用通常需要明确网页地址。而网页地址有时会不定期更新，导致爬虫技术失效。而虽然有一些基于某一主题的深度优先爬虫，通过遍历的方式进行网页地址的确定，但是，采取穷举链接的方式，浪费大量与主题无关的URL的执行耗时。

发明内容

基于现有技术中存在的问题，本发明实施例中提出一种网页路径导航方法、装置、电子设备及存储介质。

第一方面，本发明实施例中提供了一种网页路径导航方法，包括：

接收用户的输入请求；

基于所述输入请求，从预先得到的访问任务集合中查询对应于所述输入请求的至少一个访问任务，其中，所述至少一个访问任务包括由起始网页到目标网页的网页导航顺序；

获取所述至少一个访问任务的URL正则模式的频繁项集，其中，所述频繁项集包括由所述起始网页到所述目标网页的多个网页导航顺序对应的各访问任务的URL正则模式；

根据所述频繁项集，确定所述目标网页的导航路径。

进一步地，还包括：获得所述访问任务集合的步骤，具体包括：

获取互联网访问数据样本；

对所述互联网访问数据样本进行时序分解，以得到多个访问任务；

根据所述多个访问任务得到所述访问任务集合。

进一步地，所述获取所述至少一个访问任务的URL正则模式的频繁项集，包括：