[发明专利]网页搜集推荐方法和装置有效

专利信息
申请号: 201610102827.2 申请日: 2016-02-24
公开(公告)号: CN105740460B 公开(公告)日: 2019-07-19
发明(设计)人: 刘耀;龚幸伟 申请(专利权)人: 中国科学技术信息研究所
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955
代理公司: 北京市立方律师事务所 11330 代理人: 王增鑫
地址: 100038*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 搜集 推荐 方法 装置
【说明书】:

发明实施例提供了网页搜集推荐方法和装置,所述方法包括:获取与关键词相关的多个种子网页;确定出种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。利用本发明实施例,可以更加准确全面地为用户搜集和推荐网页,便于用户查找到需要的网页,可以提升用户的体验。

技术领域

本发明涉及网络数据采集技术领域,具体而言,本发明涉及一种网页搜集推荐方法和装置。

背景技术

随着互联网的迅猛发展,网络上的信息量日益增多。用户通常利用搜索引擎在互联网中查找需要的网页信息。

搜索引擎(Search Engine)预先根据指定的策略、利用网络爬虫从互联网上抓取网页,接收到用户输入的关键词后,计算关键词与预先抓取的各网页之间的相关度,选择相关度较高的网页推荐并展示给用户。

目前,网络爬虫主要包括传统爬虫和主题爬虫。

一种利用传统爬虫的网页搜集推荐方法主要包括:抓取一个或若干个初始网页后,从初始网页开始,获得当前网页上的URL(Uniform Resource Locator,统一资源定位器),根据获得的URL抓取网页;在抓取网页的过程中,不断从当前网页上抽取新的URL,根据新的URL继续抓取网页,直到满足预设的条件停止抓取网页,并存储已抓取到的网页;以在互联网上搜集尽可能多的网页推荐给用户。

然而,利用上述方法搜集推荐的众多网页中,通常包含大量用户不需要的网页,例如噪声网页,网页搜集推荐的准确性较低、效率低下。导致用户需要从大量的网页中,人工筛选所需要的网页,造成用户获取其所需要的网页的效率低下,用户体验不佳。

主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的网页。与传统爬虫不同,主题爬虫并不追求大的网页覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

一种利用主题爬虫的网页搜集推荐方法通常包括:根据用户输入的关键词,抓取一个或若干个网页作为主题的种子网页(或确定主题);抓取其它网页及其链接,根据指定的网页分析算法计算其它网页与种子网页(或主题)的相似度,过滤与种子网页(或主题)相似度较低的链接,保留与种子网页(或主题)相似度较高的链接并将其放入等待抓取的URL队列;然后,根据指定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到预设的条件,停止选择URL并抓取对应的网页进行存储,并将存储的网页推荐给用户。

然而,利用主题爬虫的网页搜集推荐方法通常会出现遗漏用户需要的网页的问题,造成用户查找不全所需要的网页,降低了用户的体验。

综上,现有的网页搜集推荐方法存在网页推荐准确性较低、效率低下、或者容易遗漏网页的缺陷。

发明内容

本发明针对现有的网页搜集方式的缺点,提出一种网页搜集推荐方法和装置,用以解决现有技术存在网页搜集推荐准确性较低、或效率低下,或者容易遗漏网页的问题,以提升网页推荐的准确性或效率,或降低遗漏网页的几率。

本发明的实施例根据一个方面,提供了一种网页搜集推荐方法,包括:

获取与用户输入的关键词相关的多个网页作为多个种子网页;

根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;

获取各种子网页所链接的多个网页作为多个扩展网页;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610102827.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top