[发明专利]主题网络语料库有效
申请号: | 201611233014.3 | 申请日: | 2016-11-17 |
公开(公告)号: | CN107025261B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | X·格勒昂;M·尚普努瓦 | 申请(专利权)人: | 达索系统公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/954 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 邬少俊;王英 |
地址: | 法国韦利济*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 网络 语料库 | ||
本发明尤其涉及计算机实现的方法,该方法由存储搜索引擎的索引的服务器来执行,以用于向客户端发送与主题有关的网络语料库的页面的URL。该方法包括从客户端接收对应于主题的结构化的查询,该结构化的查询由至少一个关键词的析取组成;在索引中确定由与查询匹配的所有页面的URL组成的组;并且将该组的URL作为流发送至客户端。这种方法改善了主题网络语料库的构建。
技术领域
本发明涉及用于网络爬取(crawl)的计算机程序和系统领域,更具体地为用于构建一个与该主题相关的网络语料库的方法,系统和程序。
背景技术
市面上提供了用于网络爬取的许多系统和程序,以便例如构建任何类型的文档的语料库(通常称作关于文件是从网络中取回的事实的“网络语料库”)。然后语料库用来做后续的搜索、分析和/或任何其他应用。通常可利用的技术不允许构建专用的网络语料库,诸如关于主题的语料库(或“主题网络语料库”),或带有不完美的精度和/或查全率。
标准网络爬取(如图1所示,其表示从上到下的时序图,例如在Taubes,Gary——Indexing the internet——Science 269.5229,1995中描述的)包含从种子URL开始,在这些URL处下载页面,并且解析每个页面以收集更多的URL以访问。这种方式对于收集主题语料库是低效的,因为可能在多重链接后,与话题无关的页面可能链接至与话题相关的页面(即与主题相关的页面)。一种极端的选项是不跟随(follow)来自话题无关的页面的链接。这带来低的查全率(即,在构建的语料库中最终与话题相关的页面的数量相对于网络中最初呈现的总数)。另一种极端的选项在于爬取整个网络。这有一个非常低的精度(即,在构建的语料库中与话题相关的页面数目相对于爬取的页面的总数目,它们包含或不包含在语料库中)。
因此,发明了聚焦网络爬取(如图2所示,其表示从上到下的时序图,例如在Novak,Blaz——A survey of focused Web crawling algorithms——SIKDD学报5558,2004中描述的)以减轻标准网络爬取的缺点,相似的方法。聚焦爬取器使用额外的步骤,该步骤包括对网页给出分数,该分数应当关于该网页链接至最终将链接至与话题相关页面的另一页面的可能性。通常期望该方法发现在以上描述的极端选项之间的折衷。然而,这仍没有产生足够高的精确度或查全率。它仅提高了关于爬取整个网络的精确率,这是因为它降低了所爬取的与话题无关的页面的数量。它提高了关于在与话题无关页面处停止的查全率,这是因为它容许了具有最终链接至与话题相关的页面的高估计概率的某些页面。
在这些内容中,仍然存在对于高效地构建主题网络语料库的改进技术方案的需要,即具有合理的计算费用、精确率和查全率。
发明内容
本发明提供了一种计算机实现的方法,其由存储搜索引擎索引的服务器执行,以向客户端发送与主题相关的网络语料库的页面的URL。该方法包括从客户端接收与主题相对应的结构化的查询,该结构化的查询由至少一个关键词的析取组成。该方法还包括确定索引中的组,该组由与查询相匹配的所有页面的URL组成。该确定包括在索引上读取该查询的析取的关键词,从而从索引中取回URL的至少一个集合,然后针对取回的URL的至少一个集合而执行与该查询的析取相对应的集合操作的方案,从而产生URL的组。并且该方法包括将该组的URL作为流而发送至客户端。
在示例中,该组的URL作为流而发送至客户端可以包括与客户端建立网络连接(例如,HTTP连接),在网络连接上将该组的URL流式传输,然后关闭该网络连接。
本发明进一步提供一种用于构建涉与主题有关的网络语料库的、计算机实现的方法。该方法包括又客户端向存储搜索引擎的索引的服务器发送与主题相对应的结构化的查询,该结构化的查询由至少一个关键词的析取组成;然后,基于该结构化的查询和根据用于由服务器执行的发送方法,由服务器将网络语料库的页面的URL作为流而发送至客户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达索系统公司,未经达索系统公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611233014.3/2.html,转载请声明来源钻瓜专利网。