[发明专利]文档收集系统和方法有效
申请号: | 201110168897.5 | 申请日: | 2011-06-17 |
公开(公告)号: | CN102298609A | 公开(公告)日: | 2011-12-28 |
发明(设计)人: | 高永受;韩承烨;徐祯佑 | 申请(专利权)人: | NHN株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 韩明星;金光军 |
地址: | 韩国京畿*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 收集 系统 方法 | ||
技术领域
本发明涉及一种在网站上收集文档的系统和方法,更详细地讲,涉及一种在作为搜索对象的文档中收集发生更新的文档的文档收集系统和方法。
背景技术
一般来讲,搜索服务商利用网络机器人(web robot)在存在于互联网上的多个网站中收集文档的内容。此时,网络机器人利用随机访问方法(random access method)的爬行(crawling)技术来收集包含于文档中的内容。具体来讲,搜索服务商随机地提取种子网址(Seed URL),基于提取的Seed URL通过网络机器人收集文档。因此,与文档各自的独有URL无关地收集文档。
当以上述的方式收集文档时,存在这种问题,即,由于网络机器人的随机访问,网络网站发生大的负荷。另外,由于网络机器人的随机收集,搜索服务商将与搜索请求无关的文档作为搜索结果来提供。即,因没有归一化的URL和文档内容,搜索服务商难以分析文档收集结果。
因此,需要避免给网络网站加重负荷的同时,能够收集正确的网络文档的系统和方法。
发明内容
本发明提供了一种通过识别信息来收集发生更新的文档,从而能够减少随机爬行引起的网站负荷的系统和方法。
本发明提供了一种内容提供者将与文档的更新关联的识别信息传递给搜索商,从而在搜索结果中仅能够反映内容提供者所期望的文档的系统和方法。
本发明提供了一种以XML形式收集发生更新的文档,从而标题、内容、标签(tag)等文档的结构能够正确地反映到搜索结果的系统和方法。
根据本发明的一实施例的一种文档收集系统包括:识别信息接收部,从至少一个网站接收发生更新的文档的识别信息;收集请求传递部,根据所述识别信息,向所述网站传递所述文档的收集请求;以及,更新信息收集部,收集响应于所述文档的收集请求从所述网站传送的文档的更新信息。
根据本发明的一实施例的一种文档收集方法包括步骤:从至少一个网站接收发生更新的文档的识别信息;根据所述识别信息向所述网站传递所述文档的收集请求;收集响应于所述文档的收集请求从所述网站传送的文档的更新信息。
根据本发明的一实施例,通过识别信息来收集发生更新的文档,所以能够减少随机爬行引起的网站的负荷。
根据本发明的一实施例,内容提供者将与文档的更新关联的识别信息传递给搜索商,所以仅内容提供者希望的文档能够被反映到搜索结果。
根据本发明的一实施例,以XML形式收集发生更新的文档,所以标题、内容、标签等文档的结果能够正确地反映到搜索结果。
附图说明
图1是用于说明根据本发明的一实施例的收集文档的过程的示图;
图2是示出根据本发明的一实施例的文档收集系统的详细结构的框图;
图3是示出本发明中使用的资源(resource)的结构的示图;
图4是示出根据本发明的一实施例的文档收集方法的流程图;
图5是根据本发明的另一实施例对收集的文档进行搜索的系统的一示例。
主要符号的说明
210为识别信息接收部,220为收集请求传递部,230为更新信息接收部,240为搜索结果提供部。
具体实施方式
以下,将参照附图详细描述本发明的实施例。根据本发明的一实施例的文档收集方法可由文档收集系统执行。
图1是用于说明根据本发明的一实施例的收集文档的过程的示图。
参照图1,当发生更新时,网站110将诸如因特网包搜索器(Ping,packet internet grope)协议的识别信息传送给文档收集系统120。例如,文档的更新表示包含于文档中的内容发生注册/修改/删除等。还有,Ping表示文档发生更新的一种信号。
据此,响应于所接收识别信息,文档收集系统120向网站110请求发生更新的文档。此时,文档收集系统120请求满足“Atom Syndication Format”的联合(syndication)文档。
响应于文档收集系统120的请求,网站110可将发生更新的文档传递给文档收集系统120。具体地讲,文档收集系统120可从网站110收集以XML结构构成的联合文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于NHN株式会社,未经NHN株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110168897.5/2.html,转载请声明来源钻瓜专利网。