[发明专利]一种页面链接的投放和投放调整方法及系统有效
申请号: | 201710058780.9 | 申请日: | 2017-01-23 |
公开(公告)号: | CN108345615B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 刘庆;周文军 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱佳 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 链接 投放 调整 方法 系统 | ||
本申请涉及网络技术,特别涉及一种页面链接的投放和投放调整方法及系统,用于提高新页面的被抓取率。该方法为:分别对引导页面和新页面进行聚簇,形成多个页面簇,在各个页面族之间基于内容相关性建立映射关系,保证新页面的链接只在建立映射的页面簇中投放,这样,有效提高了新页面与其他投放页面之间的相关性,搜索引擎在抓取到投放页面后,很容易基于内容相关性,在投放页面中进一步抓取到相关的新页面,从而可以大大提升新页面的被抓取率;同时,由于新页面和投放页面之间具有内容相关性,非常符合搜索引擎的相关规则,因此,新页面的被抓取权值会逐渐累积,从而可以在最短时间内从搜索引擎引入流量。
技术领域
本申请涉及网络技术,特别涉及一种页面链接的投放和投放调整方法及系统。
背景技术
目前,对于在搜索引擎优化网站(Search Engine Optimization Web,SEO Web)应用的新页面来说,其应用的核心目的就是:需要被各类通用搜索引擎快速收录并产生引流效果。为了达成上述目的,最关键的一步即是需要令新页面被搜索引擎采用网络爬虫所采集;其中,所谓网络爬虫,是一种按照一定规则自动抓取网络信息的程序或者脚本,各大搜索引擎都有各自专属的爬虫系统。
现有技术下,为了加快页面被爬虫抓取的速度,一般都会采取以下两种方式:
第一种方式为:将新页面的链接按照约定规则生成位置地图(sitemap)文件,并在各个搜索引擎的后台系统上传,后台系统会根据获得的sitemap文件解析出对应的链接并为其分配爬虫资源进行抓取。
然而,采用第一种方式时,由于搜索引擎每天分别给各个链接的爬虫调度量有限,并且搜索引擎通常会将爬虫资源优先分配给从搜索引擎引入的流量高(即权重高)的链接,而新页面在搜索引擎中的初始权重一般较低,因此,会导致在上传sitemap文件后的一段时间内,新页面对应的链接分配到的爬虫资源较少,从而导致新页面的被抓取率偏低以及流量偏低。
第二种方式为:在已经被搜索引擎收录且存在流量的原页面上部署新页面的链接,当搜索引擎采用爬虫技术再次抓取这些原页面,并更新收录的原页面的页面内容时,会分析得到原页面上新增加的链接,进而搜索引擎也可能会调度部分爬虫资源对这些新链接进行抓取。由于原页面在搜索引擎中的权重相对较高,理论上,对于新投放的新页面而言,采用这种方式可以比较快速地被收录且触发流量。
然而,采用第二种方式时,原页面和新页面之间的投放关系是随机确定的,即原页面和新页面之间没有相关性,那么,当新页面的被收录量低于期望值时,管理人员能够参考的样本数目较少,从而也无法找到合适的方式解决上述问题因此,同样也会导致新页面的被抓取周期较长,即导致新页面的被抓取率偏低以及流量偏低。
发明内容
本申请实施例提供一种页面链接的投放和投放调整方法及系统,用以减小新页面在搜索引擎中的被抓取周期,提高新页面的被抓取率。
本申请实施例提供的具体技术方案如下:
一种页面链接的投放方法,包括:
确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇;
分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的至少一个投放页面簇中;其中,一个新页面簇对应的投放页面簇为与所述一个新页面簇存在内容相关性的引导页面簇或新页面簇,所述引导页面为已投放页面,新页面为未投放页面。
可选的,确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇之前,进一步包括:
按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇;
基于内容相关性,分别对应每一个页面簇分别设置相应的至少一个投放页面簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710058780.9/2.html,转载请声明来源钻瓜专利网。