[发明专利]一种页面链接的投放和投放调整方法及系统有效
申请号: | 201710058780.9 | 申请日: | 2017-01-23 |
公开(公告)号: | CN108345615B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 刘庆;周文军 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱佳 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 链接 投放 调整 方法 系统 | ||
1.一种页面链接的投放方法,其特征在于,预先按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇,并基于内容相关性,分别对应每一个页面簇分别设置相应的至少一个投放页面簇,包括:
确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇;
分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的至少一个投放页面簇中;其中,一个新页面簇对应的投放页面簇为与所述一个新页面簇存在内容相关性的引导页面簇或新页面簇,所述引导页面为已投放页面,新页面为未投放页面。
2.如权利要求1所述的方法,其特征在于,按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇,包括:
采用预设的聚簇规则分别对预设的引导页面集合中的各个引导页面和预设的新页面集合中的各个新页面进行页面特征值提取;
对提取出的各个页面特征值进行标签化处理,获得相应的页面标签;
根据各个引导页面的页面标签,对各个引导页面进行聚簇,获得若干引导页面簇;
根据各个新页面的页面标签,对各个引导页面进行聚簇,获得若干新页面簇。
3.如权利要求2所述的方法,其特征在于,获得页面标签之后,在执行聚簇操作之前,进一步包括:
对各个引导页面的页面标签进行归一化处理;以及,
对各个新页面的页面标签进行归一化处理。
4.如权利要求2所述的方法,其特征在于,基于内容相关性,对应每一个新页面簇分别设置相应的至少一个投放页面簇,包括:
确定新页面簇的页面标签;
筛选出与所述新页面簇的页面标签的关联度,达到设定关联度门限的其他页面标签;
将筛选出的所述其他页面标签对应的引导页面簇或/和其他新页面簇,确定为所述新页面簇对应的投放页面簇。
5.如权利要求1-4任一项所述的方法,其特征在于,分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的投放页面簇中,包括:
循环执行以下操作,直到新页面簇中的新页面的链接投放完毕:
选取一个新页面的链接;
按照所述一个新页面的链接对应的投放期望数目,从相应的至少一个投放页面簇中选取相应数目的投放页面,其中,一个投放页面为引导页面或新页面;
将所述一个新页面的链接分别投放至选取的每一个投放页面中。
6.一种页面链接的投放调整方法,其特征在于,按照设定的任务周期投放新页面的链接,在每一个任务周期中,执行以下操作:
确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇,分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的至少一个投放页面簇中;其中,一个新页面簇对应的投放页面簇为与所述一个新页面簇存在内容相关性的引导页面簇或新页面簇,所述引导页面为已投放页面,新页面为未投放页面;
到达设定的投放检测时间点时,统计投放的各个新页面的链接的被抓取次数;
针对被抓取次数已达到预设的抓取期望值的新页面的链接,确定不再投放,针对被抓取次数未达到预设的抓取期望值的新页面的链接,更新相应的投放期望数目。
7.如权利要求6所述的方法,其特征在于,在开始执行所述任务周期之前,进一步包括:
按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇;
基于内容相关性,分别对应每一个页面簇分别设置相应的至少一个投放页面簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710058780.9/1.html,转载请声明来源钻瓜专利网。