[发明专利]用于处理点击行为数据的方法和装置有效
申请号: | 201910352770.5 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110069691B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 苏晓东;刘广 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 点击 行为 数据 方法 装置 | ||
1.一种用于处理点击行为数据的方法,包括:
获取预设类别的点击行为数据,所述点击行为数据包括点击的页面的地址以及执行点击操作的设备的设备标识;
对所述预设类别的点击行为数据进行建模,生成表征设备标识与点击的页面的地址之间的点击关系的关系模型;
基于所述关系模型对所述设备标识和所述页面的地址进行聚类,得到至少一个类簇;
基于获取到的对至少一个类簇的搜索引擎优化行为检测结果,生成所述至少一个类簇中的页面的搜索引擎优化行为的类别信息;
在生成搜索结果时,对异常或通过作弊手段提升搜索排名的页面进行屏蔽或降低排名处理。
2.根据权利要求1所述的方法,其中,所述获取预设类别的点击行为数据,包括:
从搜索引擎的点击行为日志中筛选出点击的页面的地址在预设的泛域名列表中的点击行为数据。
3.根据权利要求1所述的方法,其中,所述关系模型包括二部图,所述对所述预设类别的点击行为数据进行建模,生成表征设备标识与点击的页面的地址之间的点击关系的关系模型,包括:
从所述点击行为数据中提取出设备标识集合和页面的地址集合,作为二部图中的两个顶点集合;
基于所述点击行为数据中的设备标识与点击的页面的地址之间的点击关系,将所述两个顶点集合中的对应顶点连接,形成所述二部图的边。
4.根据权利要求3所述的方法,其中,所述基于所述关系模型对设备标识和点击的页面的地址进行聚类,得到至少一个类簇,包括:
确定所述二部图中的连通分量;
对所述连通分量中的表征设备标识和页面的地址的顶点进行聚类,得到至少一个类簇。
5.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:
基于类簇中的设备标识和页面的地址的数量对聚类得到的类簇进行过滤;以及
所述基于获取到的对至少一个类簇的搜索引擎优化行为检测结果,生成所述至少一个类簇中的页面的搜索引擎优化行为的类别信息,包括:
基于获取到的对至少一个过滤后的类簇的搜索引擎优化行为检测结果,生成所述至少一个过滤后的类簇中的页面的搜索引擎优化行为的类别信息。
6.一种用于处理点击行为数据的装置,包括:
获取单元,被配置为获取预设类别的点击行为数据,所述点击行为数据包括点击的页面的地址以及执行点击操作的设备的设备标识;
建模单元,被配置为对所述预设类别的点击行为数据进行建模,生成表征设备标识与点击的页面的地址之间的点击关系的关系模型;
聚类单元,被配置为基于所述关系模型对所述设备标识和所述页面的地址进行聚类,得到至少一个类簇;
检测单元,被配置为基于获取到的对至少一个类簇的搜索引擎优化行为检测结果,生成所述至少一个类簇中的页面的搜索引擎优化行为的类别信息;
处理单元,被配置为在生成搜索结果时,对异常或通过作弊手段提升搜索排名的页面进行屏蔽或降低排名处理。
7.根据权利要求6所述的装置,其中,所述获取单元进一步被配置为按照如下方式获取预设类别的点击行为数据:
从搜索引擎的点击行为日志中筛选出点击的页面的地址在预设的泛域名列表中的点击行为数据。
8.根据权利要求6所述的装置,其中,所述关系模型包括二部图,所述建模单元进一步被配置为按照如下方式对所述预设类别的点击行为数据进行建模,生成表征设备标识与点击的页面的地址之间的点击关系的关系模型:
从所述点击行为数据中提取出设备标识集合和页面的地址集合,作为二部图中的两个顶点集合;
基于所述点击行为数据中的设备标识与点击的页面的地址之间的点击关系,将所述两个顶点集合中的对应顶点连接,形成所述二部图的边。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910352770.5/1.html,转载请声明来源钻瓜专利网。