[发明专利]数据处理方法和装置有效
申请号: | 201410198312.8 | 申请日: | 2014-05-12 |
公开(公告)号: | CN103995852B | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 赵莲;朱延峰;路华生;郭佳聘;郑清江 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法和装置。
背景技术
随着互联网的快速发展,用户可以通过互联网展现的页面获取更多的信息。对于互联网广告投放商来说,分析用户对互联网上广告的点击行为,对自身的广告投放具有重要意义。用户在互联网上的点击行为可以记录在展现点击日志中,展现点击日志是不可缺少的训练数据,广泛应用在广告的点击率(Click Through Rate,CTR)预估模型中。
相关技术中,直接应用搜索引擎中的展现点击日志作为广告点击率预估模型的输入数据,默认页面上加载的广告都展现给了用户,用户点击即为正例,否则为负例。
但是,相对于个人电脑(Personal Computer,PC),移动终端的屏幕较小,展现的内容有限,导致页面上加载的广告不能全部展现给用户。因此,直接采用展现点击日志不仅导致CTR模型的输入数据量较大,且并不能真实反映用户的浏览点击行为,存在大量非真实的数据,影响CTR模型预估的准确率。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种数据处理方法,该方法可以降低CTR模型的输入数据量,且提高模型的预估准确率。
本发明的另一个目的在于提出一种数据处理装置。
为达到上述目的,本发明第一方面实施例提出的数据处理方法,包括:对搜索结果进行展现,所述搜索结果是根据用户输入的搜索词得到的;获取移动终端屏幕上展现内容的信息,所述展现内容包括:初始屏幕展现内容,以及,用户每次滑屏后的屏幕展现内容;将所述展现内容的信息发送给服务器,以使所述服务器记录所述展现内容的信息,所述展现内容的信息用于获取所述搜索结果中没有被用户浏览到的内容,并在展现点击日志中去除所述没有被用户浏览到的内容的信息。
本发明第一方面实施例提出的数据处理方法,通过将移动终端屏幕上展现内容的信息发送给服务器,然后根据移动终端屏幕上展现内容的信息确定没有被用户浏览到的内容,并在展现点击日志中去除没有被用户浏览到的内容的信息,一方面由于去除了部分信息可以降低CTR模型的输入数据量,另一方面由于去除了没有被用户浏览到的内容的信息,可以避免将不准确的信息作为模型的输入数据,提高模型的预估准确率。
为达到上述目的,本发明第二方面实施例提出的数据处理方法,包括:获取服务器中记录的移动终端屏幕上展现内容的信息,所述展现内容的信息是所述移动终端对搜索结果进行展现后得到并发送给所述服务器的,所述搜索结果是根据用户输入的搜索词得到的,所述展现内容包括:初始屏幕展现内容,以及,用户每次滑屏后的屏幕展现内容;根据所述展现内容的信息获取所述搜索结果中没有被用户浏览到的内容;在展现点击日志中去除所述没有被用户浏览到的内容的信息。
本发明第二方面实施例提出的数据处理方法,通过根据移动终端屏幕上展现内容的信息确定没有被用户浏览到的内容,并在展现点击日志中去除没有被用户浏览到的内容的信息,一方面由于去除了部分信息可以降低CTR模型的输入数据量,另一方面由于去除了没有被用户浏览到的内容的信息,可以避免将不准确的信息作为模型的输入数据,提高模型的预估准确率。
为达到上述目的,本发明第三方面实施例提出的数据处理装置,包括:展现模块,用于对搜索结果进行展现,所述搜索结果是根据用户输入的搜索词得到的;获取模块,用于获取移动终端屏幕上展现内容的信息,所述展现内容包括:初始屏幕展现内容,以及,用户每次滑屏后的屏幕展现内容;发送模块,用于将所述展现内容的信息发送给服务器,以使所述服务器记录所述展现内容的信息,所述展现内容的信息用于获取所述搜索结果中没有被用户浏览到的内容,并在展现点击日志中去除所述没有被用户浏览到的内容的信息。
本发明第三方面实施例提出的数据处理装置,通过将所述移动终端屏幕上展现内容的信息发送给服务器,然后根据所述展现内容的信息获取所述搜索结果中没有被用户浏览到的内容,并在展现点击日志中去除所述没有被用户浏览到的内容的信息,一方面由于去除了部分信息可以降低CTR模型的输入数据量,另一方面由于去除了没有被用户浏览到的内容的信息,可以避免将不准确的信息作为模型的输入数据,提高模型的预估准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410198312.8/2.html,转载请声明来源钻瓜专利网。