[发明专利]一种针对于ftrl模型的数据处理方法及装置有效

专利信息
申请号: 201510575231.X 申请日: 2015-09-10
公开(公告)号: CN105184321B 公开(公告)日: 2018-12-14
发明(设计)人: 马越 申请(专利权)人: 北京金山安全软件有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人: 孙翠贤;马敬
地址: 100085 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 ftrl 模型 数据处理 方法 装置
【说明书】:

发明实施例提供了一种针对于ftrl模型的数据处理方法及装置。该方法中,获得多个待训练的日志数据块;确定所述多个待训练的日志数据块所对应的训练机;将多个待训练的日志数据块分别发送至相应训练机,以使得各个训练机利用相应的日志数据块训练所述ftrl模型,并将训练结果作为目标文件发送至所述电子设备;在获得各个训练机发送的目标文件后,对多个目标文件所存储特征的特征描述信息进行归并处理,形成训练结果文件。通过本方案可以在保证准确率的前提下,提高数据处理速度。

技术领域

本发明涉及技术领域,特别是涉及一种针对于ftrl模型的数据处理方法及装置。

背景技术

logistic回归模型是广泛用于预估的算法,例如,可以利用其预估每个用户对某个广告点击的概率,具体的,首先从用户日志数据中收集大量的相关的特征,如用户的国家、语言、年龄,广告的类别、显示尺寸,等等,从而用这些特征建立一个logistic回归模型,进而后续在使用时,可以通过这个模型给每一个关于用户和广告的组合计算一个分数,这个分数就是该用户在看到该广告时会点击的概率。

其中,ftrl模型是谷歌发明的logistic回归模型,具有高准确度和模型尺寸很小的优点,该算法实现细节在2013年以论文披露后迅速被多家公司使用。但是,谷歌所公布的ftrl(follow the regularized leader)模型是一个串行算法,即单机单线程方式运行程序,其中,关于某一特征的计算结果会作为下一次关于该特征的计算的输入,这样意味着在用户日志数据太多的时候,计算时间会很长,处理速度较慢。

为了解决谷歌发明的logistic模型的缺陷,现有技术中,通过异步的方法并行化ftrl模型,其中,并行化为多机或多线程方式运行程序,异步为并行化方式中的一种,具体为多线程或多机之间各自运行自己的任务,没有沟通。对于异步的方法并行化ftrl模型而言,由于并行化处理,使得数据处理速度成倍提到,但是,异步会带来另外一个问题:计算结果相互覆盖,使得关于每一特征的最终计算结果为最后一次计算所得结果,忽略了之前的计算结果,相对于串行方式准确率降低。

发明内容

本发明实施例的目的在于提供一种针对于ftrl模型的数据处理方法及装置,以在保证准确率的前提下,提高数据处理速度。具体技术方案如下:

第一方面,本发明实施例提供了一种针对于ftrl模型的数据处理方法,应用于电子设备,所述方法包括:

获得多个待训练的日志数据块,其中,每一日志数据块包括多条日志记录,且所述多个待训练的日志数据块中的日志记录各不相同;

确定所述多个待训练的日志数据块所对应的训练机,其中,所述训练机为用于利用日志数据块训练ftrl模型的设备,且训练机与日志数据块一一对应;

将所述多个待训练的日志数据块分别发送至相应训练机,以使得各个训练机利用相应的日志数据块训练所述ftrl模型,并将训练结果作为目标文件发送至所述电子设备,其中,每一目标文件中均存储有多个特征的特征描述信息,特征描述信息与特征一一对应;

在获得各个训练机发送的目标文件后,对多个目标文件所存储特征的特征描述信息进行归并处理,形成训练结果文件。

可选的,每一特征描述信息均包括相应特征的特征名和多维数值;

所述对多个目标文件所存储特征的特征描述信息进行归并处理,形成训练结果文件,包括:

对多个目标文件中,特征描述信息中的特征名相同的特征的多维数值进行两两归并处理,将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储在训练结果文件中;

将仅仅存在于一个目标文件中的特征的特征描述信息存储在所述训练结果文件中。

可选的,多维数值所涉及的变量为:w、z和n,其中,w为数值概率,z和n均为训练过程确定w时所需推倒系数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510575231.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top