[发明专利]一种针对于ftrl模型的数据处理方法及装置有效
申请号: | 201510575231.X | 申请日: | 2015-09-10 |
公开(公告)号: | CN105184321B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 马越 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孙翠贤;马敬 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 ftrl 模型 数据处理 方法 装置 | ||
1.一种针对于ftrl模型的数据处理方法,其特征在于,应用于电子设备,所述方法包括:
获得多个待训练的日志数据块,其中,每一日志数据块包括多条日志记录,且所述多个待训练的日志数据块中的日志记录各不相同;
确定所述多个待训练的日志数据块所对应的训练机,其中,所述训练机为用于利用日志数据块训练ftrl模型的设备,且训练机与日志数据块一一对应;
将所述多个待训练的日志数据块分别发送至相应训练机,以使得各个训练机利用相应的日志数据块训练所述ftrl模型,并将训练结果作为目标文件发送至所述电子设备,其中,每一目标文件中均存储有多个特征的特征描述信息,特征描述信息与特征一一对应;
在获得各个训练机发送的目标文件后,对多个目标文件所存储特征的特征描述信息进行归并处理,形成训练结果文件。
2.根据权利要求1所述的方法,其特征在于,每一特征描述信息均包括相应特征的特征名和多维数值;
所述对多个目标文件所存储特征的特征描述信息进行归并处理,形成训练结果文件,包括:
对多个目标文件中,特征描述信息中的特征名相同的特征的多维数值进行两两归并处理,将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储在训练结果文件中;
将仅仅存在于一个目标文件中的特征的特征描述信息存储在所述训练结果文件中。
3.根据权利要求2所述的方法,其特征在于,多维数值所涉及的变量为:w、z和n,其中,w为数值概率,z和n均为训练过程确定w时所需推倒系数。
4.根据权利要求3所述的方法,其特征在于,所述对多个目标文件中,特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括:
w=(w1+w2)/2;
n=n1+n2-ni;
其中,w1和w2为待归并的两个数值概率,n1和n2为待归并的两个推倒系数,z1和z2为待归并的两个推倒系数,ni是预设的初始值,α、β、λ1和λ2均为经验常数。
5.根据权利要求3所述的方法,其特征在于,所述对多个目标文件中,特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括:
w=(w1+w2)/2;
n=(n1+n2)/2;
z=(z1+z2)/2;
其中,w1和w2为待归并的两个数值概率,n1和n2为待归并的两个推倒系数,z1和z2为待归并的两个推倒系数。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述确定所述多个待训练的日志数据块所对应的训练机,包括:
通过哈希映射算法,确定所述多个待训练的日志数据块所对应的训练机。
7.一种针对于ftrl模型的数据处理装置,其特征在于,应用于电子设备,所述装置包括:
日志数据块获得模块,用于获得多个待训练的日志数据块,其中,每一日志数据块包括多条日志记录,且所述多个待训练的日志数据块中的日志记录各不相同;
训练机确定模块,用于确定所述多个待训练的日志数据块所对应的训练机,其中,所述训练机为用于利用日志数据块训练ftrl模型的设备,且训练机与日志数据块一一对应;
日志数据块发送模块,用于将所述多个待训练的日志数据块分别发送至相应训练机,以使得各个训练机利用相应的日志数据块训练所述ftrl模型,并将训练结果作为目标文件发送至所述电子设备,其中,每一目标文件中均存储有多个特征的特征描述信息,特征描述信息与特征一一对应;
训练结果文件确定模块,用于在获得各个训练机发送的目标文件后,对多个目标文件所存储特征的特征描述信息进行归并处理,形成训练结果文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510575231.X/1.html,转载请声明来源钻瓜专利网。