[发明专利]基于流式处理框架的训练方法及系统在审
申请号: | 201910596116.9 | 申请日: | 2019-07-03 |
公开(公告)号: | CN112182459A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 罗玄;陈茂森;黄君实 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/58 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 处理 框架 训练 方法 系统 | ||
1.一种基于流式处理框架的训练方法,所述训练方法包括:
获取实时产生的用户点击日志数据,所述用户点击日志数据包括:用户对图文信息的点击数据;
根据所述用户点击日志数据,实时提取待训练数据,其中,所述待训练数据包括:用户点击的图文信息的图片url和文本信息;
利用待训练数据对训练模型进行实时训练。
2.根据权利要求1所述的方法,其中,所述根据所述用户点击日志数据,实时提取待训练数据进一步包括:
依据预设数据清洗规则,实时对所述用户点击日志数据进行数据清洗处理得到待训练数据。
3.根据权利要求1或2所述的方法,其中,根据所述用户点击日志数据,实时提取待训练数据之后,所述方法还包括:
对待训练数据进行格式转换处理,得到对应格式的待训练数据。
4.根据权利要求1-3中任一项所述的方法,其中,在获取实时产生的用户点击日志数据之后,所述方法还包括:
将所述用户点击日志数据存储至缓存中;
所述根据用户点击日志数据,实时提取待训练数据进一步包括:
从缓存中提取用户点击日志数据,根据从缓存中提取的用户点击日志数据,实时提取待训练数据。
5.根据权利要求1-4中任一项所述的方法,其中,所述训练模型为TensorFlow流式处理框架下的训练模型。
6.一种基于流式处理框架的训练系统,所述训练系统包括:数据源服务器、数据处理服务器及训练客户端;
其中,数据源服务器,用于获取实时产生的用户点击日志数据,将所述用户点击日志数据发送给数据处理服务器;所述用户点击日志数据包括:用户对图文信息的点击数据;
数据处理服务器,用于根据所述用户点击日志数据,实时提取待训练数据,将所述待训练数据发送给训练客户端;其中,所述待训练数据包括:用户点击的图文信息的图片url和文本信息;
训练客户端,用于利用待训练数据对训练模型进行实时训练;或者
数据处理服务器,用于将所述用户点击日志数据发送给训练客户端;
训练客户端,用于根据所述用户点击日志数据,实时提取待训练数据,利用待训练数据对训练模型进行实时训练;其中,所述待训练数据包括:用户点击的图文信息的图片url和文本信息。
7.根据权利要求6所述的系统,其中,所述数据处理服务器进一步用于:依据预设数据清洗规则,实时对所述用户点击日志数据进行数据清洗处理得到待训练数据。
8.根据权利要求6或7所述的系统,其中,所述数据处理服务器还用于:对待训练数据进行格式转换处理,得到对应格式的待训练数据。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的基于流式处理框架的训练方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的基于流式处理框架的训练方法对应的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910596116.9/1.html,转载请声明来源钻瓜专利网。