[发明专利]基于spark streaming实时流的特征工程推荐方法及装置、视频网站有效

专利信息
申请号: 201611147453.2 申请日: 2016-12-13
公开(公告)号: CN106599182B 公开(公告)日: 2019-10-11
发明(设计)人: 刘严泽;田文宝;李修鹏;陈福;欣莅;党磊;张玲 申请(专利权)人: 飞狐信息技术(天津)有限公司
主分类号: G06F16/78 分类号: G06F16/78
代理公司: 天津创智天诚知识产权代理事务所(普通合伙) 12214 代理人: 周庆路;田阳
地址: 300000 天津市滨海新区天津经济开*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 sparkstreaming 实时 特征 工程 推荐 方法 装置 视频 网站
【说明书】:

发明公开了一种基于spark streaming实时流的特征工程推荐方法,包括,获取客户端的展开日志和点击日志,清洗后打入分布式消息队列;使用spark streaming订阅展开日志和点击日志的日志流,在工程中合并两个日志流中的流数据;操作流数据生成标签以标识出展开点击和展开未点击流数据;根据基础特征为展开日志和点击日志构造多维特征,同时组合基础时间特征;将具有新的特征的流数据分别进行离线训练和在线训练以生成推荐流数据。本发明提供了一种广泛适用大多数领域的特征提取方式,解决了特征工程适用范围小的问题,并采用以在线为主、离线纠正的方式,解决了特征工程时效性的问题,并经过一些列的特征组合变换来实现特征的有效性和准确性。

技术领域

本发明涉及视频推荐处理技术领域,特别是涉及一种基于spark streaming实时流的特征工程推荐方法。

背景技术

随着互联网2.0时代的全面到来,网络中充斥的大量的信息数据,如何利用这些庞大而杂乱的数据,从中挖据出有价值的信息成为了热点话题,这也为数据挖掘中作为一重要分支领域的机器学习带来了发展的春天。在机器学习技术中,很少有人关注特征工程(Feature Engineering),而更多的去在意模型和算法的选择与优化,然而,特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。

大多数模型都可以通过数据中良好的结构很好的学习,即使不是最优的模型,优质的特征也可以得到不错的效果。优质特征的灵活性可以让你使用简单的模型运算的更快,更容易理解,更容易维护。有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

这就要求存在这样一套流程,能有效的进行特征提取,并将提取出的原始特征进行特征变换、特征组合等一系列过程,得到优质的特征,来提高机器学习算法模型的准确度。

目前,国内外已经存在很多机器学习领域的特征工程建设,如美团订单推荐中的特征工程、百度广告系统的特征工程等。

百度广告系统的特征工程主要是采用机器学习算法辅助人工抽取的方式,基于大量的经验挑选出合适的特征并经过大量的特征变换与组合,实现特征的高纬度和精确性,更依赖于特征提取的经验和多种算法的组合运用。

美团的推荐系统的特征工程建设更具有电商的性质,例如以地理位置为特征构建附近商家推荐的模型等。再根据这些与业务紧密相连的特征,采用多种算法对特征变换与组合来实现特征工程的建设。

传统的特征工程建设更加依赖于对业务的理解个经验,经过不断的实验性探索得到适合自身领域的特征,而且大多是已离线特征为主,这样就具有很强的局限性且缺少了时效性,这样势必导致特征工程的运用范围不够广泛,且难度较大,不适用于平台建设和对外推广。这都不符合如今互联网时代所要求的生态化、平台化、共享性、及时性、有效性和方便性,尤其不能满足视频类推荐需求。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于sparkstreaming实时流的特征工程推荐方法。

为实现本发明的目的所采用的技术方案是:

一种基于spark streaming实时流的特征工程推荐方法,包括,

获取客户端的展开日志和点击日志,清洗后打入分布式消息队列;

使用spark streaming订阅展开日志和点击日志的日志流,在工程中合并两个日志流中的流数据;操作流数据生成标签以标识出展开点击和展开未点击流数据;

根据基础特征为展开日志和点击日志构造多维特征,同时组合基础时间特征;

将组合完特征后的流数据输出hdfs和kafka中,在hdfs中基于历史流数据进行GDBT模型训练并根据GDBT模型并对特征进行特征变换,将变换后特征与hdfs和kafka中的原始特征组合并生成新的特征,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于飞狐信息技术(天津)有限公司,未经飞狐信息技术(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611147453.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top