[发明专利]外卖场景下店铺embedding特征提取的方法有效
申请号: | 201711230471.1 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108009847B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 赵纪伟;杨清海;鲁焕;秦猛 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪;李霞 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 外卖 场景 店铺 embedding 特征 提取 方法 | ||
本发明属于计算机应用技术领域,公开了一种外卖场景下店铺embedding特征提取的方法、计算机、计算机程序。提取每个用户消费的行为序列;用户消费行为序列按店铺平均消费价格、店铺类别划分;对于划分后的消费序列,提取出训练样本;构建基于负抽样的skip‑gram模型,并利用tensorflow框架训练;提取店铺的embedding特征向量。本发明对店铺进行embedding特征提取,获取了店铺某些方面的特征信息,将数据从高维的one‑hot特征空间转换为指定维度的embedding特征空间;结合商户的embedding特征与线上模型,带来线上下单模型的整体性能提升。
技术领域
本发明属于计算机应用技术领域,尤其涉及一种外卖场景下店铺embedding特征提取的方法。
背景技术
Google在2013年开源了词向量计算的工具——word2vec,引起了工业界和学术界的关注。word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;得到的训练结果——词向量(word embedding),很好地度量词与词之间的相似性。在外卖领域,针对线上业务实时性的需求,原始的dense特征与one-hot特征并不能满足及时毫秒的预测时延要求,需要对店铺的特征进行整体的抽象;从特征工程的角度来看,现有的特征工程工作主要是从单维度进行的,很难从一个整体的角度来反映店铺的特征;传统的FM算法在样本空间很大的时候很难保证效率。
综上所述,现有技术存在的问题是:由于现有的特征工程工作主要从单维度,而不是从整体的角度来反映店铺特征,这就会导致特征空间趋于扁平;现有特征量线下为1000万维左右,线上为300维左右,大的特征量导致算法复杂度较高,很难满足线上实时计算的需求。若能解决这几个核心问题,可以有效降低线上业务的时延,将推荐过程控制在40ms以内,更好地符合推荐业务的需求,方便用户从大量店铺中寻找到自己感兴趣的店铺。
发明内容
针对现有技术存在的问题,本发明提供了一种外卖场景下店铺embedding特征提取的方法、计算机、计算机程序。
本发明是这样实现的,一种外卖场景下店铺embedding特征提取的方法,所述外卖场景下店铺embedding特征提取的方法包括:提取每个用户消费的行为序列;用户消费行为序列按店铺平均消费价格、店铺类别划分;对于划分后的消费序列,提取出训练样本;构建基于负抽样的skip-gram模型,并利用tensorflow框架训练;提取店铺的embedding特征向量。
进一步,所述提取每个用户消费的行为序列具体包括:从数据库中,提取用户一定时间内的用户所有下单店铺及其ID,按照用户ID将数据分组,构建每个用户ID的下单店铺集合,存储到数据库中。
进一步,所述用户消费行为序列按店铺平均消费价格、店铺类别划分具体包括:将提取出的用户下单店铺序列按店铺的平均消费价格划分为多个等级,同时将不同价格区间的店铺划分为子集合。
进一步,所述提取店铺的embedding特征向量具体包括:用tensorflow训练好的向量保存到本地,并在实际操作中提取需要的店铺embedding特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711230471.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种特殊改进结构的纺织面料清洗机
- 下一篇:一种自动喂食鱼缸