[发明专利]商品向量化方法、装置、计算机系统及存储介质在审
申请号: | 202110375169.5 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113779376A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 胡猛;王刚;佘志东 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/16;G06K9/62;G06Q30/06 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周天宇 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品 量化 方法 装置 计算机系统 存储 介质 | ||
本公开提供了一种商品向量化方法,包括:基于预设时间段内的商品浏览记录生成至少一个商品序列;基于至少一个商品序列中的不同品类商品两两之间的共现次数生成共现矩阵,以及,基于至少一个商品序列中不同品类商品两两之间的属性的共值数量生成共值矩阵;将共现矩阵和共值矩阵加权融合,得到融合矩阵;将融合矩阵输入预设的商品向量化模型,得到各个商品的向量。
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种商品向量化方法、装置、计算机系统及存储介质。
背景技术
在商品推荐等领域,对商品(Item)进行向量表示,往往被看作是一项基础工作。很多下游的任务都是以商品向量为基础,比如可以直接计算向量的余弦距离来求得两个商品的相似度,还可以将商品向量作为很多复杂计算模型的输入。
将商品向量化表示的方法大致可以总结为三种方法,即基于传统降维算法的嵌入方法(如SVD)、基于序列模型的嵌入方法(seq-embedding),基于图算法的嵌入方法(graph-embedding)。其中,SVD对离散的特征矩阵进行压缩降维,使用左奇异矩阵和最大的m个奇异值来构造商品向量。这种方法复杂度很高,并且它对所有商品的统计权重都是一致的,这一点是与现实不符合的,同时它在一般的任务中都表现较差。基于序列模型的嵌入,即Item2vec,是基于自然语言处理中skip-gram算法结合负采样实现的,这种算法只是在特定窗口中做预测,没有考虑全局的共现信息。虽然加入负采样,但是因为没有考虑商品之间的特征差异,对中部和尾部的商品学习到的向量也有所偏差。而基于图算法的嵌入,受限于需要大规模高质量的数据以及复杂的模型设计,往往无法在实际生产中很好的落地。
发明内容
有鉴于此,本公开提供了一种商品向量化方法,包括:基于预设时间段内的商品浏览记录生成至少一个商品序列;基于所述至少一个商品序列中的不同品类商品两两之间的共现次数生成共现矩阵,以及,基于所述至少一个商品序列中不同品类商品两两之间的属性的共值数量生成共值矩阵;将所述共现矩阵和所述共值矩阵加权融合,得到融合矩阵;将所述融合矩阵输入预设的商品向量化模型,并优化所述商品向量化模型,得到各个所述商品的向量表示;其中,所述商品向量化模型的参数至少包括第一矩阵和第二矩阵及所述融合矩阵,所述第一矩阵的各行向量分别为一个所述商品的第一向量,所述第二矩阵的各行向量分别表示一个所述商品的第二向量,所述第一向量和所述第二向量共同构成对应的所述商品的向量表示,通过优化所述商品向量化模型,以得到各所述商品最优的所述向量表示。
根据本公开的实施例,所述基于预设时间段内的商品浏览记录生成至少一个商品序列包括:判定所述商品浏览记录中的各相邻所述商品之间的浏览间隔是否超过第一预设时长;当两个相邻的所述商品的浏览间隔超过第一预设时长时,以所述浏览间隔为分割点,将所述商品浏览记录分为两段,并根据每段所述商品浏览记录相应生成一条所述商品序列,所述商品序列由按照浏览顺序排列的所述商品组成。
根据本公开的实施例,还包括:去除所述商品序列中所述浏览时长未达到第二预设时长的所述商品;将所述商品序列中连续出现的同一所述商品去重;以及去除长度小于或等于2的所述商品序列。
根据本公开的实施例,所述基于所述至少一个商品序列中的不同品类商品两两之间的共现次数生成共现矩阵,以及,基于所述至少一个商品序列中不同品类商品两两之间的属性的共值数量生成共值矩阵包括:依次以所述商品序列中的各个商品作为中心商品,从所述商品序列中截取预设长度的子序列;统计所述中心商品与所述子序列中的其它商品的共现次数;基于各所述子序列统计的所述共现次数,统计所述商品序列中各个商品之间的共现总次数;基于所述共现总次数构建所述共现矩阵;以及,统计所述商品序列中各所述商品与所述商品序列中的其他商品的属性的共值数量,基于所述共值数量构建所述共值矩阵。
根据本公开的实施例,所述共现矩阵和所述共值矩阵中的各元素的行角标和列角标分别表示了所述商品序列中的一个所述商品的序号,所述共现矩阵中的所述元素表示所述商品序列中的两个所述商品的共现总次数,所述共值矩阵中的所述元素表示所述商品序列中的两个所述商品的共值数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110375169.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于区复位行为的数据存储设备的区分配
- 下一篇:车辆的侧门结构