[发明专利]用于确定小程序相似度的方法及装置在审
申请号: | 201910718800.X | 申请日: | 2019-08-05 |
公开(公告)号: | CN110633355A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 戚立才;张多坤 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F11/34;G06K9/62 |
代理公司: | 11415 北京博思佳知识产权代理有限公司 | 代理人: | 周嗣勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 小程序 用户访问行为 访问行为 相似度 语料库 向量表示 时间序列数据 用户集中 用户集 日志 语料 | ||
1.一种用于确定小程序相似度的方法,包括:
基于用户集中的各个用户针对至少一个小程序的访问行为日志,生成针对所述用户集的用户访问行为语料库,所述用户访问行为语料库中的每条用户访问行为语料包括用户针对所述至少一个小程序的访问行为时间序列数据;
基于所述用户访问行为语料库,确定所述至少一个小程序中的各个小程序在用户访问行为空间中的向量表示;以及
基于各个小程序的向量表示,确定各个小程序之间的相似度。
2.如权利要求1所述的方法,其中,每条用户访问行为语料包括用户在指定时间段内针对所述至少一个小程序的访问行为时间序列数据。
3.如权利要求1所述的方法,还包括:
从所述用户访问行为语料库中筛除异常用户的用户访问行为语料,以及
基于所述用户访问行为语料库,确定所述至少一个小程序中的各个小程序在用户访问行为空间中的向量表示包括:
基于经过筛除处理后的用户访问行为语料库,确定所述至少一个小程序中的各个小程序在用户访问行为空间中的向量表示。
4.如权利要求1所述的方法,其中,基于所述用户访问行为语料库,确定所述至少一个小程序中的各个小程序在用户访问行为空间中的向量表示包括:
基于所述用户访问行为语料库,使用word2vec模型或doc2vec模型来确定所述至少一个小程序中的各个小程序在用户访问行为空间中的向量表示。
5.如权利要求1所述的方法,还包括:
获取用户集中的各个用户针对至少一个小程序的访问行为日志。
6.如权利要求1到5中任一所述的方法,其中,所述相似度采用下述中的一种来表征:
欧几里得距离;
夹角余弦距离;
汉明距离;以及
曼哈顿距离。
7.一种用于确定小程序相似度的装置,包括:
语料库生成单元,被配置为基于用户集中的各个用户针对至少一个小程序的访问行为日志,生成针对所述用户集的用户访问行为语料库,所述用户访问行为语料库中的每条用户访问行为语料包括用户针对所述至少一个小程序的访问行为时间序列数据;
向量表示确定单元,被配置为基于所述用户访问行为语料库,确定所述至少一个小程序中的各个小程序在用户访问行为空间中的向量表示;以及
相似度确定单元,被配置为基于各个小程序的向量表示,确定各个小程序之间的相似度。
8.如权利要求7所述的装置,其中,每条用户访问行为语料包括用户在指定时间段内针对所述至少一个小程序的访问行为数据。
9.如权利要求7所述的装置,还包括:
语料筛除单元,被配置为从所述用户访问行为语料库中筛除异常用户的用户访问行为语料,以及
所述向量表示确定单元被配置为:基于经过筛除处理后的用户访问行为语料库,确定所述至少一个小程序中的各个小程序在用户访问行为空间中的向量表示。
10.如权利要求7所述的装置,其中,所述向量表示确定单元被配置为:
基于所述用户访问行为语料库,使用word2vec模型或doc2vec模型来确定所述至少一个小程序中的各个小程序在用户访问行为空间中的向量表示。
11.如权利要求7所述的装置,还包括:
日志获取单元,被配置为获取用户集中的各个用户针对至少一个小程序的访问行为日志。
12.一种计算设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到6中任一所述的方法。
13.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到6中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910718800.X/1.html,转载请声明来源钻瓜专利网。