[发明专利]一种商品相似度判定模块贡献量化方法及系统在审
申请号: | 202111001847.8 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113643100A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 哈达;张勇 | 申请(专利权)人: | 北京值得买科技股份有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100071 北京市丰台区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 商品 相似 判定 模块 贡献 量化 方法 系统 | ||
1.一种商品相似度判定模块贡献量化方法,其特征在于,包括:
第一步:从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;
第二步:对清洗后的商品数据进行抽样,作为样本数据集;
第三步:使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;
第四步:根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。
2.根据权利要求1所述的方法,其特征在于,对清洗后的商品数据进行抽样,作为样本数据集,具体包括:
抽取第一组数据集,每组内包含2个相同SPU下相同SKU的商品;抽取第二组数据集,每组内包含2个相同SPU下不同SKU的商品;将所述第一组数据集和所述第二组数据集作为样本数据集,其中,所述第一组数据集和所述第二组数据集中的商品的组数相同。
3.根据权利要求1所述的方法,其特征在于,所述判定模块包括标题判定模块、属性判定模块和图片判定模块;
所述使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数,具体包括:
使用标题判定模块、属性判定模块、图片判定模块对样本数据集进行相似度判定,记录分别单独使用三个判定模块、两两组合判定模块、同时使用三个判定模块共七种情况的判断正确的个数。
4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:
对所述贡献量化值进一步进行归一化处理,形成各个判定模块的比例关系。
5.一种商品相似度判定模块贡献量化系统,其特征在于,包括:
数据清洗单元,用于从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;
数据抽样单元,用于对清洗后的商品数据进行抽样,作为样本数据集;
相似度判定单元,用于使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;
量化计算单元,用于根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。
6.根据权利要求5所述的系统,其特征在于,所述数据抽样单元,具体用于:
抽取第一组数据集,每组内包含2个相同SPU下相同SKU的商品;抽取第二组数据集,每组内包含2个相同SPU下不同SKU的商品;将所述第一组数据集和所述第二组数据集作为样本数据集,其中,所述第一组数据集和所述第二组数据集中的商品的组数相同。
7.根据权利要求5所述的系统,其特征在于,所述判定模块包括标题判定模块、属性判定模块和图片判定模块;
所述相似度判定单元,具体用于:
使用标题判定模块、属性判定模块、图片判定模块对样本数据集进行相似度判定,记录分别单独使用三个判定模块、两两组合判定模块、同时使用三个判定模块共七种情况的判断正确的个数。
8.根据权利要求5至7任一项所述的装置,其特征在于,所述量化计算单元,还用于对所述贡献量化值进一步进行归一化处理,形成各个判定模块的比例关系。
9.一种终端设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至4中任一项所述的方法。
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,其特征在于,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至4中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京值得买科技股份有限公司,未经北京值得买科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111001847.8/1.html,转载请声明来源钻瓜专利网。