[发明专利]基于属性距离的商品相似度分析方法、装置及存储介质在审
申请号: | 201910772621.4 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110517077A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 葛忠林 | 申请(专利权)人: | 天津货比三价科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/35;G06F16/33;G06K9/62 |
代理公司: | 11514 北京酷爱智慧知识产权代理有限公司 | 代理人: | 向霞<国际申请>=<国际公布>=<进入国 |
地址: | 301700 天津市武清区京津科技谷产*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品数据 潜在属性 相似度 分析 相似度分析 存储介质 工作效率 混乱数据 属性距离 属性提取 算法处理 先验知识 预测模型 辨识 多层 预设 | ||
1.一种基于属性距离的商品相似度分析方法,其特征在于,包括:
选取任意两个商品数据作为待分析商品数据对;
对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性;
基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值;
将多个所述距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
2.如权利要求1所述的商品相似度分析方法,其特征在于,对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性,具体包括:
对所述待分析商品数据对的商品名称进行分词处理,以提取所述商品潜在属性。
3.如权利要求1所述的商品相似度分析方法,其特征在于,基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值,具体包括:
对所述商品潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述商品潜在属性进行多层距离计算,以得到多个距离值。
4.如权利要求3所述的商品相似度分析方法,其特征在于,所述商品潜在属性包括商品名称、品牌、单品规格、售卖规格、单品单位、包装内个数、型号或口味,对所述商品潜在属性进行向量化处理具体包括:
采用tf-idf或n-gram算法对商品名称、品牌、售卖规格、型号和口味进行向量化处理;
采用01匹配方式对单品单位和单品规格进行向量化处理。
5.如权利要求1-4任一项所述的商品相似度分析方法,其特征在于,所述商品相似度分析方法还包括训练所述预测模型,具体包括:
获取样本数据,所述样本数据包括两个相似度值超过阈值的商品对;
对所述样本数据进行属性提取处理,以得到样本潜在属性;
采用tf-idf或n-gram算法或01匹配方式对所述样本潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述样本潜在属性进行多层距离计算,以得到多个样本距离值;
根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型。
6.如权利要求5所述的商品相似度分析方法,其特征在于,根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型,具体包括:
根据多个样本距离值建立距离矩阵;
采用机器学习方法进行逻辑回归训练以求解多个属性权重值;
根据多个属性权重值确定所述预测模型。
7.一种基于属性距离的商品相似度分析装置,其特征在于,包括:
选取模块,用于选取任意两个商品数据作为待分析商品数据对;
提取模块,用于对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性;
计算模块,用于基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值;
预测模块,用于将多个所述距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
8.如权利要求7所述的商品相似度分析装置,其特征在于,还包括训练模块,用于训练所述预测模型,具体包括:
获取样本数据,所述样本数据包括两个相似度值超过阈值的商品对;
对所述样本数据进行属性提取处理,以得到样本潜在属性;
采用tf-idf或n-gram算法或01匹配方式对所述样本潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述样本潜在属性进行多层距离计算,以得到多个样本距离值;
根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津货比三价科技有限公司,未经天津货比三价科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910772621.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卷烟营销用大数据分析系统
- 下一篇:基于异步处理的数据上报方法及装置