[发明专利]基于属性距离的商品相似度分析方法、装置及存储介质在审
申请号: | 201910772621.4 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110517077A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 葛忠林 | 申请(专利权)人: | 天津货比三价科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/35;G06F16/33;G06K9/62 |
代理公司: | 11514 北京酷爱智慧知识产权代理有限公司 | 代理人: | 向霞<国际申请>=<国际公布>=<进入国 |
地址: | 301700 天津市武清区京津科技谷产*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品数据 潜在属性 相似度 分析 相似度分析 存储介质 工作效率 混乱数据 属性距离 属性提取 算法处理 先验知识 预测模型 辨识 多层 预设 | ||
本发明实施例公开了一种基于属性距离的商品相似度分析方法、装置及存储介质,方法包括:选取任意两个商品数据作为待分析商品数据对;对待分析商品数据对进行属性提取处理,以得到商品潜在属性;基于所述商品潜在属性,对待分析商品数据对进行多层距离算法处理,以得到多个距离值;将多个距离值输入预设的预测模型,以得到待分析商品数据对的相似度值。通过上述技术方案,可快速、准确地识别出混乱数据中的相似商品,无需从业人员根据先验知识进行人工辨识,提高了商品相似度识别的准确性,也提高了工作效率。
技术领域
本发明涉及数据统计分析技术领域,具体涉及一种基于属性距离的商品相似度分析方法、装置及存储介质。
背景技术
现代社会商品种类繁多,市面上的批发商品因为多方面因素影响,价格有高有低,商品销售从业人员迫切希望获得一种辨别相同商品的能力,从而达到增加从业业绩。现存在的问题是:难以发现商品是否为同一个商品,关于商品相似度数据分析结果不准确,从业工作人员辨识商品需要很多先验知识,分析方法也大多存在缺陷。
具体地,现有辨识方案缺乏,大多基于商品名称相似度计算,该方法准确度不高;从业人员分析商品的方法也由于信息挖掘渠道和关注点往往带有主观性,数据分析人员会朝着预期潜意识判断去收集数据,所以分析结果往往不够准确,最后导致无法发现是同一个商品价格的浮动。
因此,同类商品之间竞争给从业者带来了巨大压力,准确而快速的找到具有竞争关系的一对商品必然能够为行业产品的市场拓展和降低成本带来重要参考依据。
发明内容
本发明实施例的目的在于提供一种基于属性距离的商品相似度分析方法、装置及存储介质,以提高商品相似度识别的准确性,提高工作效率。
为实现上述目的,第一方面,本发明实施例提供了一种基于属性距离的商品相似度分析方法,包括:
选取任意两个商品数据作为待分析商品数据对;
对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性;
基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值;
将多个所述距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
作为本申请一种具体的实施方式,对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性,具体包括:
对所述待分析商品数据对的商品名称进行分词处理,以提取所述商品潜在属性。
作为本申请一种具体的实施方式,基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值,具体包括:
对所述商品潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述商品潜在属性进行多层距离计算,以得到多个距离值。
其中,所述商品潜在属性包括商品名称、品牌、单品规格、售卖规格、单品单位、包装内个数、型号或口味,对所述商品潜在属性进行向量化处理具体包括:
采用tf-idf或n-gram算法对商品名称、品牌、售卖规格、型号和口味进行向量化处理;
采用01匹配方式对单品单位和单品规格进行向量化处理。
进一步地,作为本申请一种优选的实施方式,所述商品相似度分析方法还包括训练所述预测模型,具体包括:
获取样本数据,所述样本数据包括两个相似度值超过阈值的商品对;
对所述样本数据进行属性提取处理,以得到样本潜在属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津货比三价科技有限公司,未经天津货比三价科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910772621.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卷烟营销用大数据分析系统
- 下一篇:基于异步处理的数据上报方法及装置