[发明专利]一种商品的匹配与识别方法、装置、设备和介质有效
申请号: | 202111181881.8 | 申请日: | 2021-10-11 |
公开(公告)号: | CN114049505B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 郑新刚;邱华淞;张意坤;林富钦;杨锋 | 申请(专利权)人: | 数采小博科技发展有限公司 |
主分类号: | G06V10/74 | 分类号: | G06V10/74;G06K9/62;G06F40/284;G06F40/166;G06F16/33;G06F16/31 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 王牌 |
地址: | 350200 福建省福州市长乐区文武砂*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 商品 匹配 识别 方法 装置 设备 介质 | ||
本发明提供一种商品的匹配与识别方法、装置、设备和介质,方法包括:S1、对电子商城中的商品数据进行治理;S2、分别利用第一匹配算法和第二匹配算法对商品的相似度进行匹配,得到第一匹配结果和第二匹配结果;S3、对所述第一匹配结果和所述第二匹配结果进行交叉验证,提取匹配差别较大的部分,根据人工检测结果判别所述第一匹配算法和所述第二匹配算法中哪种算法更准确;S4、当所述第一匹配算法更为准确时,则调整所述第二匹配算法中的参数,或当所述第二匹配算法更为准确时,则调整所述第一匹配算法中的参数,回到步骤S2,直到所述第一匹配算法和所述第二匹配算法都达到预期准确度。
技术领域
本发明涉及计算机技术领域,特别涉及一种电子商城中商品的匹配与识别方法、装置、设备和介质。
背景技术
电子商城中商品的匹配识别是根据商品的描述,把相同商品进行匹配,以达到精确识别商品、实现商品比价和价格监测的目的。现有技术中往往有如下方式进行商品识别:
A、人工梳理法:通过人工梳理商品的特征名和特征值(或属性名和属性值),并形成商品标准化数据,在此基础上进行商品匹配识别;
B、全文搜索法:以ElasticSearch等搜索引擎为中心,通过输入关键字、配置字符串相似度和简单规则搜索匹配商品;
C、商品归一法:利用监督学习,代替了“人工梳理法”中商品特征的人工梳理的环节,是“人工梳理法”的升级版。其过程分为数据预处理和商品归一两部分,如图1所示为商品归一的整体框架。其中,模式集成、缺失值填充、错误值修复属于数据预处理部分,定义特征相似度、训练分类器、聚类则属于商品归一部分。各部分的特点如下:
a)模式集成。把所有商品的属性都纳入到统一的模式下,其主要原理是通过字符串相似度把本质上相同的特征值先进行合并,再把本质上相同的特征名合并。这里涉及到相似度的阈值,即字符串相似度不低于指定阈值则认为是相同的,阈值通过随机挑选部分商品的特征进行人工标记再训练后得到:
上面公式中,δ和θ分别为特征名和特征值的相似度阈值。
b)缺失值填充。特征中有两类缺失:特征值缺失和模式缺失,即商品中缺失一个或多个本该存在的特征名及其值。缺失值填充算法伪代码如下:
c)错误值修复。又分为错误值检测、正确值确认。其中,错误值检测的伪代码如下:
经过缺失值填充和错误值检测后会存在冲突属性,需要执行正确值确认,可以选择下面两个策略中的任一个:
(1)
(2)
d)定义特征相似度(特征选择)。若两个商品在某个属性上的取值分别为v1和v2,则他们在该特征上的相似度定义如下:
除了商品特征表外,商品名称(标题)和价格也是商品特征的补充。
e)商品名称的相似度计算。需先进行分词,去除停用词,再利用TF-ID]计算词权重,最后利用Jaccord计算带权重的相似度,公式如下:
价格相似度计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数采小博科技发展有限公司,未经数采小博科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111181881.8/2.html,转载请声明来源钻瓜专利网。