[发明专利]将商品对象挂载到标准产品单元的方法及系统有效
申请号: | 201410019036.4 | 申请日: | 2014-01-15 |
公开(公告)号: | CN104778186B | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 陈俊波;陈春明;王力;庞昂博;蔡维佳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品对象 挂载 标准产品 分词 回归模型 聚类中心 特征向量 文本描述 训练数据 二元组 标注信息 特征提取 应用提供 预测结果 权重 预置 申请 预测 | ||
本申请公开了将商品对象挂载到标准产品单元的方法及系统,其中,所述方法包括:对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型;获取第一训练数据,生成SPU聚类中心;获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心;将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并分别进行特征提取,将二元组分别表示为特征向量;获取标注信息,得到第二训练数据;建立回归模型;将商品对象的特征向量输入到所述回归模型中,根据预测结果确定待预测的商品对象所属的SPU,以便向相关应用提供挂载结果。通过本申请,能更准确地将商品对象自动挂载到SPU上。
技术领域
本申请涉及商品对象信息分析技术领域,特别是涉及将商品对象挂载到标准产品单元的方法及系统。
背景技术
在一个电子商务网站中,存在大量的交易信息,其中包括卖家出售的商品对象的描述信息。这些商品对象的描述信息一般是卖家在发布商品对象是通过枚举输入产生的。在实际应用中,出于获得更高的搜索命中率等目的,卖家在发布商品对象时,在对商品对象的名称进行描述时,除了最基本的商品名、型号等信息之外,往往还会添加进一些属性信息到名称中。例如,某商品对象是一款iPhone5S手机,但是卖家可能会将其名称描述为:“苹果iPhone5S16G内存800W像素”,另外一卖家可能会将其名称描述为:“假一赔命Apple/苹果iPhone5S代手机16G32G国际无锁正品包邮”,等等。这就会出现以下情况:许多不同的卖家会出售本质上相同的商品对象,但是对商品对象名称的具体描述却千差万别。
另一方面,电子商务网站可以采用标准产品单元(Standard Product Unit,SPU)来描述本质上相同的商品。SPU是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品最本质的特性。例如,在前述手机的例子中,对应的SPU就可以描述为“苹果/iPhone5S16G”,等等。在实际应用中,往往会具有将商品对象映射到标准产品单元SPU的需求。将商品对象映射到SPU后的应用有很多。例如:通过观察同一SPU下不同商品的价格分布,识别电子商务中的假货问题;通过分析相同SPU商品的交易,可以得到电子商务领域中商品的供应链关系;通过识别相同SPU的商品,可以改进搜索结果的用户体验;等等。但是,如何将商品映射到SPU,是电子商务领域的基础性难题。
现有技术对于商品挂载到SPU的处理方式为,让卖家自行填写商品的各种属性以及属性值,当商品的关键属性的属性值与SPU的关键属性的属性值完全匹配时,将商品挂载到该SPU上。
可见,现有技术中的实现方式中,挂载结果的准确性在很大程度上依赖于用户手动输入的属性及属性值的准确性。但是,由于电子商务领域的属性与属性值的可能取值太过庞大,以至于卖家填写的过程非常复杂,而且在这种复杂的过程中,卖家往往会由于各种原因,发生漏填、错填或者填写不规范内容的情况。在这种情况下,商品就无法正常的挂载到正确的SPU上,这不但会降低商品发布效率,而且会浪费网络资源。
因此,如何更准确地将商品对象自动挂载到正确的SPU上,是迫切需要本领域技术人员解决的技术问题。
发明内容
本申请提供了将商品对象挂载到标准产品单元的方法及系统,能够更准确地将商品对象自动挂载到正确的SPU上。
本申请提供了如下方案:
一种将商品对象挂载到标准产品单元的方法,包括:
对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各个商品对象以及SPU分别用一个或多个<分词,权重,类型>三元组组成的三元组向量进行描述;其中,类型包括品牌词、产品词、属性词或普通词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410019036.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式设备日志采集方法
- 下一篇:云存储元数据处理系统