[发明专利]将商品对象挂载到标准产品单元的方法及系统有效
申请号: | 201410019036.4 | 申请日: | 2014-01-15 |
公开(公告)号: | CN104778186B | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 陈俊波;陈春明;王力;庞昂博;蔡维佳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品对象 挂载 标准产品 分词 回归模型 聚类中心 特征向量 文本描述 训练数据 二元组 标注信息 特征提取 应用提供 预测结果 权重 预置 申请 预测 | ||
1.一种将商品对象挂载到标准产品单元的方法,其特征在于,包括:
对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各个商品对象以及SPU分别用一个或多个<分词,权重,类型>三元组组成的三元组向量进行描述;
获取第一训练数据,其中,各个SPU下预先挂载有多个商品对象;对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中心;
基于各个商品对象以及SPU聚类中心的三元组向量,获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心;
将各个商品对象分别表示为<商品对象,目标SPU聚类中心>二元组,并针对各个二元组,分别进行特征提取,将二元组分别表示为特征向量;
针对预置数目的二元组,获取标注信息,得到第二训练数据,所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心;
根据第二训练数据中的各个特征向量以及所述标注信息,对预置的回归模型中的参数进行拟合,建立回归模型;
将待预测的商品对象的特征向量输入到所述回归模型中,根据预测结果确定待预测的商品对象所属的SPU,并将待预测的商品对象挂载到所属的SPU下。
2.根据权利要求1所述的方法,其特征在于,所述获取各个分词所属的类型,包括:
利用通用的CRF模型对各个商品对象以及SPU的文本描述信息进行切分,得到各个文本描述信息对应的初步切分序列,其中,在初步切分序列中,各条文本描述信息被切分为一个或多个实体词,并确定出各个实体词所属的类型;
根据各个初步切分序列中包含的实体词,建立异构网络图模型,在所述异构网络图模型中,将所述实体词作为节点,将实体词在同一文本描述信息中的共现关系映射为节点之间的边,两个实体之间的条件概率作为边的权重;
将所述通用的CRF模型与所述异构网络图模型集成,得到优化的CRF模型,利用优化的CRF模型对各个商品对象以及SPU的文本描述信息进行切分,得到各个文本描述信息对应的切分序列。
3.根据权利要求2所述的方法,其特征在于,所述通用的CRF模型中,提取的特征包括切分序列中的元素在切分序列中的位置信息、上下文信息、词性信息、语言类型信息和/或特殊词汇信息。
4.根据权利要求2所述的方法,其特征在于,将所述通用的CRF模型与所述异构网络图模型集成时,根据同一文本描述信息中切分出的实体词,从异构网络图中提取子图,提取的特征包括切分出的实体词在所述子图中的入度、实体词在入边上的最大权重值、实体词在入边上的平均权重值和/或在子图中,与实体词类型相同的节点个数。
5.根据权利要求1所述的方法,其特征在于,所述对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类,包括:
针对SPU的三元组向量中包含的分词,根据挂载在该SPU下的各个商品对象分别对应的三元组,计算分词的平均权重,利用该平均权重替换该SPU对应的三元组中的权重信息。
6.根据权利要求1所述的方法,其特征在于,所述对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类,包括:
针对SPU的三元组向量中未包含、但挂载在该SPU下的商品对象的三元组向量中包含的分词,根据挂载在该SPU下的各个商品对象分别对应的三元组,统计各分词在对应类型下出现的次数,以及平均权重,如果所述次数以及平均权重符合预置条件,则将该分词、平均权重以及对应的类型组成的三元组添加到该SPU的三元组向量中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410019036.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式设备日志采集方法
- 下一篇:云存储元数据处理系统