[发明专利]商品编码预测模型生成和确定商品编码方法、装置及设备在审
申请号: | 201810825197.0 | 申请日: | 2018-07-25 |
公开(公告)号: | CN110851587A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 夏超 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q40/00;G06Q30/04 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁;张艳梅 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品 编码 预测 模型 生成 确定 方法 装置 设备 | ||
1.一种商品编码预测模型的生成方法,其特征在于,包括:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
2.根据权利要求1所述的方法,其特征在于,包括:
所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码;所述第二商品描述信息样本集包括至少一个第二商品描述信息样本,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码。
3.根据权利要求2所述的方法,其特征在于,还包括:对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述第一商品描述信息样本为去噪和/或消歧后的包含商品名称和所述商品名称对应的章节编码的商品描述信息;
所述第二商品描述信息样本为所述去噪和/或消歧后的包含商品名称和所述商品名称对应的商品编码的商品描述信息。
4.根据权利要求3所述的方法,其特征在于,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
5.根据权利要求3所述的方法,其特征在于,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
6.根据权利要求3所述的方法,其特征在于,所述对包括商品名称和商品编码的商品原始描述信息进行消歧处理,包括:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
7.根据权利要求1所述的方法,其特征在于,所述第一商品编码预测模型和所述第二商品编码预测模型为fasttext模型。
8.根据权利要求7所述的方法,其特征在于,还包括:
通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;
所述第一商品描述信息样本和/或第二商品描述信息样本为增加数据信息的商品描述信息。
9.根据权利要求2所述的方法,其特征在于,商品描述信息中的商品名称和商品编码的来源,包括:纳税人开具的商品发票上的商品名称和商品编码。
10.根据权利要求9所述的方法,其特征在于,商品描述信息中的商品名称和商品编码的来源,还包括:
根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
11.一种商品编码预测模型的生成方法,其特征在于,包括:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810825197.0/1.html,转载请声明来源钻瓜专利网。