[发明专利]商品编码预测模型生成和确定商品编码方法、装置及设备在审
申请号: | 201810825197.0 | 申请日: | 2018-07-25 |
公开(公告)号: | CN110851587A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 夏超 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q40/00;G06Q30/04 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁;张艳梅 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品 编码 预测 模型 生成 确定 方法 装置 设备 | ||
本申请公开了一种商品编码预测模型的生成方法,包括:确定第一商品描述信息样本集和第二商品描述信息样本集;根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。采用上述方法,以满足根据商品名称快速确定其对应的正确的商品编码的需求。
技术领域
本申请涉及人工智能领域,具体涉及一种商品编码预测模型的生成方法、装置、电子设备及存储设备。本申请同时涉及一种确定商品编码的方法、装置、电子设备及存储设备;本申请同时涉及另一种商品编码预测模型的生成方法、装置、电子设备及存储设备。
背景技术
目前,有很多领域需要商家或工作人员填写商品名称和商品名称对应的商品编码。
但是在填写商品名称对应的商品编码时,通常商家根据经验进行商品编码的填写,经常出现商品编码填写错误的情况,一旦出现错误,很可能带来不必要的损失。例如,2016年2月,国税总局在北京、上海、广东、江苏试点推出商品和服务税收分类编码;2018年1月,全国开始推行商品编码,商品编码的简称需要显示在开具的发票上,商品编码不正确的发票属于不合规发票,轻则罚钱,重则以虚开论处。税收商品编码有4000多个,对纳税人来说选择起来不太容易,对税务局来说工作人员需要判断纳税人选择的商品编码是否准确。
因此,如何快速根据商品名称确定与其对应的正确的商品编码是需要解决的问题。
发明内容
本申请提供一种商品编码预测模型的生成方法、装置、电子设备及存储设备,以及一种确定商品编码的方法、装置、电子设备及存储设备,以解决快速根据商品名称确定与其对应的正确的商品编码的问题。
本申请提供一种商品编码预测模型的生成方法,包括:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
可选的,包括:
所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码;所述第二商品描述信息样本集包括至少一个第二商品描述信息样本,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码。
可选的,还包括:对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述第一商品描述信息样本为去噪和/或消歧后的包含商品名称和所述商品名称对应的章节编码的商品描述信息;
所述第二商品描述信息样本为所述去噪和/或消歧后的包含商品名称和所述商品名称对应的商品编码的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810825197.0/2.html,转载请声明来源钻瓜专利网。