[发明专利]一种发票商品名称分类方法及装置在审
申请号: | 202111553077.8 | 申请日: | 2021-12-17 |
公开(公告)号: | CN114219038A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 陈达;沈懿忱;刘子星;徐煌;罗贤哲;尤翔远 | 申请(专利权)人: | 税友信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F40/44;G06F40/284;G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓芬 |
地址: | 310053 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发票 商品名称 分类 方法 装置 | ||
本发明公开了一种发票商品名称分类方法及装置,在获取了待分类商品名称后,如果待分类核心词存在于预设核心词库中,则确定预设核心词库中待分类核心词的最大概率,如果最大概率超过概率阈值,则将最大概率对应的预设核心词库中的商品名称对应的商品分类编码作为待分类商品名称的商品分类编码,若最大概率没有超过概率阈值,将待分类商品名称输入至预先训练好的深度学习模型以得到分类结果及概率,基于分类结果的概率确定待分类商品名称的商品分类编码,深度学习模型基于历史发票样本中的商品名称、商品分类编码、销售方企业、购买方企业及销售方企业和所述购买方企业的交易次数训练得到,通过这种方式提高了准确率、效率和可行性。
技术领域
本发明涉及编号领域,特别是涉及一种发票商品名称分类方法及装置。
背景技术
目前,依照国家税务总局的税收分类编码表,不同的商品或服务可以被分类成数千个子类中,但是发票商品名称是杂乱且不规则的,因此用户在使用编码表对发票商品名称进行分类时可能会不准确。现有技术中,主要是使用深度学习模型来完成将杂乱、不规则的发票商品名称标准化为规范的商品分类编码,但是在实际分类过程中,商品名称可能不包含足够用于分类的信息,这会导致商品分类编码的不准确,同时在实际应用中由于商品名称的数量很多,现有的深度学习模型在面对大量的商品名称的输入时,处理的效率低,可行性低。
发明内容
本发明的目的是提供一种发票商品名称分类方法及装置,提高了效率和可行性。
为解决上述技术问题,本发明提供了一种发票商品名称分类方法,包括:
获取待分类商品名称;
提取所述待分类商品名称中的待分类核心词;
若所述待分类核心词存在于预设核心词库中,则确定所述预设核心词库中所述待分类核心词的最大概率;所述预设核心词库中预存有核心词及其对应的商品分类编码及所述商品分类编码的概率;
若所述待分类核心词的最大概率超过预设概率阈值,将所述预设核心词库中所述待分类核心词对应的商品分类编码作为所述待分类商品名称的商品分类编码;
若所述待分类核心词不存在于预设核心词库中或者待分类核心词的最大概率不超过预设概率阈值,将所述待分类商品名称输入至预先训练好的深度学习模型,得到分类结果及概率,基于所述概率确定所述待分类商品名称的商品分类编码,所述深度学习模型基于历史发票样本中的商品名称、商品分类编码、销售方企业、购买方企业及所述销售方企业和所述购买方企业的交易次数训练得到。
优选的,确定所述预设核心词库中所述待分类核心词的最大概率之前,还包括:
对所述待分类商品名称进行清洗,所述清洗包括删除所述商品名称中的单位词和/或删除所述商品名称中的简称。
优选的,所述待分类核心词包括结尾词、唯一词及简称词中的至少一个;
确定所述预设核心词库中所述待分类核心词的最大概率,包括:
将所述预设核心词库中的结尾词的预设概率与结尾词的预设权重相乘得到所述结尾词的当前概率;
将所述预设核心词库中的唯一词的预设概率与结尾词的预设权重相乘得到所述唯一词的当前概率;
将所述预设核心词库中的简称词的预设概率与结尾词的预设权重相乘得到所述简称词的当前概率;
判断所述结尾词、唯一词及简称词是否存在相同的核心词;
若不存在,则从所述结尾词、唯一词及简称词的当前概率中,选出当前概率最大的核心词的当前概率作为所述待分类核心词的最大概率;
若存在,则将相同的核心词的当前概率相加,得到相同的核心词的当前概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于税友信息技术有限公司,未经税友信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111553077.8/2.html,转载请声明来源钻瓜专利网。