[发明专利]一种对发票中的商品名称进行归集的方法、装置及设备在审
申请号: | 201811488931.5 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109614616A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 涂昶;王培勇;张帆 | 申请(专利权)人: | 税友软件集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q30/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 310053 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 遍历 相似度 发票 计算机可读存储介质 装置及设备 发票数据 目标商品 相似程度 选取规则 预设要求 预设 统计 | ||
本发明公开了一种对发票中的商品名称进行归集的方法,能够提取发票数据中的多个商品名称,并计算各个商品名称之间的相似度,最后遍历各个商品名称,根据预设选取规则,从与当前遍历到的商品名称之间的相似度满足预设要求的商品名称中选取目标商品名称,作为当前遍历到的商品名称的归集结果。可见,该方法实现了将相似程度较高的商品名称归集到同一商品名称的目的,避免了由于同一商品具有不同名称导致的商品统计工作困难程度较大的问题。此外,本发明还提供了一种对发票中的商品名称进行归集的装置、设备及计算机可读存储介质,其作用与上述方法相对应。
技术领域
本发明涉及金融科技领域,特别涉及一种对发票中的商品名称进行归集的方法、装置、设备及计算机可读存储介质。
背景技术
由于我国企业数量多,发票数量大,商品种类繁多,且不同的纳税人甚至个体存在不同的开票习惯,导致同一商品存在多种名称,这给统计纳税人对商品的购进销售情况带来极大困难。
发明内容
本发明的目的是提供一种对发票中的商品名称进行归集的方法、装置、设备及计算机可读存储介质,用以解决由于同一商品在发票中的名称不同,导致该商品的统计工作的困难程度较高的问题。
为解决上述技术问题,本发明提供了一种对发票中的商品名称进行归集的方法,包括:
提取发票数据中的多个商品名称;
计算各个所述商品名称之间的相似度;
遍历所述商品名称,根据预设选取规则,从与当前遍历到的商品名称之间的相似度满足预设要求的商品名称中选取目标商品名称,作为所述当前遍历到的商品名称的归集结果。
可选的,所述遍历所述商品名称,根据预设选取规则,从与当前遍历到的商品名称之间的相似度满足预设要求的商品名称中选取目标商品名称,作为所述当前遍历到的商品名称的归集结果,具体包括:
遍历所述商品名称,筛选与当前遍历到的商品名称之间的相似度满足预设要求的商品名称;
通过对比在所述发票数据中与商品名称相关联的特征,对筛选得到的商品名称进行再次筛选;
根据预设选取规则,从经过再次筛选的商品名称中选取目标商品名称,作为所述当前遍历到的商品名称的归集结果。
可选的,所述在所述发票数据中与商品名称相关联的特征包括商品单位和/或商品价格。
可选的,所述根据预设选取规则,从经过再次筛选的商品名称中选取目标商品名称,作为所述当前遍历到的商品名称的归集结果,具体包括:
根据预设选取规则,从经过再次筛选的商品名称中选取目标商品名称;
若所述目标商品名称的数量为多个,则判断所述当前遍历到的商品名称的归集次数是否超过预设次数;
若未超过,则根据所述预设选取规则,从所述目标商品名称中选取最终的目标商品名称,作为所述当前遍历到的商品名称的归集结果。
可选的,在所述根据所述预设选取规则,从所述目标商品名称中选取最终的目标商品名称,作为所述当前遍历到的商品名称的归集结果之后,还包括:
保存所述当前遍历到的商品名称与所述归集结果之间的对应关系。
可选的,在所述提取发票数据中的多个商品名称之后,且在所述计算各个所述商品名称之间的相似度之前,还包括:
对所述商品名称进行数据清洗。
可选的,所述遍历所述商品名称,根据预设选取规则,从与当前遍历到的商品名称之间的相似度满足预设要求的商品名称中选取目标商品名称,作为所述当前遍历到的商品名称的归集结果,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于税友软件集团股份有限公司,未经税友软件集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811488931.5/2.html,转载请声明来源钻瓜专利网。