[发明专利]一种类别确定方法、装置及设备在审
申请号: | 201810344756.6 | 申请日: | 2018-04-17 |
公开(公告)号: | CN110390332A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 梁奇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别确定 字符组 装置及设备 目标字符 字符属性 名称信息 组确定 准确率 申请 分割 | ||
本申请提供一种类别确定方法、装置及设备,该方法包括:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。通过本申请的技术方案,能够有效确定数据的类别,提高类别确定的准确率,可以将同一类商品的多种描述尽量归一到相同类别,达到减少类别数量的目的。
技术领域
本申请涉及互联网技术领域,尤其涉及一种类别确定方法、装置及设备。
背景技术
数据归类是指:确定数据的类别,并获取属于同一类别的所有数据,基于该类别的所有数据进行处理。例如,在税务行业中,发票数据的商品名称是关键要素,可以根据商品名称确定发票数据的类别,得到该类别的所有发票数据,并利用该类别的所有发票数据进行宏观分析、进销异常、偷税漏税检测等处理。
但是,应该如何确定数据的类别,目前,缺少有效的实现方式。
例如,发票数据中的商品名称可以是用户手工录入的,并没有规范的命名方式,如“水泥”类别的发票数据中,商品名称可能包括:水泥208、水泥322、水泥(快干)、水泥PC325-纸袋50KG-红水河牌等,这样,如何将包括这些商品名称的发票数据归类到“水泥”类别,目前,还没有有效的实现方式。
发明内容
本申请提供一种类别确定方法,所述方法包括:
利用字符属性将数据的名称信息分割成至少一个字符组;
利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
根据所述目标字符组确定所述数据的类别。
本申请提供一种类别确定方法,所述方法包括:
利用字符属性将数据中的商品名称分割成至少一个字符组;
利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
根据所述目标字符组确定所述商品名称对应的类别;
将所述数据归集到所述商品名称对应的类别。
本申请提供一种类别确定装置,所述装置包括:
分割模块,用于利用字符属性将数据的名称信息分割成至少一个字符组;
选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;确定模块,用于根据所述目标字符组确定所述数据的类别。
本申请提供一种类别确定装置,所述装置包括:
分割模块,用于利用字符属性将数据中的商品名称分割成至少一个字符组;
选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;确定模块,用于根据所述目标字符组确定所述商品名称对应的类别;
归集模块,用于将所述数据归集到所述商品名称对应的类别。
本申请提供一种类别确定设备,包括:
处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810344756.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抄表设备和智能电表
- 下一篇:一种基于网纹特征的人脸网纹去除方法和装置