[发明专利]一种类别确定方法、装置及设备在审
申请号: | 201810344756.6 | 申请日: | 2018-04-17 |
公开(公告)号: | CN110390332A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 梁奇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别确定 字符组 装置及设备 目标字符 字符属性 名称信息 组确定 准确率 申请 分割 | ||
1.一种类别确定方法,其特征在于,所述方法包括:
利用字符属性将数据的名称信息分割成至少一个字符组;
利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
根据所述目标字符组确定所述数据的类别。
2.根据权利要求1所述的方法,其特征在于,所述利用字符属性将数据的名称信息分割成至少一个字符组,包括以下方式中的至少一种:
将所述名称信息中具有相同字符属性的相邻字符分割到同一字符组;
将所述名称信息中具有不同字符属性的字符分割到不同字符组;
将所述名称信息中具有相同字符属性的不相邻字符分割到不同字符组。
3.根据权利要求1所述的方法,其特征在于,
所述利用字符属性将数据的名称信息分割成至少一个字符组,包括:
利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值;
从所述名称信息中确定与所述编码值对应的字符组。
4.根据权利要求3所述的方法,其特征在于,所述利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值,包括:
确定所述名称信息中每个字符的字符属性对应的编码值;
对编码值相同的相邻编码值进行合并,得到所述至少一个编码值。
5.根据权利要求4所述的方法,其特征在于,
所述确定所述名称信息中每个字符的字符属性对应的编码值,包括:
通过字符的字符属性查询映射表,得到与所述字符属性对应的编码值;
其中,所述映射表用于记录字符属性与编码值的对应关系。
6.根据权利要求1所述的方法,其特征在于,
利用字符组的字符属性从所述至少一个字符组中选取目标字符组,包括:
从所述至少一个字符组中选取出具有特定字符属性的字符组;
将选取的字符组确定为所述目标字符组。
7.根据权利要求1所述的方法,其特征在于,
所述根据所述目标字符组确定所述数据的类别,包括:
若目标字符组为一个,则将所述目标字符组确定为所述数据的类别;或,
若目标字符组为至少两个,则从至少两个目标字符组中选择一个目标字符组,并将选择的目标字符组确定为所述数据的类别。
8.根据权利要求7所述的方法,其特征在于,
所述从至少两个目标字符组中选择一个目标字符组,包括:
根据目标字符组的特征信息确定所述目标字符组的分数值;
从至少两个目标字符组中选择分数值最高的目标字符组。
9.根据权利要求8所述的方法,其特征在于,所述目标字符组的特征信息包括以下之一或者任意组合:所述目标字符组对应的总出现次数;使用所述目标字符组的企业总数量;所述目标字符组对应的目录数量。
10.根据权利要求9所述的方法,其特征在于,所述根据目标字符组的特征信息确定所述目标字符组的分数值时,所述分数值与所述总出现次数成正比,所述分数值与所述企业总数量成正比,所述分数值与所述目录数量成反比。
11.根据权利要求1所述的方法,其特征在于,
所述根据所述目标字符组确定所述数据的类别之后,所述方法还包括:
将所述目标字符组记录到分词词典中,所述分词词典用于进行分词处理。
12.根据权利要求1所述的方法,其特征在于,所述字符属性包括以下之一或者任意组合:文字字符、字母字符、数字字符、符号类字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810344756.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抄表设备和智能电表
- 下一篇:一种基于网纹特征的人脸网纹去除方法和装置