[发明专利]电报码数据库的构建方法、电报码识别方法及装置有效
申请号: | 201711164287.1 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107943923B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 常志远;王叶;杨小芳 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22;G06F16/2455;H04L13/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电报 数据库 构建 方法 识别 装置 | ||
1.一种电报码数据库的构建方法,其特征在于,包括:
对简体汉字电报码库和繁体汉字电报码库中的电报码数据进行差异识别处理,得到差异电报码数据,所述差异电报码数据包括一个电报码对应多个汉字的电报码数据;
比较所述差异电报码数据中同一电报码所对应的多个汉字的使用率,基于汉字的使用率对同一电报码所对应的多个汉字进行优先级排序,其中,使用率最高的汉字所对应的优先级排序最高;
获取简体汉字电报码库和繁体汉字电报码库中的非差异电报码数据;
基于包含优先级排序的差异电报码数据和所述非差异电报码数据构建简繁体汉字的电报码数据库。
2.根据权利要求1所述的方法,其特征在于,所述非差异电报码数据包括:
一个电报码对应相同的汉字的电报码数据以及,一个电报码对应一个简体汉字或一个繁体汉字的电报码数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将一个电报码对应一个简体汉字的电报码数据中的电报码作为所述简体汉字所对应繁体汉字的电报码,得到第一替代电报码数据;
将一个电报码对应一个繁体汉字的电报码数据中的电报码作为所述繁体汉字所对应简体汉字的电报码,得到第二替代电报码数据;
比较所述第一替代电报码数据和所述第二替代电报码数据中同一电报码所对应多个汉字的使用率;
基于汉字的使用率对同一电报码所对应的多个汉字进行优先级排序,其中,使用率最高的汉字所对应的优先级排序最高;
相应的,所述非差异电报码数据包括包含优先级排序的第一替代电报码数据和包含优先级排序的第二替代电报码数据。
4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
统计所述电报码数据库中同一电报码所对应的汉字的数量,将所述汉字的数量添加到所述电报码数据库。
5.一种电报码识别方法,其特征在于,包括:
获取电报码;
查询预先构建的电报码数据库获取所述电报码所对应的汉字,所述电报码数据库包括包含优先级排序的电报码数据;
判断查询到的汉字的数量是否大于一;
当判断的结果为是时,根据查询到的汉字中优先级排序选取所述电报码的译码数据;所述根据查询到的汉字中优先级排序选取所述电报码的译码数据包括:选取查询到的汉字中优先级排序最高的汉字作为所述电报码的译码数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当判断的结果为否时,将查询到的汉字作为所述电报码的译码数据。
7.一种电报码数据库的构建装置,其特征在于,包括:
差异识别处理模块,用于对简体汉字电报码库和繁体汉字电报码库中的电报码数据进行差异识别处理,得到差异电报码数据,所述差异电报码数据包括一个电报码对应多个汉字的电报码数据;
第一使用率比较模块,用于比较所述差异电报码数据中同一电报码所对应的多个汉字的使用率;
第一优先级排序模块,用于基于汉字的使用率对同一电报码所对应的多个汉字进行优先级排序,其中,使用率最高的汉字所对应的优先级排序最高;
数据获取模块,用于获取简体汉字电报码库和繁体汉字电报码库中的非差异电报码数据;
电报码数据库构建模块,用于基于包含优先级排序的差异电报码数据和所述非差异电报码数据构建简繁体汉字的电报码数据库。
8.根据权利要求7所述的装置,其特征在于,所述非差异电报码数据包括:
一个电报码对应相同的汉字的电报码数据以及,一个电报码对应一个简体汉字或一个繁体汉字的电报码数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711164287.1/1.html,转载请声明来源钻瓜专利网。