[发明专利]字典设置方法、装置、介质及电子设备在审
申请号: | 201911183938.0 | 申请日: | 2019-11-27 |
公开(公告)号: | CN111078821A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 王洁;刘设伟;张博熠 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康在线财产保险股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 李玉锁;石海霞 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字典 设置 方法 装置 介质 电子设备 | ||
1.一种字典设置方法,其特征在于,包括:
获取字典,所述字典中相似特征的字符的索引标签值连续;
根据所述字典中每个字符的特征将所述字典中的字符分成N个字符集,每个字符集中字符的特征相似,N为正整数;
基于所述字典中每个字符的索引标签值利用注意力模型对每个字符集中字符的索引标签值进行设置,以增大每个字符集中字符与字符之间的索引标签值的距离;
基于设置后的字符集生成新字典,所述新字典中相似特征的字符的索引标签值不连续。
2.根据权利要求1所述的方法,其特征在于,设所述字典中字符的个数为L,所述N个字符集分别为D1~DN,所述D1~DN中分别包括L1~LN个字符,L1+L2+……+LN=L,以及设k=i=j=1,k为所述字典的第k个字符,i为每个字符集的第i个字符,j为每个字符集D的下标和每个字符集所包含字符个数L的下标,其中,L、N、k、i、j分别为正整数,
基于所述字典中每个字符的索引标签值利用注意力模型对每个字符集中字符的索引标签值进行设置包括:
当j≤N且i≤Lj时,将字符集Dj中的第i个字符的索引标签值设置为所述字典中第k个字符的索引标签值;
设置j=j+1,k=k+1;
循环上述两个步骤,直到j>N停止设置。
3.根据权利要求2所述的方法,其特征在于,基于所述字典中每个字符的索引标签值利用注意力模型对每个字符集中字符的索引标签值进行设置还包括:
当j>N时,令i=i+1,j重置为1;
当j≤N且i≤Lj时,将字符集Dj中的第i个字符的索引标签值设置为所述字典中第k个字符的索引标签值,设置j=j+1,k=k+1,循环该步骤,直到j>N停止设置;
循环上述两个步骤,直到i>Lm停止设置,其中,Lm为L1~LN中的最大值。
4.根据权利要求1所述的方法,其特征在于,所述新字典中相似特征的字符的索引标签值不连续包括:所述新字典中相似特征的字符的索引标签值距离为N。
5.根据权利要求1~4任意一项所述的方法,其特征在于,该方法还包括:
获取待识别字符图像,所述待识别图像中包含有相似特征的字符;
对所述待识别图像进行特征提取,得到所述待识别字符图像的特征序列;
通过所述新字典对所述待识别字符图像的特征序列进行识别,得到所述相似特征的字符的索引标签值。
6.根据权利要求5所述的方法,其特征在于,所述相似特征的字符的索引标签值的距离为N。
7.根据权利要求5所述的方法,其特征在于,对所述待识别图像进行特征提取,得到所述待识别字符图像的特征序列包括:
通过CRNN算法对所述待识别图像进行特征提取,得到所述待识别字符图像的特征序列。
8.一种字典设置装置,其特征在于,包括:
获取模块,用于获取字典,所述字典中相似特征的字符的索引标签值连续;
划分模块,用于根据所述字典中每个字符的特征将所述字典中的字符划分成N个字符集,每个字符集中字符的特征相似,N为正整数;
设置模块,基于所述字典中每个字符的索引标签值利用注意力模型对每个字符集中字符的索引标签值进行设置,以增大每个字符集中字符与字符之间的索引标签值的距离;
生成模块,基于设置后的字符集生成新字典,所述新字典中相似特征的字符的索引标签值不连续。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康在线财产保险股份有限公司,未经泰康保险集团股份有限公司;泰康在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911183938.0/1.html,转载请声明来源钻瓜专利网。