[发明专利]文本识别方法及装置有效
申请号: | 202110793698.7 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113505794B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 鄂小松;刘晨哲;张恒;王锋;蒋宏斌 | 申请(专利权)人: | 树蛙信息科技(南京)有限公司 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V30/19;G06N3/0442;G06N3/0464;G06N3/084;G06V30/18 |
代理公司: | 北京科领智诚知识产权代理事务所(普通合伙) 11782 | 代理人: | 陈士骞 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 | ||
1.一种文本识别方法,其特征在于,所述方法包括:
获取第一字符识别结果和第二字符识别结果;所述第一字符识别结果为对基于通用字符识别模型识别得到的识别结果进行贪心算法计算而得,所述第二字符识别结果为对基于特殊字符识别模型识别得到的识别结果进行贪心算法计算而得,所述通用字符识别模型能够识别通用宽度的字符,所述特殊字符识别模型能够识别特殊宽度的字符;
确定所述通用字符识别模型和所述特殊字符识别模型中划分字符个数,从字符个数相对少的字符识别模型对应的字符识别结果中获取目标字符和所述目标字符对应的后验概率;
根据所述通用字符识别模型和所述特殊字符识别模型中划分字符个数的对应关系,从另一个字符识别模型对应的字符识别结果中获取至少两个字符,以及所述至少两个字符的后验概率;
若所述至少两个字符均非第一指定字符,则将所述至少两个字符替换为所述目标字符;若所述至少两个字符中存在至少一个所述第一指定字符,则根据由所述目标字符对应的后验概率、所述至少两个字符的后验概率确定的第一识别后验置信度,确定是否将所述至少两个字符替换为所述目标字符;
或者,若所述目标字符为非第二指定字符,则将所述目标字符替换为所述至少两个字符;若所述目标字符为所述第二指定字符,则根据由所述目标字符对应的后验概率、所述至少两个字符的后验概率确定的第二识别后验置信度,确定是否将所述目标字符替换为所述至少两个字符;
对替换处理后的字符识别结果进行去冗余处理,获得最终字符识别结果。
2.如权利要求1所述的方法,其特征在于,根据由所述目标字符对应的后验概率、所述至少两个字符的后验概率确定的第一识别后验置信度,确定是否将所述至少两个字符替换为所述目标字符,包括:
计算所述至少两个字符的后验概率之和,并将所述目标字符对应的后验概率的2倍与所述后验概率之和的比值确定为所述第一识别后验置信度;
若所述第一识别后验置信度大于1,则将所述至少两个字符替换为所述目标字符;
若所述第一识别后验置信度小于或者等于1,则不对所述至少两个字符进行替换处理。
3.如权利要求1所述的方法,其特征在于,根据由所述目标字符对应的后验概率、所述至少两个字符的后验概率确定的第二识别后验置信度,确定是否将所述目标字符替换为所述至少两个字符包括:
计算所述至少两个字符的后验概率之和,并将所述后验概率之和与所述目标字符对应的后验概率的2倍的比值确定为所述第二识别后验置信度;
若所述第二识别后验置信度大于1,则将所述目标字符替换为所述至少两个字符;
若所述第二识别后验置信度小于或者等于1,则不对所述目标字符进行替换处理。
4.如权利要求1所述的方法,其特征在于,所述特殊字符识别模型的训练方法包括:
将训练样本输入卷积神经网络CNN中输出特征图;所述训练样本包括文字图像;
根据所述特征图提取长短期记忆人工神经网络LSTM所需的X个特征向量,X与基于所述通用字符识别模型提取的特征向量数量不同;
将所述X个特征向量输入所述LSTM中,输出每个字符的后验概率;
将所述后验概率输入第一损失函数和/或第二损失函数中,计算损失值;
根据所述损失值调整所述LSTM的参数,直至损失值满足预设收敛条件时,所对应的模型为所述特殊字符识别模型;
所述第一损失函数为:
所述第二损失函数为:
其中,π为经过softmax识别后的字符序列,所述字符序列包括T个字符,表示第t个字符的后验概率,z为去除冗余后的字符识别结果,B-1(z)为z全部路径集合的映射函数,A为特殊宽度字符集合,为第t个最优字符。
5.如权利要求4所述的方法,其特征在于,根据所述特征图提取LSTM所需的X个特征向量,包括:
获取所述特征图的宽度w、通用字符特征宽度d以及预设宽度比例k;
利用计算字符划分个数X;
从所述特征图中提取X个特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于树蛙信息科技(南京)有限公司,未经树蛙信息科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110793698.7/1.html,转载请声明来源钻瓜专利网。