[发明专利]文字识别矫正的方法在审

申请号：	202011482957.6	申请日：	2020-12-16
公开（公告）号：	CN112507080A	公开（公告）日：	2021-03-16
发明（设计）人：	吕学强;游新冬;董志安	申请（专利权）人：	北京信息科技大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289;G06F40/232;G06F40/166
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字识别矫正方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文字识别矫正的方法，其特征在于，包括：

构建专业词库；

构建识别结果区域矩阵；

矫正。

2.根据权利要求1所述的方法，其特征在于，所述矫正包括：

基于语言模型进行矫正；

基于编辑距离和最长公共子序列进行矫正；

基于对应关系进行矫正。

3.根据权利要求2所述的方法，其特征在于，基于语言模型进行矫正，包括：

语言模型通过概率分布来统计字符出现的概率，通过统计结果，计算最大的条件概率；第一个检测区域识别的结果S₁，选取CRNN网络给出的前三个候选字，每个候选区域的概率W(S₁)根据网络预测的概率重新归一化，第二个候选区域识别结果S₂，选取CRNN网络给出的前三个候选字，每个候选区域的概率W(S₂)根据网络预测的概率重新归一化，第二个候选区域识别结果S₂，选取CRNN网络给出的前三个候选字，每个候选区域的概率W(S₃)根据网络预测的概率重新归一化；

根据概率统计分析，条件概率P(S₂|S₁)，即S₁出现的情况下后面接S₂的概率；

f＝W(S₁)P(S₂|S₁)W(S₂)P(S₃|S₂)W(S₃)

f的最大值即为最优得组合方式；

对于预测序列S₁，S₂，S₃...S_n，需要计算f的最大值，W(S_i)根据CRNN预测概率进行重新归一化，条件概率P(S_i+1|S_i)根据词库，统计S_i出现的次数N(S_i)，统计S_i和S_i+1前后共同出现的次数N(S_i，S_i+1)，