[发明专利]一种多层三值主元与双向长短期记忆融合的文本识别方法有效
申请号: | 202110672336.2 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113408525B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 纪禄平;李真;陈香 | 申请(专利权)人: | 成都崇瑚信息技术有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V10/82;G06V10/77;G06N3/04;G06N3/08 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 李英 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多层 三值主元 双向 短期 记忆 融合 文本 识别 方法 | ||
1.一种多层三值主元与双向长短期记忆融合的文本识别方法,其特征在于:包括以下步骤:
一、向场景文本模型输入一张包含文本信息的场景图像;
二、经过基于多层融合的多层三值主元网TPCANet模型获得图像特征输出;
三、将图像特征输入长短期记忆网BLSTM网络预测每个像素点上对应的k个锚点框的置信度;
四、再输入全连接进行预测最可能的文本框坐标;
五、根据文本框坐标在原图像上进行目标文本框的切割;
六、将切割得到的文本框输入基于多层融合的多层三值主元网TPCANet模型提取包含更多文本信息及空间信息的特征输出;
七、继续输入长短期记忆网BLSTM网络预测特征序列对应字符的概率;
八、将带概率的序列输入CTC网络预测最大概率的序列,实现转录,从而输出所需要的文本序列。
2.根据权利要求1所述的一种多层三值主元与双向长短期记忆融合的文本识别方法,其特征在于:多层融合的TPCANet模型算法过程为:设数据集有N个大小为m×n的训练样本,设置滤波器大小始终为k1×k2,三值化邻域半径为r;
Step1:输入一个包含文本形象的图像数据集I;
Step2:对输入图像样本Ii做邻域半径为r的块采样,并进行三值化运算处理;
Step3:对每个Step2经过三值化处理的图像样本做去均值化处理,并将所有经过去均值化处理后的图像样本进行级联形成矩阵;
Step4:对Step3中产生的矩阵进行主成分分析,获得第一阶段L1个卷积核
Step5:使用第一阶段的L1个卷积核对原始图像Ii做卷积,得到对应的L1个特征图像
Step6:将整个图像数据集在第一阶段产生的特征图像进行做去均值化处理,并将所有经过去均值化处理后的特征图像进行级联形成矩阵;
Step7:对Step6中产生的矩阵进行主成分分析,获得第二阶段L2个卷积核
Step8:使用第二阶段的L2个卷积核对第i个原始图像Ii在第一阶段由第l1个第一层的卷积核卷积得到的特征图像做卷积,将得到对应的L2个特征图像因此,第i个原始图像Ii在第二阶段总共将会产生L1×L2个特征图像:其中l1=1,2,…,L1;
Step9:对Step5与Step8中得到的第i个图像样本在第一阶段卷积产生的结果及第二阶段中产生的卷积结果进行加权融合
3.根据权利要求2所述的一种多层三值主元与双向长短期记忆融合的文本识别方法,其特征在于:步骤二中,先进行特征提取,然后进行多尺寸窗口滑动采样,采用3×3的空间采样块,对带有空间信息的卷积结果进行滑动采样。
4.根据权利要求3所述的一种多层三值主元与双向长短期记忆融合的文本识别方法,其特征在于:步骤三中,BLSTM将从两个方向上对循环上下文进行编码,每个滑动窗口的卷积特征从两个方向循环顺序地输入两个LSTM网络,并更新其内部特征隐层中Ht的循环状态;
Ht=φ(Ht-1,Xt),t=1,2,...,W;
其中Ht是循环内部状态,由当前输入Xt和Ht-1中编码的先侧状态共同计算得出;Xt∈R3×3×C是第t个滑动采样窗口的卷积特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都崇瑚信息技术有限公司,未经成都崇瑚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110672336.2/1.html,转载请声明来源钻瓜专利网。