[发明专利]一种多任务增强场景文本识别方法及系统在审
申请号: | 202210339990.6 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114821559A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 齐飞;李景泉;邓亚鹏;石光明 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/146;G06V30/19;G06N3/04;G06N3/08 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 吴莹 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 增强 场景 文本 识别 方法 系统 | ||
1.一种多任务增强场景文本识别方法,其特征在于,所述方法应用一种多任务增强场景文本识别模型,所述模型包括矫正网络模块、特征生成模块、上下文建模模块、预测模块和分支任务模块,所述方法包括:
将第一场景原始信息输入矫正网络模块,生成第一矫正结果信息;
将所述第一矫正结果信息输入特征生成模块,获得第一文本特征信息;
将所述第一文本特征信息输入上下文建模模块,获得第一上下文建模结果;
将所述第一上下文建模结果输入预测模块,获得第一文本识别结果;
将所述第一文本特征信息输入分支任务模块,生成第二文本识别结果;
根据所述第一文本识别结果和所述第二文本识别结果训练多任务增强场景文本识别模型;
将第二场景原始信息输入所述多任务增强场景文本识别模型,获得第一多任务文本识别结果。
2.如权利要求1所述的方法,其特征在于,所述将所述第一文本特征信息输入分支任务模块,生成第二文本识别结果,包括:
根据所述分支任务模块,获得第一分支任务模块和/或第二分支任务模块;
将所述第一文本特征信息输入所述第一分支任务模块,获得第一任务文本识别结果;
将所述第一文本特征信息输入所述第二分支任务模块,获得第二任务文本识别结果。
3.如权利要求2所述的方法,其特征在于,所述将所述第一文本特征信息输入所述第一分支任务模块,获得第一任务文本识别结果,包括:
根据所述第一文本特征信息,生成第一位置编码;
基于注意力机制通过所述第一文本特征和所述第一位置编码进行特征融合,获得第一位置融合特征;
将所述第一位置融合特征输入第一全连接层进行存在性特征提取,再通过Sigmoid激活函数进行处理后,获得第一存在性特征;
将所述第一存在性特征输入长度预测公式,获得第一字符串长度预测结果;
其中,所述长度预测公式为:
其中,YLEN表示当前位置的字符串长度预测结果,表示T表征的字符串长度在对应位置的存在性特征,WLEN为T表征的字符串长度对应的权重,R1T×T为T×T个字符串长度组成的取值矩阵,T表示最长的字符串长度,Fe表示存在性特征,R1T×1表示字符串长度的取值矩阵。
4.如权利要求3所述的方法,其特征在于,所述根据所述第一文本特征信息,生成第一位置编码,包括:
获得第一位置编码计算公式:
PLEN=PoriginWpe,PLEN、Wpe∈R2T×D
其中,PLEN表示文本位置编码,Porigin=IT×T表示对字符位置的one-hot编码,I表示矫正后的场景文本信息,T表示最长字符串长度,D表示所述第一文本特征信息的维度数,Wpe为可学习的Porigin的权重矩阵,R2T×D为T×D个字符串长度对应权重组成的取值矩阵;
将所述第一文本特征输入所述第一位置编码计算公式,生成所述第一位置编码。
5.如权利要求4所述的方法,其特征在于,所述基于注意力机制通过所述第一文本特征和所述第一位置编码进行特征融合,获得第一位置融合特征,包括:
获得第一位置融合特征计算公式:
其中,FI表示文本特征信息,表示文本特征对应的字符串长度,FLEN表示位置融合特征;
将所述第一文本特征信息和所述第一位置编码输入所述第一位置特征计算公式,获得所述第一位置融合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210339990.6/1.html,转载请声明来源钻瓜专利网。