[发明专利]文字识别方法及装置有效
申请号: | 202010019533.X | 申请日: | 2020-01-08 |
公开(公告)号: | CN111242114B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 薛文元;黄珊;李清勇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/18;G06V30/19 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁;张海秀 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 方法 装置 | ||
1.一种文字识别方法,其特征在于,包括:
获取待识别图像;
基于所述待识别图像,对所述待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像,其中,若对所述待识别图像中的文字和背景均进行风格转换,转换后的所述文字对应的风格与所述背景对应的风格不同;
对所述转换后的图像中进行文字识别,得到文字识别结果;
对所述待识别图像进行风格转换,以及对所述转换后的图像中的文字进行文字识别,是通过文字识别模型得到的;
其中,所述文字识别模型是基于以下方式训练得到的:
获取训练样本对,每个所述训练样本对包括第一样本图像和第二样本图像,其中,所述第二样本图像为所述第一样本图像所对应的风格转换后的图像,所述第一样本图像携带有文字标签,所述文字标签表征了所述第一样本图像中的文字标注结果;所述第一样本图像对应第三图像风格,所述第二样本图像对应第四图像风格;
基于所述第一样本图像对初始神经网络模型进行训练,直至所述初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为所述文字识别模型;
其中,所述初始神经网络模型包括级联的第一风格转换网络和文字识别网络,所述第一风格转换网络用于将输入图像转换为所述第四图像风格的图像;所述第一风格转换网络的输入包括所述第一样本图像,输出包括第一图像,所述文字识别网络的输入包括所述第一图像,输出包括所述第一图像的文字识别结果;
所述损失函数包括图像损失函数和文本识别损失函数,所述图像损失函数包括了表征了所述第二样本图像和对应的所述第一图像之间的差异的损失函数,所述文本识别损失函数包括了表征了所述第一样本图像中的文字标注结果和对应的所述第一图像的文字识别结果之间的差异的损失函数;
其中,作为所述文字识别模型包括训练结束时的所述级联的所述第一风格转换网络和所述文字识别网络;
若所述训练样本对中的文字为元音附标型文字,每个文字由至少一个字符组成,所述第一样本图像中的文字标签是通过以下方式确定的:
获取所述第一样本图像以及所述第一样本图像的字符标签,一个字符标签表征了所述第一样本图像中待识别文字对应的一个字符;
按照所述第一样本图像中文字的书写规则,基于所述字符标签生成文字标签;
所述书写规则为文字中各字符的组成顺序;
基于每个文字的字符标签生成对应的文字标签,所述文字标签表征了样本图像中的每个待识别文字的文字标注结果,通过所述文字标签反应出对应文字的书写规则。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像,包括:
对所述待识别图像的文字进行第一图像风格的转换,对所述待识别图像的背景进行第二图像风格的转换,得到所述转换后的图像;
其中,所述第一图像风格为黑色字体,所述第二图像风格为白色背景。
3.根据权利要求1所述的方法,其特征在于,所述对所述转换后的图像中的文字进行文字识别,得到文字识别结果,包括:
提取所述转换后的图像的图像特征;
基于所述图像特征,采用循环神经网络得到所述文字识别结果。
4.根据权利要求1所述的方法,其特征在于,所述文字识别网络的输入还包括所述第二样本图像或所述第一样本图像中的至少一项;
若所述文字识别网络的输入包括所述第二样本图像,所述文本识别损失函数还包括表征了所述第一样本图像中的文字标注结果和对应的所述第二样本图像的文字识别结果之间的差异的损失函数;
若所述文字识别网络的输入包括所述第一样本图像,所述文本识别损失函数还包括表征了所述第一样本图像中的文字标注结果和所述第一样本图像的文字识别结果之间的差异的损失函数。
5.根据权利要求1或4所述的方法,其特征在于,所述初始神经网络模型还包括第二风格转换网络,所述第二风格转换网络用于将输入图像转换为所述第三图像风格的图像,所述第二风格转换网络的输入包括所述第二样本图像,输出包括第二图像;
所述图像损失函数还包括表征了所述第一样本图像与所述第二图像之间的差异的损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010019533.X/1.html,转载请声明来源钻瓜专利网。