[发明专利]一种文本定位方法、装置、电子设备及存储介质在审
申请号: | 202010416696.1 | 申请日: | 2020-05-18 |
公开(公告)号: | CN111340028A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 张发恩;孙天齐;袁智超;陆强 | 申请(专利权)人: | 创新奇智(北京)科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 定位 方法 装置 电子设备 存储 介质 | ||
本申请提供一种文本定位方法、装置、电子设备及存储介质,用于改善在图像中确定文本边框的效果较差的问题。该方法包括:获得待测图像;使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图,字符区域概率图表征图像区域中存在字符的概率大小,字符连接概率图表征图像区域中的字符之间存在连接的概率大小;根据字符区域概率图确定待测图像中的多个字符边框,字符边框表征图像中存在字符的位置范围;根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框,文本边框表征图像中的多个字符边框对应字符组成文本的位置范围。
技术领域
本申请涉及人工智能、图像处理和文本识别的技术领域,具体而言,涉及一种文本定位方法、装置、电子设备及存储介质。
背景技术
文本识别,是指对包括字符的图像进行分析处理,获取版面信息并识别其中的字符,从而将文本图像转换为电子文本的过程。从图像中识别字符的过程包括:图像采集、图像预处理、行分割、字符分割和字符识别;图像采集是指使用摄像头将手写体的文字图片拍照采集录入;图像预处理是指对字符图像进行去噪和旋转矫正等处理。行分割是指在预处理完成以后,采用投影法将文字行分割出来,分割出来的结果例如:一行文字图像;字符分割是指在文字分割完成以后,将一行文字图分割为字符图像;字符识别是指从字符图像中识别出该字符图像对应的字符或者字符编码。
文本定位,是指从图像中检测出文本的位置范围,例如:广告牌上的广告文字等,可以简单地理解为上述的行分割,也可以理解为确定多个字符组成的文本位置范围的过程。
在具体的实践过程中,图像中的字符背景复杂多样,例如:广告牌上文字形变严重,以及产品包装上褶皱弯曲等等情况,目前使用传统方法很难从上述情况下的图像中确定出合适的文本边框,该文本边框表征图像中的多个字符组成文本的位置范围,也就是说,使用上述方法在图像中确定文本边框的效果较差。
发明内容
本申请实施例的目的在于提供一种文本定位方法、装置、电子设备及存储介质,用于改善在图像中确定文本边框的效果较差的问题。
本申请实施例提供了一种文本定位方法,包括:获得待测图像;使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图,字符区域概率图表征图像区域中存在字符的概率大小,字符连接概率图表征图像区域中的字符之间存在连接的概率大小;根据字符区域概率图确定待测图像中的多个字符边框,字符边框表征图像中存在字符的位置范围;根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框,文本边框表征图像中的多个字符边框对应字符组成文本的位置范围。在上述的实现过程中,使用预先训练的神经网络模型预测获得的待测图像的字符区域概率图和字符连接概率图;再根据字符区域概率图确定待测图像中的多个字符边框;然后根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框;也就是说,通过使用字符连接概率图中表征字符连接概率预测出连接在一起的字符边框,避免将两个距离较远的文本区域识别为一个文本边框的情况,同时也避免了将字形严重变化或者文字极度弯曲的情况下识别为两个文本边框的情况,极大地提高了确定待测图像中的字符连接的准确率,从而有效地提高了确定待测图像中的文本边框的效果。
可选地,在本申请实施例中,在使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图之后,在根据字符区域概率图确定待测图像中的多个字符边框之前,还包括:对待测图像的字符区域概率图和字符连接概率图进行高斯滤波,获得滤波后的字符区域概率图和字符连接概率图。在上述的实现过程中,通过对待测图像的字符区域概率图和字符连接概率图进行高斯滤波,获得滤波后的字符区域概率图和字符连接概率图,将较小概率字符区域消除,使得滤波后的字符区域概率图和字符连接概率图的连接处更加平滑,从而有效地提高了确定待测图像中的文本边框的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(北京)科技有限公司,未经创新奇智(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010416696.1/2.html,转载请声明来源钻瓜专利网。