[发明专利]一种文本定位方法及装置在审
申请号: | 201810262653.5 | 申请日: | 2018-03-28 |
公开(公告)号: | CN109740585A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 韩冰天;丛国华 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62;G06N3/04 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 祝海燕 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 文本区域 定位方法及装置 特征向量 预选区域 自动化 图像 定位处理过程 卷积神经网络 人工参与 输入图像 合并 全程 | ||
本发明提出一种文本定位方法及装置,该方法包括:提取得到输入图像的特征向量;根据所述特征向量,从所述图像中选择出至少一个文本预选区域;利用经过训练的卷积神经网络调整所述至少一个文本预选区域,得到至少一个文本区域;将所述至少一个文本区域进行合并,确认所述图像中的文本区域的位置。上述方法为自动化的文本定位处理过程,全程不需要人工参与,实现了文本定位的自动化。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文本定位方法及装置。
背景技术
数字图像中一般会包含文本内容,在很多应用场合中,需要从数字图像中定位出文本内容,例如在图像文本识别场景中,需要首先从图像中定位出文本,然后对定位的文本进行内容识别。
最准确的文本定位就是由人工来主动框选图像中的文本区域。而人工主动框选文本区域,需要用户与设备交互多次,才能将图像中的文本区域标注明确,这些交互过程主要集中在调整标记框位置、大小等。显然利用人工框选文本区域,其实现过程复杂,需要用户操作较多,用户体验不佳。并且,随着移动设备的普及,用户更希望能够在移动设备上实现自动化的图像文本定位。
发明内容
基于上述现有技术现状,本发明提出一种文本定位方法及装置,能够实现自动化的图像文本定位,并且可以应用到移动设备。
一种文本定位方法,包括:
提取得到输入图像的特征向量;
根据所述特征向量,从所述图像中选择出至少一个文本预选区域;
利用经过训练的卷积神经网络调整所述至少一个文本预选区域,得到至少一个文本区域;
将所述至少一个文本区域进行合并,确认所述图像中的文本区域的位置。
优选地,所述根据所述特征向量,从所述图像中选择出至少一个文本预选区域,包括:
将所述特征向量输入区域推荐网络,使所述区域推荐网络根据所述特征向量从所述图像中选择出至少一个文本预选区域。
优选地,对所述卷积神经网络的训练,包括:
循环执行以下操作,直到计算得到的运算误差小于设定阈值:
将包含至少一个文本预选区域,以及与所述至少一个文本预选区域对应的已标注的至少一个文本区域的图像输入卷积神经网络,使所述卷积神经网络按照预设运算参数,调整所述图像中的至少一个文本预选区域,得到至少一个文本区域;
将所述卷积神经网络调整得到的至少一个文本区域与所述已标注的至少一个文本区域进行对比,得到所述卷积神经网络的运算误差;
判断所述运算误差是否小于设定阈值;
如果所述运算误差不小于设定阈值,则根据所述运算误差,调整所述卷积神经网络的运算参数。
优选地,所述将所述至少一个文本区域进行合并,包括:
将所述至少一个文本区域按照行方向进行合并。
优选地,所述提取得到输入图像的特征向量,包括:
将图像输入VGG16卷积神经网络,利用所述VGG16卷积神经网络提取得到所述图像的特征向量。
一种文本定位装置,包括:
特征提取单元,用于提取得到输入图像的特征向量;
区域选择单元,用于根据所述特征向量,从所述图像中选择出至少一个文本预选区域;
区域调整单元,用于利用经过训练的卷积神经网络调整所述至少一个文本预选区域,得到至少一个文本区域;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810262653.5/2.html,转载请声明来源钻瓜专利网。