[发明专利]从图像中提取文本的方法、装置、存储介质及电子设备在审
申请号: | 202210692363.0 | 申请日: | 2022-06-17 |
公开(公告)号: | CN115188006A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 柳阳 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 黄灵飞 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 提取 文本 方法 装置 存储 介质 电子设备 | ||
1.一种从图像中提取文本的方法,其特征在于,所述方法包括:
根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
根据所述多个聚类中心的位置分布,确定所述多个聚类中心中相邻两个聚类中心之间的距离;
若所述距离小于预设距离阈值,则对所述相邻两个聚类中心进行合并处理,以将所述待处理图像划分为多个候选区域,并从所述多个候选区域中确定出文本区域;
提取所述文本区域中的像素点,得到所述文本区域的文本内容。
2.根据权利要求1所述的从图像中提取文本的方法,其特征在于,所述从所述多个候选区域中确定出文本区域,包括:
对于所述多个候选区域中的每一候选区域,确定所述候选区域中的图像内容是否包含文字结构;
若是,则将所述候选区域确定为文本区域。
3.根据权利要求1所述的从图像中提取文本的方法,其特征在于,所述提取所述文本区域中的像素点,得到所述文本区域的文本内容,包括:
提取所述文本区域中的像素点,并根据所述文本区域中的像素点识别所述文本区域中的文字字体;
若所述文字字体符合预设字体,则根据提取出的像素点确定所述文本区域的文本内容;
若所述文字字体不符合所述预设字体,则按照所述预设字体的字形特征对提取出的所述像素点进行调整,并根据调整后的像素点确定所述文本区域的文本内容。
4.根据权利要求3所述的从图像中提取文本的方法,其特征在于,所述按照所述预设字体的字形特征对提取出的所述像素点进行调整,并根据调整后的像素点确定所述文本区域的文本内容,包括:
识别提取出的所述像素点中包含的第一笔画轮廓;
按照所述预设字体的字形特征对所述第一笔画轮廓的尺寸和位置进行调整,得到第二笔画轮廓;
根据所述第二笔画轮廓构建所述文本区域的文本内容。
5.根据权利要求1-4任一项所述的从图像中提取文本的方法,其特征在于,所述提取所述文本区域中的像素点,得到所述文本区域的文本内容之后,所述方法还包括:
提取所述文本内容的语义特征;
按照所述语义特征和预设文本格式对所述文本内容中的文字进行排序,得到排序后的文本内容。
6.根据权利要求1-4任一项所述的从图像中提取文本的方法,其特征在于,所述根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心之前,所述方法还包括:
通过文本识别工具对所述待处理图像进行文本识别,得到识别结果;
若所述识别结果指示识别失败,则执行所述根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心的步骤;
若所述识别结果指示识别成功,则将所述识别结果确定为所述待处理图像的文本内容。
7.根据权利要求1-4任一项所述的从图像中提取文本的方法,其特征在于,所述根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心之前,所述方法还包括:
对宣传海报的背景进行抠除,将抠除背景后的图像内容作为所述待处理图像。
8.一种从图像中提取文本的装置,其特征在于,包括:
聚类处理模块,用于根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
文本区域识别模块,用于根据所述多个聚类中心的位置分布,确定所述多个聚类中心中相邻两个聚类中心之间的距离;若所述距离小于预设距离阈值,则对所述相邻两个聚类中心进行合并处理,以将所述待处理图像划分为多个候选区域,并从所述多个候选区域中确定出文本区域;
文本提取模块,用于提取所述文本区域中的像素点,得到所述文本区域的文本内容。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的从图像中提取文本的方法。
10.一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至7任一项所述的从图像中提取文本的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210692363.0/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序